動画 で簡単分類、おそるべし Video Transformer.
画像と音(スペクトログラム)で分類、マルチモーダルTransformer.
の続きです。
CNN-Transformer ハイブリッドモデル で、動画のクラス分類をする。
かって、CNNとLSTMを組み合わせたモデルの「LRCN (Long-term Recurrent Convolutional Networks)」の、 LSTM 部分を、
Transformer に置き換えたモデル。
犬の動画(今回は、映像部分のみ) を使って、わんこの気持ちを予測します。
今回は、わんこの動画(mp4) の Video 部分だけを、使って、転移学習から、Full Scratch 学習まで行います。
クラス数=5 なので、とにかく簡単に、学習が完了します。
github に上げました。
dog_feel_classify_light