動画で簡単分類、おそるべし Video Transformer.

おんちゃん (2026年4月16日 13:09)

動画で簡単分類、おそるべし Video Transformer.

画像と音（スペクトログラム）で分類、マルチモーダルTransformer.
の続きです。

CNN-Transformer ハイブリッドモデルで、動画のクラス分類をする。
かって、CNNとLSTMを組み合わせたモデルの「LRCN (Long-term Recurrent Convolutional Networks)」の、 LSTM 部分を、
Transformer に置き換えたモデル。

犬の動画(今回は、映像部分のみ) を使って、わんこの気持ちを予測します。

今回は、わんこの動画(mp4) の Video 部分だけを、使って、転移学習から、Full Scratch 学習まで行います。

クラス数=5 なので、とにかく簡単に、学習が完了します。