動画 で簡単分類、おそるべし Video Transformer.
画像と音(スペクトログラム)で分類、マルチモーダルTransformer.
の続きです。
CNN-Transformer ハイブリッドモデル で、動画のクラス分類をする。
かって、CNNとLSTMを組み合わせたモデルの「LRCN (Long-term Recurrent Convolutional Networks)」の、 LSTM 部分を、
Transformer に置き換えたモデル。
犬の動画(今回は、映像部分のみ) を使って、わんこの気持ちを予測します。