動画 で簡単分類、おそるべし Video Transformer.

動画 で簡単分類、おそるべし Video Transformer.

画像と音(スペクトログラム)で分類、マルチモーダルTransformer.
の続きです。

CNN-Transformer ハイブリッドモデル で、動画のクラス分類をする。
かって、CNNとLSTMを組み合わせたモデルの「LRCN (Long-term Recurrent Convolutional Networks)」の、 LSTM 部分を、
Transformer に置き換えたモデル。

犬の動画(今回は、映像部分のみ) を使って、わんこの気持ちを予測します。

このブログ記事について

このページは、おんちゃんが2026年4月16日 13:09に書いたブログ記事です。

ひとつ前のブログ記事は「画像と音(スペクトログラム)で分類、マルチモーダルTransformer.」です。

次のブログ記事は「機械の音で、故障の診断 Sound Sensor Transformer.」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

カテゴリ

月別 アーカイブ

ウェブページ

サイトナビ