2026年4月アーカイブ

画像と音(スペクトログラム)で分類、マルチモーダルTransformer.

Transformer に、画像と音(スペクトログラム)を同時入力して、クラス分類ができるみたい。
たとえば、犬の画像(動画) と、鳴き声を同時に入力して、犬の状態が分類できる、モデルができるみたいじゃ。

しかし、部屋の犬だったら、動き回るから、カメラで捉えづらい。
ゲージの中にいる犬だった、映像と音声が撮れそうかも。
マルチモーダルで、場合によっては、鳴き声だけの処理にすれば、可能か!!

転移学習するには、まず学習用の動画を集めないといかん。

このアーカイブについて

このページには、2026年4月に書かれたブログ記事が新しい順に公開されています。

前のアーカイブは2026年3月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

カテゴリ

月別 アーカイブ

ウェブページ

サイトナビ