ネットモール土佐ブログ: 2026年4月アーカイブ

2026年4月アーカイブ

画像と音（スペクトログラム）で分類、マルチモーダルTransformer.

おんちゃん (2026年4月 1日 13:37)

画像と音（スペクトログラム）で分類、マルチモーダルTransformer.

Transformer に、画像と音（スペクトログラム）を同時入力して、クラス分類ができるみたい。
たとえば、犬の画像(動画) と、鳴き声を同時に入力して、犬の状態が分類できる、モデルができるみたいじゃ。

しかし、部屋の犬だったら、動き回るから、カメラで捉えづらい。
ゲージの中にいる犬だった、映像と音声が撮れそうかも。
マルチモーダルで、場合によっては、鳴き声だけの処理にすれば、可能か!!

転移学習するには、まず学習用の動画を集めないといかん。

2026年4月アーカイブ

画像と音（スペクトログラム）で分類、マルチモーダルTransformer.

検索

このアーカイブについて

カテゴリ

月別アーカイブ

ウェブページ

サイトナビ

2026年4月アーカイブ

画像と音（スペクトログラム）で分類、マルチモーダルTransformer.

検索

このアーカイブについて

カテゴリ

月別 アーカイブ

ウェブページ

サイトナビ

月別アーカイブ