AI関連ニュース
論文紹介: DeepSport、スポーツ動画の多様な推論に向けたマルチモーダル大規模言語モデル

スポーツ動画の理解に向けて、複数競技・複数タスクに対応するエンドツーエンド学習型のMLLM「DeepSport」を提案する論文です。 / 論文要旨では、動画から受動的にフレームを読むのではなく、反復的にフレームを抽出して推論する仕組みを採用したとされています。 / 78k件規模のデータセットを、テキストと画像の蒸留を使う3段階の手順で構築したと説明されています。

続きを読む