AI関連ニュース
論文紹介: KM-BART: 知識を取り入れたマルチモーダルBARTによる視覚常識生成

画像とテキストを入力に、常識的な推論を行うマルチモーダル生成モデルを提案しています。 / BARTを画像と言語の両方を扱える形に拡張し、事前学習の新しいタスクを加えた点が主な特徴です。 / 特に Knowledge-based Commonsense Generation(KCG)という事前学習タスクが、Visual Commonsense Generation(VCG)の性能向上に寄与すると説明されています。

続きを読む