2021年1月 - 先端技術社会科学研究所

論文紹介: KM-BART: 知識を取り入れたマルチモーダルBARTによる視覚常識生成

2021年1月2日

画像とテキストを入力に、常識的な推論を行うマルチモーダル生成モデルを提案しています。 / BARTを画像と言語の両方を扱える形に拡張し、事前学習の新しいタスクを加えた点が主な特徴です。 / 特に Knowledge-based Commonsense Generation（KCG）という事前学習タスクが、Visual Commonsense Generation（VCG）の性能向上に寄与すると説明されています。