論文紹介: 人手で作成した科学系マルチモーダル指示で大規模言語モデルを調整する「SCITUNE」
2023年7月3日
arXivのプレプリントとして、科学論文由来のマルチモーダル指示にLLMを合わせるための調整手法「SciTune」が提案されています。 / 著者らは、視覚エンコーダーとLLMをつないだ大規模マルチモーダルモデル「LLaMA-SciTune」を訓練し、図表種別やキャプション生成のベンチマークで既存手法を上回ったとしています。 / ScienceQAでは、合成データのみで調整したモデルと比べて、人間の性能を平均的に上回る結果も示されたと説明されています。
