2023年12月 - 先端技術社会科学研究所

論文紹介: DocLLM――レイアウトを考慮した文書理解向け生成言語モデル

2023年12月31日

arXivのプレプリントとして、文書の文字情報に加えてレイアウト情報を扱うDocLLMが公開されています。 / 画像エンコーダーを使わず、主にbounding box情報を用いて空間的な配置を取り込む点が特徴とされています。 / 請求書、契約書、フォームなどの企業文書を対象に、4つの文書理解タスクで微調整され、複数データセットで性能を示したと要約されています。