AI関連ニュース
論文紹介: DocLLM――レイアウトを考慮した文書理解向け生成言語モデル

arXivのプレプリントとして、文書の文字情報に加えてレイアウト情報を扱うDocLLMが公開されています。 / 画像エンコーダーを使わず、主にbounding box情報を用いて空間的な配置を取り込む点が特徴とされています。 / 請求書、契約書、フォームなどの企業文書を対象に、4つの文書理解タスクで微調整され、複数データセットで性能を示したと要約されています。

続きを読む