arXivのプレプリントとして、文書の文字情報に加えてレイアウト情報を扱うDocLLMが公開されています。 / 画像エンコーダーを使わず、主にbounding box情報を用いて空間的な配置を取り込む点が特徴とされています。 / 請求書、契約書、フォームなどの企業文書を対象に、4つの文書理解タスクで微調整され、複数データセットで性能を示したと要約されています。