谷歌Gemini2.5 Pro可完全理解PDF布局实现精确视觉引用

谷歌Gemini2.5 Pro可完全理解PDF布局实现精确视觉引用

【太平洋科技快讯】近日，最新报告指出，谷歌推出的 Gemini 2.5 Pro 模型能够准确解析 PDF 文档的视觉结构，并实现精确的视觉引用，成为全球首个能够完全理解 PDF 布局的 AI 模型。

谷歌于 3 月 25 日向付费用户和开发者发布了 Gemini 2.5 Pro 实验模型，短短四天后，便通过免费 Web 应用向全球用户开放。这款模型的最大亮点在于其“原生视觉”(Native Vision)能力，它不仅能提取 PDF 文档中的文本内容，还能深入理解其视觉布局，包括图表、表格和整体排版。

AI 初创公司 Matrisk 的联合创始人 Sergey Filimonov 对 Gemini 2.5 Pro 的视觉引用功能给予了高度评价。他指出，在 ChatGPT 等模型中，用户点击引用往往只能下载 PDF，然后自行判断模型是否出现“幻觉”(即生成错误或不相关的信息)。

Gemini 2.5 Pro 则能将提取的文本片段精确映射回原始 PDF 的确切位置，并高亮显示，甚至可以锁定特定句子、表格单元或图像。例如，当用户询问房屋费率变化时，系统能直接高亮文档中相关数据(如 15.4% 的费率变化)，并标注来源依据。这种清晰度和交互性是现有工具无法企及的，不仅优化了现有流程，更开启了全新的文档交互模式。

在衡量模型空间理解能力的 IoU(交并比)指标上，Gemini 2.5 Pro 以 0.804 的精度遥遥领先于其他模型。相比之下，OpenAI 的 GPT-4o 仅为 0.223，Claude 3.7 Sonnet 更是低至 0.210。这一显著优势证明了 Gemini 2.5 Pro 在 PDF 布局理解方面的卓越能力。

Gemini 2.5 Pro 的潜力远不止于文本定位。它还能从 PDF 中提取结构化数据，并明确标注每个数据的来源位置。这一功能对于解决下游决策中因数据来源不明而产生的信任障碍具有重要意义。