发布时间:2026-04-15 已有: 位 网友关注
币界网消息,4 月 15 日,网页数据提取工具 Firecrawl 发布 Fire-PDF,用 Rust 重写的 PDF 解析引擎,将 PDF 转为结构化 Markdown 的速度提至上一代的 3.5 至 5.7 倍,平均每页处理时间低于 400 毫秒。 提速核心在于减少不必要的 GPU 调用。Firecrawl 同步开源了 Rust 库 pdf-inspector,可在毫秒级对每页 PDF 进行分类:纯文本页直接原生提取,跳过 GPU;只有扫描件或图片密集的页面才送入神经网络布局模型和 GLM-OCR 视觉语言模型处理。以一份 150 页文本加 60 页扫描件的财报为例,大部分页面无需 GPU。 准确度方面,Fire-PDF 对不同内容类型分别设参:表格获得更高 token 限额和最多 25 秒生成时间,公式以 LaTeX 保留,多栏布局通过神经网络预测阅读顺序。Fire-PDF 已对所有 Firecrawl 用户自动生效,无需配置。