超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%

AI资讯 1年前 (2025) charles

4.2K 0 40

华中科技大学联合金山办公推出新一代文档解析模型MonkeyOCR！这款基于SRR（结构-识别-关系）三元组范式的创新模型，彻底颠覆了传统OCR技术的处理逻辑——既摆脱了模块化流水线的繁琐步骤，又规避了大模型全页解析的低效问题。在中文、英文及混合文档场景下，其3B轻量化模型展现出惊人实力：不仅以平均5.1%的性能优势超越主流方案MinerU，更在公式识别（+15%）和表格解析（+8.6%）等复杂任务上实现突破性进展。实测中，它甚至以3B参数量碾压Gemini 2.5 Pro、Qwen2.5 VL-72B等巨无霸模型，登顶英文文档解析榜首，同时多页处理速度高达0.84页/秒，效率达竞品7倍！无论是金融合同、学术论文还是跨语言文档，MonkeyOCR都将成为您数字化转型的超级助手。

超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%

实测验证！MonkeyOCR横扫OmniDocBench九类文档测试

为验证MonkeyOCR的实际效能，研究团队在OmniDocBench文档解析基准上进行了系统对比测试。该基准包含981页PDF文档，涵盖9种文档类型、4种版式风格和3种语言类别，能够全面评估真实场景下的文档解析能力。测试结果显示，MonkeyOCR在开源与闭源方案的对比中均展现出显著优势，其创新的SRR三元组范式在复杂文档处理上实现了质的飞跃。这一突破性表现，进一步验证了MonkeyOCR作为新一代文档解析解决方案的技术领先性。下图为OmniDocBench多任务端到端评测结果（注：*表示采用MonkeyOCR团队自主训练的中文版式检测优化模型）

九类文档测评：MonkeyOCR中文优化版以44.9%优势刷新纪录

研究团队为全面验证MonkeyOCR处理多样化文档的能力，基于OmniDocBench基准测试对九类文档展开系统评估。测试数据显示，MonkeyOCR在全部九类文档解析任务中均展现出最优综合性能，其中在六类文档中实现了最高的端到端识别准确率。值得注意的是，这款仅3B参数的轻量化模型整体准确率较InternVL3-8B提升5%，相比MinerU也有3.3%的性能优势。在最具挑战性的报纸类文档解析任务中，MonkeyOCR以4%的显著优势超越此前业界最优的MinerU系统，充分证明其在处理高密度复杂版式方面的卓越能力。

此次评测结果有力印证了MonkeyOCR优异的跨文档泛化能力和鲁棒性特征。研究团队特别指出，经过中文处理能力专项优化后，MonkeyOCR*在笔记类文档上的解析精度较基础版本大幅提升44.9%，创下该领域新的性能标杆。下表为OmniDocBench九类PDF文档端到端文本识别性能评估结果（注：*表示采用研究团队专项训练的中文版式检测优化模型）

小模型大能量：MonkeyOCR英语解析超越720亿参数大模型

模型规模并非绝对：MonkeyOCR以轻量化架构实现英语文档解析领先优势

研究团队在OmniDocBench基准上对比了开源大模型与闭源商业方案。实验表明：

1.英语文档：3B参数的MonkeyOCR以7.4%优势超越720亿参数的Qwen2.5-VL-72B，较Gemini 2.5 Pro领先0.8%

2.中文文档：Gemini 2.5 Pro暂居优势，显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论：

首次验证轻量化模型可在特定任务上完胜千亿参数大模型
英语文档的显著优势（7.4%）打破"参数规模决定性能"的固有认知
明确中文解析为后续重点优化方向

示例代码

1.下载代码仓库，并安装依赖设置环境

conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR

git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR

# Install pytorch, see https://pytorch.org/get-started/previous-versions/ for your cuda version
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 
pip install -e .

2.创建模型，并从HuggingFace上加载预训练权重

pip install huggingface_hub python tools/download_model.py

3.设置参数，调用模型进行推理

# Make sure in MonkeyOCR directory python parse.py path/to/your.pdf # or with image as input pyhton parse.py path/to/your/image # Specify output path and model configs path python parse.py path/to/your.pdf -o ./output -c config.yaml

模型下载

OpenCSG社区：

https://opencsg.com/models/AIWizards/MonkeyOCR

hf社区：

https://huggingface.co/echo840/MonkeyOCR

更多推荐

版权声明：charles 发表于 2025年6月20日 pm4:28。
转载请注明：超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15% | AI工具大全&导航

大模型对齐技术的综合评述：RLHF、RLAIF、PPO、DPO及更多（一）

charles

8.9K 10

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

4.8K 35

ChatGPT-5没等到，o1-preview 和 o1-mini强势登场，揭晓它们的独家优势！

charles

11.5K 40

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

9K 35

用Claude/Cursor写代码?小心这10个致命漏洞!

charles

220 40

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

7.6K 10

超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%

九类文档测评：MonkeyOCR中文优化版以44.9%优势刷新纪录

小模型大能量：MonkeyOCR英语解析超越720亿参数大模型

2.中文文档：Gemini 2.5 Pro暂居优势，显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论：

示例代码

1.下载代码仓库，并安装依赖设置环境

1.下载代码仓库，并安装依赖设置环境

2.创建模型，并从HuggingFace上加载预训练权重

3.设置参数，调用模型进行推理

🧠 解码大语言模型的记忆力：上下文长度的前世今生

🧠 解码大语言模型的记忆力：上下文长度的前世今生

相关文章

相关文章

​​超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%​

九类文档测评：MonkeyOCR中文优化版以44.9%优势刷新纪录

小模型大能量：MonkeyOCR英语解析超越720亿参数大模型

2.中文文档：Gemini 2.5 Pro暂居优势，显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论：

示例代码

1.下载代码仓库，并安装依赖设置环境

1.下载代码仓库，并安装依赖设置环境

2.创建模型，并从HuggingFace上加载预训练权重

3.设置参数，调用模型进行推理

🧠 解码大语言模型的记忆力：上下文长度的前世今生

🧠 解码大语言模型的记忆力：上下文长度的前世今生

相关文章

相关文章

超越Gemini和Qwen！3B小模型横扫中英文文档识别，表格公式识别提升超15%