华中科技大学联合金山办公推出新一代文档解析模型MonkeyOCR!这款基于SRR(结构-识别-关系)三元组范式的创新模型,彻底颠覆了传统OCR技术的处理逻辑——既摆脱了模块化流水线的繁琐步骤,又规避了大模型全页解析的低效问题。在中文、英文及混合文档场景下,其3B轻量化模型展现出惊人实力:不仅以平均5.1%的性能优势超越主流方案MinerU,更在公式识别(+15%)和表格解析(+8.6%)等复杂任务上实现突破性进展。实测中,它甚至以3B参数量碾压Gemini 2.5 Pro、Qwen2.5 VL-72B等巨无霸模型,登顶英文文档解析榜首,同时多页处理速度高达0.84页/秒,效率达竞品7倍!无论是金融合同、学术论文还是跨语言文档,MonkeyOCR都将成为您数字化转型的超级助手。

为验证MonkeyOCR的实际效能,研究团队在OmniDocBench文档解析基准上进行了系统对比测试。该基准包含981页PDF文档,涵盖9种文档类型、4种版式风格和3种语言类别,能够全面评估真实场景下的文档解析能力。测试结果显示,MonkeyOCR在开源与闭源方案的对比中均展现出显著优势,其创新的SRR三元组范式在复杂文档处理上实现了质的飞跃。这一突破性表现,进一步验证了MonkeyOCR作为新一代文档解析解决方案的技术领先性。下图为OmniDocBench多任务端到端评测结果(注:*表示采用MonkeyOCR团队自主训练的中文版式检测优化模型)

九类文档测评:MonkeyOCR中文优化版以44.9%优势刷新纪录
研究团队为全面验证MonkeyOCR处理多样化文档的能力,基于OmniDocBench基准测试对九类文档展开系统评估。测试数据显示,MonkeyOCR在全部九类文档解析任务中均展现出最优综合性能,其中在六类文档中实现了最高的端到端识别准确率。值得注意的是,这款仅3B参数的轻量化模型整体准确率较InternVL3-8B提升5%,相比MinerU也有3.3%的性能优势。在最具挑战性的报纸类文档解析任务中,MonkeyOCR以4%的显著优势超越此前业界最优的MinerU系统,充分证明其在处理高密度复杂版式方面的卓越能力。
此次评测结果有力印证了MonkeyOCR优异的跨文档泛化能力和鲁棒性特征。研究团队特别指出,经过中文处理能力专项优化后,MonkeyOCR*在笔记类文档上的解析精度较基础版本大幅提升44.9%,创下该领域新的性能标杆。下表为OmniDocBench九类PDF文档端到端文本识别性能评估结果(注:*表示采用研究团队专项训练的中文版式检测优化模型)

小模型大能量:MonkeyOCR英语解析超越720亿参数大模型
模型规模并非绝对:MonkeyOCR以轻量化架构实现英语文档解析领先优势
研究团队在OmniDocBench基准上对比了开源大模型与闭源商业方案。实验表明:
1.英语文档:3B参数的MonkeyOCR以7.4%优势超越720亿参数的Qwen2.5-VL-72B,较Gemini 2.5 Pro领先0.8%
2.中文文档:Gemini 2.5 Pro暂居优势,显示MonkeyOCR在中文场景仍有优化空间

由此研究团队得出以下结论:
-
首次验证轻量化模型可在特定任务上完胜千亿参数大模型 -
英语文档的显著优势(7.4%)打破"参数规模决定性能"的固有认知 -
明确中文解析为后续重点优化方向
示例代码
1.下载代码仓库,并安装依赖设置环境
1.下载代码仓库,并安装依赖设置环境
conda create -n MonkeyOCR python=3.10
conda activate MonkeyOCR
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git
cd MonkeyOCR
# Install pytorch, see https://pytorch.org/get-started/previous-versions/ for your cuda version
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
pip install -e .
2.创建模型,并从HuggingFace上加载预训练权重
pip install huggingface_hub
python tools/download_model.py
3.设置参数,调用模型进行推理
# Make sure in MonkeyOCR directory
python parse.py path/to/your.pdf
# or with image as input
pyhton parse.py path/to/your/image
# Specify output path and model configs path
python parse.py path/to/your.pdf -o ./output -c config.yaml
模型下载
2.创建模型,并从HuggingFace上加载预训练权重
pip install huggingface_hub
python tools/download_model.py
3.设置参数,调用模型进行推理
# Make sure in MonkeyOCR directory
python parse.py path/to/your.pdf
# or with image as input
pyhton parse.py path/to/your/image
# Specify output path and model configs path
python parse.py path/to/your.pdf -o ./output -c config.yaml
2.创建模型,并从HuggingFace上加载预训练权重
pip install huggingface_hub
python tools/download_model.py
3.设置参数,调用模型进行推理
# Make sure in MonkeyOCR directory
python parse.py path/to/your.pdf
# or with image as input
pyhton parse.py path/to/your/image
# Specify output path and model configs path
python parse.py path/to/your.pdf -o ./output -c config.yaml
hf社区:
https://huggingface.co/echo840/MonkeyOCR
更多推荐



