文章摘要
该文章介绍了Unlimited-OCR项目,旨在推动Deepseek-OCR进一步发展。文章提供了论文arXiv链接、ModelScope模型支持,以及基于Huggingface Transformers的推理代码示例,支持单张图片和PDF文档的OCR解析。
文章总结
无限OCR:开启一次性长文本解析时代
发布动态 - [2026/06/23] 📄 论文已在arXiv上线。 - [2026/06/23] 🤝 感谢ModelScope社区支持,模型现已在ModelScope平台可用。 - [2026/06/22] 🚀 我们推出Unlimited-OCR,旨在将Deepseek-OCR推进至新阶段。
推理实现
Transformers方式 在NVIDIA GPU上使用Huggingface Transformers进行推理。环境要求:Python 3.12.3 + CUDA 12.9,依赖包包括torch 2.10.0、transformers 4.57.1等。
单张图片支持两种配置模式: - gundam模式:basesize=1024, imagesize=640, cropmode=True - base模式:basesize=1024, imagesize=1024, cropmode=False
多页/PDF处理仅支持base模式(image_size=1024)。PDF处理时,需先将页面转换为图片,再进行多页解析。
SGLang方式 通过uv管理虚拟环境(Python 3.12),安装本地SGLang wheel包,并固定kernels版本为0.9.0,同时安装PyMuPDF用于PDF转图片。
启动SGLang服务器后,可通过OpenAI兼容API发送流式请求。单张图片支持gundam或base两种模式,多图及PDF仅支持base模式。
批量推理 使用infer.py脚本可自动启动SGLang服务器,并发处理图片目录或PDF文件。支持设置并发数、图片模式等参数。
可视化 (提供可视化功能)
致谢 感谢Deepseek-OCR、Deepseek-OCR-2和PaddleOCR提供的宝贵模型与思路。
评论总结
根据评论内容,总结如下:
主要观点与论据:
技术价值与创新性(认可度较高):
- 评论2详细解释了该技术的核心创新:通过“参考滑动窗口注意力(R-SWA)”机制,将AI的注意力分为“全局参考”(保持对原始文档图像的完整视野)和“局部生成”(限制对已生成文本的记忆窗口,如最后128词),从而解决长文档OCR中的内存瓶颈问题。关键引用:“Unlimited OCR uses Reference Sliding Window Attention (R-SWA) to split the AI's focus into two paths: Global Reference... Local Generation...”
- 评论3赞赏论文致谢Deepseek-OCR等模型,称“Class Act”。
质疑与批评(认可度中等):
- 评论1认为OCR已被视觉模型解决,质疑“重新发明轮子”的必要性:“OCR has been solved long time ago with vision models... What is the point of reinventing the wheel?”
- 评论6指出AI OCR常产生“虚构伪影”,如自动翻译非英语单词,影响生产可行性:“my attempts at using AI to do OCR have always resulted in invented artifacts... does this suffer from that as well?”
应用与扩展(认可度中等):
- 评论2期待本地AI应用:“Will be very interesting for local AI and can’t wait to see what the community builds and extends with it!”
- 评论7询问本地运行要求:“What are the requirements for running this locally?”
- 评论9以乐谱识别为例,指出OCR虽好但光学音乐识别(OMR)仍很糟糕:“every time I see people making incremental gains on OCR... I am reminded of how abysmal OMR is.”
其他观点(认可度较低):
- 评论8讽刺“我们发明了分块?”(“We've invented chunking? We are so back.”)
- 评论10质疑论文的长期影响力:“Is this an academic paper that is published in year xyz, but in +5 years nobody will remember it anymore?”
平衡性总结:评论整体对技术创新持积极态度(尤其关注内存优化和本地部署潜力),但存在对OCR必要性、伪影问题及长期价值的质疑。