Hacker News 中文摘要

RSS订阅

无限OCR:一次性长周期解析 -- Unlimited OCR: One-Shot Long-Horizon Parsing

文章摘要

该文章介绍了Unlimited-OCR项目,旨在推动Deepseek-OCR进一步发展。文章提供了论文arXiv链接、ModelScope模型支持,以及基于Huggingface Transformers的推理代码示例,支持单张图片和PDF文档的OCR解析。

文章总结

无限OCR:开启一次性长文本解析时代

发布动态 - [2026/06/23] 📄 论文已在arXiv上线。 - [2026/06/23] 🤝 感谢ModelScope社区支持,模型现已在ModelScope平台可用。 - [2026/06/22] 🚀 我们推出Unlimited-OCR,旨在将Deepseek-OCR推进至新阶段。

推理实现

Transformers方式 在NVIDIA GPU上使用Huggingface Transformers进行推理。环境要求:Python 3.12.3 + CUDA 12.9,依赖包包括torch 2.10.0、transformers 4.57.1等。

单张图片支持两种配置模式: - gundam模式:basesize=1024, imagesize=640, cropmode=True - base模式:basesize=1024, imagesize=1024, cropmode=False

多页/PDF处理仅支持base模式(image_size=1024)。PDF处理时,需先将页面转换为图片,再进行多页解析。

SGLang方式 通过uv管理虚拟环境(Python 3.12),安装本地SGLang wheel包,并固定kernels版本为0.9.0,同时安装PyMuPDF用于PDF转图片。

启动SGLang服务器后,可通过OpenAI兼容API发送流式请求。单张图片支持gundam或base两种模式,多图及PDF仅支持base模式。

批量推理 使用infer.py脚本可自动启动SGLang服务器,并发处理图片目录或PDF文件。支持设置并发数、图片模式等参数。

可视化 (提供可视化功能)

致谢 感谢Deepseek-OCR、Deepseek-OCR-2和PaddleOCR提供的宝贵模型与思路。

评论总结

根据评论内容,总结如下:

主要观点与论据:

  1. 技术价值与创新性(认可度较高):

    • 评论2详细解释了该技术的核心创新:通过“参考滑动窗口注意力(R-SWA)”机制,将AI的注意力分为“全局参考”(保持对原始文档图像的完整视野)和“局部生成”(限制对已生成文本的记忆窗口,如最后128词),从而解决长文档OCR中的内存瓶颈问题。关键引用:“Unlimited OCR uses Reference Sliding Window Attention (R-SWA) to split the AI's focus into two paths: Global Reference... Local Generation...”
    • 评论3赞赏论文致谢Deepseek-OCR等模型,称“Class Act”。
  2. 质疑与批评(认可度中等):

    • 评论1认为OCR已被视觉模型解决,质疑“重新发明轮子”的必要性:“OCR has been solved long time ago with vision models... What is the point of reinventing the wheel?”
    • 评论6指出AI OCR常产生“虚构伪影”,如自动翻译非英语单词,影响生产可行性:“my attempts at using AI to do OCR have always resulted in invented artifacts... does this suffer from that as well?”
  3. 应用与扩展(认可度中等):

    • 评论2期待本地AI应用:“Will be very interesting for local AI and can’t wait to see what the community builds and extends with it!”
    • 评论7询问本地运行要求:“What are the requirements for running this locally?”
    • 评论9以乐谱识别为例,指出OCR虽好但光学音乐识别(OMR)仍很糟糕:“every time I see people making incremental gains on OCR... I am reminded of how abysmal OMR is.”
  4. 其他观点(认可度较低):

    • 评论8讽刺“我们发明了分块?”(“We've invented chunking? We are so back.”)
    • 评论10质疑论文的长期影响力:“Is this an academic paper that is published in year xyz, but in +5 years nobody will remember it anymore?”

平衡性总结:评论整体对技术创新持积极态度(尤其关注内存优化和本地部署潜力),但存在对OCR必要性、伪影问题及长期价值的质疑。