文章摘要
arXiv致力于提供可访问的HTML格式论文,支持学术资源共享,由康奈尔大学运营,并感谢西蒙斯基金会等机构的资助。平台提供多种文档格式,确保研究内容的广泛可获取性。
文章总结
arXiv推出可访问HTML论文格式
arXiv电子预印本库近日推出HTML格式论文,旨在提升学术论文的可访问性。这一举措主要针对视力障碍研究人员、使用屏幕阅读器和文本转语音软件的用户、屏幕放大镜使用者以及移动设备用户。
核心内容: 1. 现状与需求 - 目前arXiv超过90%的论文采用TeX/LaTeX格式提交 - PDF格式存在显著的可访问性障碍 - 社区强烈要求尽快提供替代方案
- HTML格式特点
- 实验性阶段(beta版)
- 与PDF并行提供(在摘要页显示下载链接)
- 支持200万篇存量论文的逐步转换
- 允许作者在提交时预览HTML效果
- 技术挑战
- LaTeX到HTML的自动转换存在复杂性
- 需要平衡转换准确性与处理速度
- 部分论文可能无法成功转换
- 用户参与方式 (1) 问题反馈:
- 通过论文页面的"Open Issue"按钮报告
- 支持文本选择报告(Ctrl+?快捷键)
- 屏幕阅读器用户可使用Alt+y切换段落报告按钮
(2) 改进建议: - 作者可参考《LaTeX标记最佳实践指南》 - 开发者可参与LaTeXML项目改进 - 出版机构可优化.cls文件支持
- 特别致谢
- 感谢残障科学家群体的宝贵建议
- 致谢LaTeX项目和NIST的LaTeXML团队的技术支持
注意事项: - HTML版与PDF版存在排版差异属正常现象 - 重点报告功能性问题而非样式差异 - HTML在跨设备适配方面具有先天优势
该计划是arXiv提升学术资源可访问性的重要一步,未来将持续优化转换质量。目前HTML论文标记为"实验性",欢迎学术界积极参与测试与改进。
评论总结
评论内容总结:
支持HTML格式的观点
- 认为HTML能提升论文的可访问性,适合屏幕阅读器等辅助工具。
"arXiv can have the most impact in the shortest time by offering HTML papers alongside the existing PDF."
"HTML is much more accessible to screen readers and text-to-speech software." - 部分用户提到HTML对LLM(如Gemini、Claude)更友好,PDF格式则存在解析问题。
"PDF is awful for LLMs... PDF-to-text converters often munge up the formatting."
- 认为HTML能提升论文的可访问性,适合屏幕阅读器等辅助工具。
质疑或反对HTML格式的观点
- 认为PDF更简单易用,无需依赖网络或额外设置。
"A PDF just works... HTML requires you to be connected to the internet." - 提出HTML并非最佳解决方案,应分离内容与样式。
"HTML is still a format for displaying... the actual paper content format should be separated from its rendering."
- 认为PDF更简单易用,无需依赖网络或额外设置。
技术挑战与改进建议
- 从LaTeX转换到HTML存在技术难度,且转换速度慢。
"The conversion is super slow... no way to faithfully simulate it locally." - 建议增加对旧论文的HTML支持(如“try HTML”按钮)或采用其他格式(如Markdown、EPUB)。
"I wish they’d make some kind of 'try html' button for old papers."
"I wish epub was more common for papers."
- 从LaTeX转换到HTML存在技术难度,且转换速度慢。
其他观点
- 部分用户指出HTML功能已存在多年(2023年正式推出),但进展缓慢。
"HTML versions have been available for several years... still in 'experimental' phase." - 对未来技术(如AI)可能消除格式问题表示乐观。
"A near future where file formats are effectively irrelevant."
- 部分用户指出HTML功能已存在多年(2023年正式推出),但进展缓慢。
关键争议点:
- 实用性:PDF的即用性 vs. HTML的可访问性和动态功能。
- 技术实现:LaTeX到HTML的转换难度与作者额外工作量。
- 未来方向:是否应探索更机器友好的格式(如Markdown)或依赖AI解决格式问题。
(注:所有评论均无评分数据,故未体现认可度差异。)