Hacker News 中文摘要

文章摘要

美国司法部近期公开的"爱泼斯坦文件"再次引发对PDF文档编辑痕迹的关注。文章从数字取证角度分析这些PDF文件的技术特征，指出PDF作为二进制文件分析难度大，需要专业知识。此前研究已表明敏感文件发布前需严格审核编辑痕迹。

美国司法部根据《爱泼斯坦文件透明法案》近期公开了一批经过涂黑处理的PDF文件，这再次引发公众对政府文件脱敏流程的关注。本文从纯技术角度，随机选取部分文件进行数字法证分析，重点考察PDF语法结构、异常构造等技术细节。

数据集构成：司法部最初发布的7个ZIP压缩包（共2.97GB）包含4,085个PDF文件，1个AVI视频和配套的.DAT/.OPT数据文件。后续更新的第8数据集新增10,593个PDF（1.8GB）。
文件命名：采用贝茨编号系统（Bates numbering），从EFTA00000001.pdf到EFTA00009664.pdf连续编号，暗示至少还有5,879份未公开文件。
内容特征：多为扫描件与照片的混合，包含单页和多页文档。采用"黑框"式涂黑处理，未发现原生数字文档。

文件有效性
- 仅发现109个PDF存在字体描述符（FontDescriptor）的次要错误
- 部分文件因文档目录版本条目问题被特定工具标记为无效
- 所有文件均未加密、无标注、无嵌入式文件或JavaScript
版本差异
不同分析工具对PDF版本报告存在显著差异（1.3 vs 1.5），源于工具对增量更新（incremental updates）的处理方式不同。经核实，文件头声明的版本与文档目录实际版本存在不一致。
增量更新结构
- 典型文件包含3个部分：原始文档+2次增量更新
- 首次更新添加二进制标记并升级版本至1.5
- 第二次更新添加贝茨编号（通过Helvetica字体12磅字号实现）
- 发现隐藏的文档信息字典（含OmniPage CSDK 21.1等软件信息）
元数据处理
- 未发现XMP元数据流
- 部分文件残留文档信息字典（含创建/修改日期等）
- 3,609个文件具有相同的创建/修改日期（2025年12月18-19日）
图像特征
- 所有照片均转换为96DPI的FLATE编码位图（256色索引）
- 无JPEG图像（避免EXIF等元数据残留）
- 部分文档显示真实扫描痕迹（装订孔、纸张边缘等），另一些疑似数字文档转制
OCR问题
光学字符识别质量参差不齐，存在明显错误。低分辨率图像（96DPI）进一步影响识别精度。

（注：本文仅分析技术特征，不涉及文件内容解读或法律建议。所有发现基于随机抽样，可能存在未检出的特例。）

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

对文档处理工作的肯定
- 多位用户赞赏文档处理工作（评论1、2、4）。
  引用："just follow hn guideline, impressive voter ring though"（评论1）
  引用："great work here!"（评论2）
对文档保存与完整性的关注
- 用户担心文档可能被删除，希望有人独立存档（评论3）。
  引用："hopefully someone is independently archiving all documents"（评论3）
OCR技术应用的讨论
- 用户比较不同OCR工具的效果，指出allenai/olmocr-2-7b表现良好，但处理大量图像耗时（评论5）。
  引用："olmocr-2-7b is quite good at this... currently sitting on ~500K images to OCR"（评论5）
对图像元数据处理的疑问
- 用户质疑DOJ避免使用JPEG图像的理由，认为去除元数据并不复杂（评论6）。
  引用："isn’t this a very lightweight problem to solve?"（评论6）
对文档中异常字符的猜测
- 用户发现文档中随机出现“=”字符，推测可能是为了干扰文本搜索（评论7）。
  引用："making it more difficult to produce reliable text searches"（评论7）
其他观点
- 建议训练专门LLM模型（评论8："Somebody ought to train an LLM..."）。
- 下载困难反馈（评论9："the transmission always terminates"）。
- 提议分析涉案人员的写作风格（评论10）。

总结：评论主要围绕文档处理的技术挑战、保存必要性及数据特征展开，多数持肯定态度，部分提出技术性质疑或改进建议。