Hacker News 中文摘要

文章摘要

研究发现科学数据集普遍存在复制粘贴错误。通过分析600篇已发表论文的Excel文件，发现大量数据存在重复粘贴问题，严重影响研究可靠性。

文章总结

科学数据集中的复制粘贴错误泛滥

一项针对600篇已发表科学论文的Excel文件扫描显示，科学数据集中普遍存在复制粘贴错误。研究者开发了一款检测软件，在首批扫描的600个数据集中发现了18个值得关注的案例，错误率约为3%。以下是三个典型案例：

帕金森病研究里程碑论文

2016年发表于《细胞》的肠道菌群与帕金森病关系研究
数据集包含两组完全相同的5个连续数值，涉及50%的SPF小鼠样本
这些运动功能数据对证明肠道细菌引发帕金森症状至关重要
尽管问题在2026年1月被报告，作者至今未回应

鸵鸟与蛇的数据混淆

2022年《PLOS Genetics》关于毒素抵抗进化的研究
数据表中出现鸵鸟/沙鸡数据与蛇类数据的精确重复
更可疑的是6对数值仅末位数字不同
作者承认可能存在复制粘贴错误，但声称差异源于多次读数

鱼类体型数据错位

2017年《自然通讯》关于克隆鱼行为差异的研究
每条鱼的4次观测被错误分配了不同鱼的体型数据
作者承认是数据合并时的ID值错位导致
修正分析后结论基本不受影响

现状与展望： - 目前仅检查了Dryad数据库中2.4万份Excel文件的600份 - 预计可能发现约700个类似问题案例 - 期刊和机构缺乏主动核查的机制 - Dryad是唯一积极支持数据纠错的机构

该项目已获得5万美元资助，研究者将全职投入后续检测工作。这一发现凸显了科学数据质量控制的重要性和紧迫性。

（注：原文中的图片描述、技术细节讨论和部分重复内容已作精简，保留了核心案例和主要结论）

评论总结

评论总结：

科研流程复杂难以标准化（评论1）

"科学流程高度定制化，难以完全标准化和引入全面质量管理"
"科研人员工作流程不完善，但并非出于恶意，而是确实困难"

数据造假的可能性和担忧（评论2,4）

"可能因操作失误或故意篡改数据"（评论2）
"用Python脚本生成无法辨别的假数据其实很简单"（评论4）

AI工具滥用的现象（评论3）

"大学使用免费版AI翻译工具生成课程描述"
"整个宣传册都是AI自动生成的垃圾内容"

Excel使用导致错误的普遍性（评论5）

"即使是Excel高级用户也容易在复杂表格中出错"
"很多资深员工从未正确学习Excel使用"

学科差异影响数据验证（评论6）

"只有存在高门槛的学科才容易出现这种数据工程问题"
"在深度学习等数字领域，复制研究更便宜且应用更普遍"

关键引用保留： - "Science isn't easy at all. So many hoops to jump through, so much rigor, so much data. Mistakes are inevitable."（评论1） - "You just need to model the measuring device and hypothesis you want to support, then sample away."（评论4） - "the not-paid-for version...some are too lazy to write stuff on their own"（评论3） - "smaller mistakes can easily carry on...if you're not a proficient user"（评论5）

科学数据集充斥复制粘贴错误 -- Scientific datasets are riddled with copy-paste errors

文章摘要

文章总结

评论总结