文章摘要
研究发现科学数据集普遍存在复制粘贴错误。通过分析600篇已发表论文的Excel文件,发现大量数据存在重复粘贴问题,严重影响研究可靠性。
文章总结
科学数据集中的复制粘贴错误泛滥
一项针对600篇已发表科学论文的Excel文件扫描显示,科学数据集中普遍存在复制粘贴错误。研究者开发了一款检测软件,在首批扫描的600个数据集中发现了18个值得关注的案例,错误率约为3%。以下是三个典型案例:
- 帕金森病研究里程碑论文
- 2016年发表于《细胞》的肠道菌群与帕金森病关系研究
- 数据集包含两组完全相同的5个连续数值,涉及50%的SPF小鼠样本
- 这些运动功能数据对证明肠道细菌引发帕金森症状至关重要
- 尽管问题在2026年1月被报告,作者至今未回应
- 鸵鸟与蛇的数据混淆
- 2022年《PLOS Genetics》关于毒素抵抗进化的研究
- 数据表中出现鸵鸟/沙鸡数据与蛇类数据的精确重复
- 更可疑的是6对数值仅末位数字不同
- 作者承认可能存在复制粘贴错误,但声称差异源于多次读数
- 鱼类体型数据错位
- 2017年《自然通讯》关于克隆鱼行为差异的研究
- 每条鱼的4次观测被错误分配了不同鱼的体型数据
- 作者承认是数据合并时的ID值错位导致
- 修正分析后结论基本不受影响
现状与展望: - 目前仅检查了Dryad数据库中2.4万份Excel文件的600份 - 预计可能发现约700个类似问题案例 - 期刊和机构缺乏主动核查的机制 - Dryad是唯一积极支持数据纠错的机构
该项目已获得5万美元资助,研究者将全职投入后续检测工作。这一发现凸显了科学数据质量控制的重要性和紧迫性。
(注:原文中的图片描述、技术细节讨论和部分重复内容已作精简,保留了核心案例和主要结论)
评论总结
评论总结:
- 科研流程复杂难以标准化(评论1)
- "科学流程高度定制化,难以完全标准化和引入全面质量管理"
- "科研人员工作流程不完善,但并非出于恶意,而是确实困难"
- 数据造假的可能性和担忧(评论2,4)
- "可能因操作失误或故意篡改数据"(评论2)
- "用Python脚本生成无法辨别的假数据其实很简单"(评论4)
- AI工具滥用的现象(评论3)
- "大学使用免费版AI翻译工具生成课程描述"
- "整个宣传册都是AI自动生成的垃圾内容"
- Excel使用导致错误的普遍性(评论5)
- "即使是Excel高级用户也容易在复杂表格中出错"
- "很多资深员工从未正确学习Excel使用"
- 学科差异影响数据验证(评论6)
- "只有存在高门槛的学科才容易出现这种数据工程问题"
- "在深度学习等数字领域,复制研究更便宜且应用更普遍"
关键引用保留: - "Science isn't easy at all. So many hoops to jump through, so much rigor, so much data. Mistakes are inevitable."(评论1) - "You just need to model the measuring device and hypothesis you want to support, then sample away."(评论4) - "the not-paid-for version...some are too lazy to write stuff on their own"(评论3) - "smaller mistakes can easily carry on...if you're not a proficient user"(评论5)