Hacker News 中文摘要

RSS订阅

科学数据集充斥复制粘贴错误 -- Scientific datasets are riddled with copy-paste errors

文章摘要

研究发现科学数据集普遍存在复制粘贴错误。通过分析600篇已发表论文的Excel文件,发现大量数据存在重复粘贴问题,严重影响研究可靠性。

文章总结

科学数据集中的复制粘贴错误泛滥

一项针对600篇已发表科学论文的Excel文件扫描显示,科学数据集中普遍存在复制粘贴错误。研究者开发了一款检测软件,在首批扫描的600个数据集中发现了18个值得关注的案例,错误率约为3%。以下是三个典型案例:

  1. 帕金森病研究里程碑论文
  • 2016年发表于《细胞》的肠道菌群与帕金森病关系研究
  • 数据集包含两组完全相同的5个连续数值,涉及50%的SPF小鼠样本
  • 这些运动功能数据对证明肠道细菌引发帕金森症状至关重要
  • 尽管问题在2026年1月被报告,作者至今未回应
  1. 鸵鸟与蛇的数据混淆
  • 2022年《PLOS Genetics》关于毒素抵抗进化的研究
  • 数据表中出现鸵鸟/沙鸡数据与蛇类数据的精确重复
  • 更可疑的是6对数值仅末位数字不同
  • 作者承认可能存在复制粘贴错误,但声称差异源于多次读数
  1. 鱼类体型数据错位
  • 2017年《自然通讯》关于克隆鱼行为差异的研究
  • 每条鱼的4次观测被错误分配了不同鱼的体型数据
  • 作者承认是数据合并时的ID值错位导致
  • 修正分析后结论基本不受影响

现状与展望: - 目前仅检查了Dryad数据库中2.4万份Excel文件的600份 - 预计可能发现约700个类似问题案例 - 期刊和机构缺乏主动核查的机制 - Dryad是唯一积极支持数据纠错的机构

该项目已获得5万美元资助,研究者将全职投入后续检测工作。这一发现凸显了科学数据质量控制的重要性和紧迫性。

(注:原文中的图片描述、技术细节讨论和部分重复内容已作精简,保留了核心案例和主要结论)

评论总结

评论总结:

  1. 科研流程复杂难以标准化(评论1)
  • "科学流程高度定制化,难以完全标准化和引入全面质量管理"
  • "科研人员工作流程不完善,但并非出于恶意,而是确实困难"
  1. 数据造假的可能性和担忧(评论2,4)
  • "可能因操作失误或故意篡改数据"(评论2)
  • "用Python脚本生成无法辨别的假数据其实很简单"(评论4)
  1. AI工具滥用的现象(评论3)
  • "大学使用免费版AI翻译工具生成课程描述"
  • "整个宣传册都是AI自动生成的垃圾内容"
  1. Excel使用导致错误的普遍性(评论5)
  • "即使是Excel高级用户也容易在复杂表格中出错"
  • "很多资深员工从未正确学习Excel使用"
  1. 学科差异影响数据验证(评论6)
  • "只有存在高门槛的学科才容易出现这种数据工程问题"
  • "在深度学习等数字领域,复制研究更便宜且应用更普遍"

关键引用保留: - "Science isn't easy at all. So many hoops to jump through, so much rigor, so much data. Mistakes are inevitable."(评论1) - "You just need to model the measuring device and hypothesis you want to support, then sample away."(评论4) - "the not-paid-for version...some are too lazy to write stuff on their own"(评论3) - "smaller mistakes can easily carry on...if you're not a proficient user"(评论5)