文章摘要
医学研究平台TriNetX被大量使用,其基于超3亿患者数据的论文数量激增。但专家指出,该平台可能让缺乏经验的研究者借助AI快速产出有缺陷、不可靠的研究,这些论文常发现药物有“惊人效果”,存在系统性偏见。
文章总结
好的,这是根据您的要求,对原文主要内容进行的中文重述,保留了关键细节,并删减了与主题无关的次要信息。
标题:医学生正利用热门研究工具批量产出误导性研究
核心内容:
近年来,基于一个名为TriNetX的流行研究平台(可访问超3亿患者的匿名电子健康记录)的论文数量激增。然而,研究人员指出,这个易于使用的平台可能正让缺乏经验的研究者,在人工智能的辅助下,以前所未有的速度炮制出不可靠、充满偏倚的研究。
这些研究存在共同缺陷,例如总能发现药物对各种疾病有“惊人疗效”。2025年,提及TriNetX的论文数量已接近2700篇,而五年前仅为33篇。这些论文的作者多来自美国医学院,其中医学生作为第一作者的情况很常见,因为发表论文是他们在申请住院医师前提升简历的捷径。
但问题在于,缺乏经验的用户结合TriNetX的“一键式”分析工具,容易产出质量低劣的论文。这些论文往往未能纠正关键偏倚(如“碰撞偏倚”和“不朽时间偏倚”),导致治疗效果被夸大。用户还能快速筛选出阳性结果进行发表,即“P值操纵”。一位数据科学家警告说,“虚假发现的流量大大增加了”。
具体案例与争议:
GLP-1药物研究:一篇发表在《Cancers》期刊上的论文声称,GLP-1减肥药能降低肥胖者患多种癌症的风险。但该论文未能提及或纠正“碰撞偏倚”和“不朽时间偏倚”,被专家批评为“糟糕的论文”。同时,药物对多种不相关的癌症都“神奇地具有保护作用”也被认为“不可信”。
方法造假疑云:一篇发表在《Angiology》上的论文声称,使用TriNetX平台进行了一项关键步骤来纠正“不朽时间偏倚”。但TriNetX平台实际上并不提供该工具。发现此问题的研究员Joshua Wang认为,作者要么伪造了方法,要么不加批判地从其他文章或AI输出中复制了方法描述。尽管论文第一作者进行了辩护,但未就具体操作细节作出回应。
AI的潜在影响:Wang及其同事测试了多个大型语言模型,询问如何用TriNetX完成上述关键步骤。结果,六个模型给出了在平台上无法实现的方法。随后,他们发现至少有8篇已发表论文使用了这些不可能的方法,其中5篇的第一作者是美国医学生或住院医师。
各方回应与影响:
- TriNetX公司:首席科学官承认用户需要专业知识,论文应接受严格同行评审,但认为“有更多研究发生是好事”。
- 高产作者:拥有125篇TriNetX论文的David Kaelber承认对低质量研究的担忧“完全合理”,但拒绝分享其研究的具体查询参数。
- 医学院协会:正试图解决这一问题,将要求申请者在简历中“从数量转向质量”,强调有意义的贡献和深度参与。
- 潜在危害:有眼科医生指出,这类有问题的研究可能误导医生,使其相信某些补充剂有保护效果,从而影响患者治疗。
结论:
研究员Wang每天坚持检查新发表的TriNetX论文,并致力于推广最佳实践。在他所在的医院,研究人员使用TriNetX前必须完成他的一小时培训,重点展示如何轻易获得“漂亮但无意义”的结果,旨在“灌输一点恐惧,让他们不要随意炮制论文”。
评论总结
根据评论内容,主要观点和论据如下:
1. 低质量研究泛滥,动机源于制度激励 - 评论6指出,住院医师匹配中“研究产出”权重极高,竞争性专业常见40-50篇论文,核心是激励机制问题:“incentives, incentives, incentives.” - 评论9详细解释美国医生培养路径,强调Step 1改为通过/不通过后,研究数量成为关键区分指标,低质量研究实为“简历填充”:“churning out low-quality research is resume-padding.”
2. 对医学研究生态的批评 - 评论3直言:“90% biomedicine papers are bullshit. These students are just practicing bullshit.” - 评论8引用古德哈特定律,批评科学界忽视激励扭曲:“the dismal state of science today could have been predicted decades before by applying Goodhart's Law.”
3. 呼吁改革评价体系 - 评论7建议,晋升应基于“reviewing, challenging and reproducing papers rather than publishing quantity.” - 评论13主张国会禁止住院医师项目用医保培训资金支付研究,要求研究从正规渠道获取资助。
4. 对具体研究方法的质疑 - 评论4认为最低标准应是“sharing the exact query/design choices and being very explicit about what biases the analysis can and cannot address.” - 评论15指出,用个别糟糕研究反驳“更多研究更好”存在选择性偏差,需更全面衡量。
5. 对医学教育体系的反思 - 评论12困惑为何医学生必须成为研究者:“just become a pure practitioner is not a feasible option.” - 评论14质疑住院医师项目为何要求医学生发表论文,认为这混淆了临床与科研训练:“nobody expects that doing a PhD in biology or epidemiology would give you any clinical know-how, why is it reasonable to expect the reverse?”
平衡性总结:多数评论批评当前医学研究数量膨胀、质量低下,根源在于制度激励扭曲(如住院医师匹配标准)。部分评论呼吁改革评价体系(如重视复现而非数量),也有声音指出需更严谨的方法论反思。少数评论(如评论1、10)对研究本身持温和态度,认为其可作为观察性假设或需“捍卫护栏”。