文章摘要
Springer Nature出版的一本关于机器学习的书籍被发现包含大量虚构的引用,引发了对学术诚信的质疑。这一事件由Retraction Watch曝光,进一步揭示了学术出版中可能存在的质量问题。
文章总结
文章《Springer Nature 机器学习书籍充斥着虚假引用》揭露了由Springer Nature出版的机器学习书籍《Mastering Machine Learning: From Basics to Advanced》中存在大量虚假引用的问题。该书于2025年4月出版,售价为169美元。根据读者举报,文章作者检查了书中的46个引用中的18个,发现其中三分之二的引用要么不存在,要么存在严重错误。三位被引用的研究人员也确认,书中提到的他们的作品是虚假的,或者引用内容存在重大错误。
例如,书中引用了Ben-Gurion University的计算机科学家Yehuda Dar的论文,但Dar表示该论文并未正式发表,只是arXiv上的预印本。此外,书中引用的其他研究人员的作品也被证实为虚假或错误。
文章指出,这种虚假引用是大型语言模型(如ChatGPT)生成文本的典型特征。这些模型不会像人类作者那样搜索文献数据库,而是根据训练数据和提示生成内容,因此生成的引用可能看起来合法,但内容可能是虚构的。
该书作者Govindakumar Madhavan并未直接回应是否使用了大型语言模型生成文本,但他表示,确定内容是否由AI生成仍然是一个挑战。Springer Nature的书籍高级通讯经理Felicitas Behrendt表示,出版社有关于AI使用的政策和指导,但《Mastering Machine Learning》中并未声明使用了AI。
文章还提到,虚假引用问题不仅限于这本书,近年来在多个领域都出现了类似问题,包括Robert F. Kennedy Jr.的报告和CDC的疫苗防腐剂thimerosal演示文稿。
最后,文章呼吁出版商和编辑在出版过程中加强审查,确保引用和内容的准确性,并建议读者在购买此类书籍时保持警惕。
评论总结
教材质量与AI生成内容的问题
- 评论1指出,许多教材的质量长期以来一直不佳,学生缺乏辨别能力,教师也往往不亲自试用教材。
引用: "Unfortunately not surprising, the quality of a lot of textbooks has been bad for a long time." - 评论4批评Springer等品牌未能履行尽职调查,允许AI生成的内容通过审核,损害了品牌的可信度。
引用: "What is the value of a brand such as Springer if they let these AI slops through their cracks?"
- 评论1指出,许多教材的质量长期以来一直不佳,学生缺乏辨别能力,教师也往往不亲自试用教材。
AI生成引用的可信度
- 评论2和评论3强调,AI生成的引用可能看似合法,但内容往往是虚构的,甚至整个输出都是伪造的。
引用: "The entire output from an LLM is fabricated."
引用: "References look real and don’t exist." - 评论11提出,AI应被用于自动化引用查找和验证,而不是加剧问题。
引用: "First check if the citation references a real thing. Then actually read and summarize the referenced text."
- 评论2和评论3强调,AI生成的引用可能看似合法,但内容往往是虚构的,甚至整个输出都是伪造的。
出版商的角色与责任
- 评论7和评论8批评出版商在AI生成内容泛滥中的不作为,甚至可能从中获利。
引用: "Springer? You mean the publisher we are currently fighting so they won't mess up our peer-reviewed research paper?"
引用: "We are approaching publishers' heaven, where AI reviewers review AI written books." - 评论9质疑为何不检查所有引用,而只抽查部分。
引用: "Why not just check them all?"
- 评论7和评论8批评出版商在AI生成内容泛滥中的不作为,甚至可能从中获利。
AI生成内容的未来与挑战
- 评论10和评论12表达了对AI生成内容未来的担忧,认为其可信度难以保证。
引用: "It certainly doesn't fill me with much confidence for the future of AI-generated content."
引用: "Lol, that answer sounds suspiciously much like LLM generated as well." - 评论14则提出了一种讽刺性的可能性,即通过“占用”虚构引用成为“被引用最多的作者”。
引用: "Would it be possible to 'squat' the non existent references and turbo boost oneself into 'most cited author' territory?"
- 评论10和评论12表达了对AI生成内容未来的担忧,认为其可信度难以保证。
传统书籍的困境
- 评论15指出,AI生成内容的泛滥对仍依赖书籍作为学习资源的人是个坏消息。
引用: "Bad news for old-school people who still love books as a learning resource."
- 评论15指出,AI生成内容的泛滥对仍依赖书籍作为学习资源的人是个坏消息。
总结:评论普遍对AI生成内容的质量和可信度表示担忧,批评出版商未能履行审核责任,并指出AI在引用验证方面的潜力未被充分利用。同时,传统书籍作为学习资源的地位也受到挑战。