Hacker News 中文摘要

RSS订阅

从GPT-4到GPT-5:通过MedHELM衡量进展 [pdf] -- From GPT-4 to GPT-5: Measuring progress through MedHELM [pdf]

文章摘要

本文介绍了将GPT-5集成到医学评估框架MedHELM中的过程,通过定量计算、事实问答、证据基础等多项任务,评估其在医学语言理解方面的进展。结果显示,GPT-5在数值推理和事实回忆方面有显著提升,但在模式生成、公平性推理和幻觉抑制方面存在不足。整体效率表现不一,部分任务速度提升,而短结构化查询则增加了延迟。

文章总结

标题:从GPT-4到GPT-5:通过MedHELM衡量医学语言理解的进展

摘要: 本文介绍了将GPT-5整合到MedHELM(一个专注于医学领域的HELM子套件)中的过程。MedHELM涵盖了定量计算、事实问答、证据基础、幻觉抵抗、公平性探测和文本到SQL生成等多个方面。通过配置驱动的整合方式(如固定种子、温度0.0),确保了与GPT-4时代基线的纵向可比性。结果显示,GPT-5在数值推理(MedCalc-Bench)和广泛事实回忆(HeadQA、Medbullets)方面有显著提升,但在模式约束生成(EHRSQL)、公平性推理(Race-Bias)和完全幻觉抑制(MedHallu)方面存在退步或停滞。效率方面,GPT-5在长推理任务中表现更快,但在短结构化查询中则存在延迟问题。

关键词: MedHELM、GPT-5、医学AI评估、临床推理、基准测试、安全性

1. 引言: 大型语言模型(LLMs)在临床推理、结构化信息提取和医学知识检索方面取得了显著进展。MedHELM是一个综合基准套件,通过标准化场景评估LLM在医学领域的表现。然而,基准测试的覆盖范围滞后于新模型的发布。本文通过将GPT-5整合到MedHELM中,量化了从GPT-4到GPT-5的进展,并识别了哪些能力集群(如医学计算、EHR文本到SQL、鉴别诊断、幻觉抵抗)受益于最近的创新。

2. 结果: 2.1 选定场景: MedHELM将基准测试分为三个访问级别:公开基准、受限基准和私有基准。本文优先选择了满足公开性、客观评分和可重复性标准的公开场景,如MedCalc-Bench、HeadQA、Medbullets等。

2.2 评估结果与比较分析: 通过比较GPT-5与GPT-4时代基线和当前领先模型的表现,发现GPT-5在HeadQA和Medbullets中取得了新的领先地位,并在MedCalc-Bench中与领先模型持平。然而,在EHRSQL和RaceBias中出现了显著的退步。总体表现显示,GPT-5在数值推理和广泛事实回忆方面有显著提升,但在结构化生成和公平性推理方面仍需改进。

2.3 推理延迟分析: GPT-5在长推理任务中表现更快,但在短结构化查询中则存在延迟问题。例如,在EHRSQL中,GPT-5的延迟显著高于领先模型,且准确性也有所下降。

3. 方法: 3.1 评估框架: MedHELM是CRFM HELM中的一个子套件,通过固定种子和温度0.0的设置,确保了与之前模型-场景对的纵向可比性。本文通过添加GPT-5的配置文件和自定义客户端,将其整合到HELM中。

3.2 将GPT-5整合到HELM中: 由于现有HELM文档未明确说明如何添加新模型,本文通过添加自定义Python模块和配置文件,将GPT-5整合到HELM中,并确保其与现有模型的比较性。

4. 讨论: 4.1 性能解释: GPT-5在数值推理和广泛事实回忆方面有显著提升,但在结构化生成和公平性推理方面存在退步。例如,在EHRSQL中,GPT-5的表现显著低于GPT-4,表明其在模式基础生成方面存在不足。在RaceBias中,GPT-5的表现也显著下降,表明公平性推理能力有所退步。

4.2 未来工作: 未来的基准测试扩展将集中在结构化数据任务、校准概率引出、错误分类、纵向漂移跟踪、公平性压力测试和半自动化事实性裁决管道等方面。模型侧的改进将包括模式基础适配器、约束解码、公平性微调和幻觉对比监督。

参考文献: [1] Stanford CRFM. MedHELM: Holistic Evaluation of Large Language Models for Medical Applications. arXiv preprint arXiv:2505.23802, 2025. [2] Stanford Center for Research on Foundation Models. MedHELM v2.0.0 Leaderboard. Available at: https://crfm.stanford.edu/helm/medhelm/v2.0.0/#/, 2024. [3] Stanford CRFM. HELM Installation Documentation. Available at: https://crfm-helm.readthedocs.io/en/latest/installation/, 2024.

评论总结

评论内容主要围绕GPT-5的性能、使用体验以及与其他模型的比较展开,观点多样且存在争议。

1. GPT-5的性能表现: - 支持观点:GPT-5在编码任务中表现出色,能够快速解决问题,相较于GPT 4.1、Claude Sonnet 4和Gemini 2.5 Pro有明显优势。
引用:"GPT 5 just did the job without a fuss. So, I switched immediately to GPT 5, and never looked back."(GPT-5轻松完成任务,我立即切换到GPT-5,再也没回头。) - 质疑观点:GPT-5在某些任务上表现不稳定,如在结构化查询、公平性和证据问答方面表现不如GPT-4,且幻觉抵抗能力提升有限。
引用:"But then slips on structured queries (EHRSQL), fairness (RaceBias), evidence QA (PubMedQA)."(但在结构化查询、公平性和证据问答方面表现不佳。)

2. 与其他模型的比较: - 支持观点:GPT-5在事实回忆和推理任务上优于GPT-4,但在某些特定任务上表现不如Google的基础模型或医疗专用模型如MedGemma。
引用:"GPT-5 beats GPT-4 on factual recall + reasoning (HeadQA, Medbullets, MedCalc)."(GPT-5在事实回忆和推理任务上优于GPT-4。) - 质疑观点:GPT-5的延迟表现不均衡,长任务更快,短任务更慢,且在某些情况下表现不如Claude。
引用:"Latency seems uneven (maybe more testing?) faster on long tasks, slower on short ones."(延迟表现不均衡,长任务更快,短任务更慢。)

3. 对LLM的理解与质疑: - 质疑观点:部分评论者对LLM的“理解”和“推理”能力提出质疑,认为其可能只是基于概率的输出,而非真正的理解。
引用:"Are they really understanding, or putting out a stream of probabilities?"(它们真的在理解,还是只是在输出概率流?)

4. 使用体验与问题: - 支持观点:GPT-5在某些任务中表现出色,但存在使用限制和模型切换的问题。
引用:"So now I keep my context small, use GPT 5 mini when possible, and when it's not working I move to the full GPT 5."(现在我尽量保持上下文简短,尽可能使用GPT-5 mini,如果不行再切换到完整的GPT-5。) - 质疑观点:GPT-5有时会出现意外行为,如提示查询被禁止但仍给出完整答案。
引用:"For example, it will tell me my query is banned and then give me a full answer anyway."(例如,它会告诉我查询被禁止,但仍给出完整答案。)

总结来看,GPT-5在部分任务中表现出色,尤其是在编码和推理任务上,但在其他领域如公平性和结构化查询上表现不佳。评论者对其理解能力和使用体验存在争议,部分用户对其性能表示认可,但也有人对其稳定性和限制提出质疑。