Hacker News 中文摘要

文章摘要

本文介绍了将GPT-5集成到医学评估框架MedHELM中的过程，通过定量计算、事实问答、证据基础等多项任务，评估其在医学语言理解方面的进展。结果显示，GPT-5在数值推理和事实回忆方面有显著提升，但在模式生成、公平性推理和幻觉抑制方面存在不足。整体效率表现不一，部分任务速度提升，而短结构化查询则增加了延迟。

文章总结

标题：从GPT-4到GPT-5：通过MedHELM衡量医学语言理解的进展

摘要： 本文介绍了将GPT-5整合到MedHELM（一个专注于医学领域的HELM子套件）中的过程。MedHELM涵盖了定量计算、事实问答、证据基础、幻觉抵抗、公平性探测和文本到SQL生成等多个方面。通过配置驱动的整合方式（如固定种子、温度0.0），确保了与GPT-4时代基线的纵向可比性。结果显示，GPT-5在数值推理（MedCalc-Bench）和广泛事实回忆（HeadQA、Medbullets）方面有显著提升，但在模式约束生成（EHRSQL）、公平性推理（Race-Bias）和完全幻觉抑制（MedHallu）方面存在退步或停滞。效率方面，GPT-5在长推理任务中表现更快，但在短结构化查询中则存在延迟问题。

关键词： MedHELM、GPT-5、医学AI评估、临床推理、基准测试、安全性

1. 引言： 大型语言模型（LLMs）在临床推理、结构化信息提取和医学知识检索方面取得了显著进展。MedHELM是一个综合基准套件，通过标准化场景评估LLM在医学领域的表现。然而，基准测试的覆盖范围滞后于新模型的发布。本文通过将GPT-5整合到MedHELM中，量化了从GPT-4到GPT-5的进展，并识别了哪些能力集群（如医学计算、EHR文本到SQL、鉴别诊断、幻觉抵抗）受益于最近的创新。

2. 结果： 2.1 选定场景： MedHELM将基准测试分为三个访问级别：公开基准、受限基准和私有基准。本文优先选择了满足公开性、客观评分和可重复性标准的公开场景，如MedCalc-Bench、HeadQA、Medbullets等。

2.2 评估结果与比较分析： 通过比较GPT-5与GPT-4时代基线和当前领先模型的表现，发现GPT-5在HeadQA和Medbullets中取得了新的领先地位，并在MedCalc-Bench中与领先模型持平。然而，在EHRSQL和RaceBias中出现了显著的退步。总体表现显示，GPT-5在数值推理和广泛事实回忆方面有显著提升，但在结构化生成和公平性推理方面仍需改进。

2.3 推理延迟分析： GPT-5在长推理任务中表现更快，但在短结构化查询中则存在延迟问题。例如，在EHRSQL中，GPT-5的延迟显著高于领先模型，且准确性也有所下降。

3. 方法： 3.1 评估框架： MedHELM是CRFM HELM中的一个子套件，通过固定种子和温度0.0的设置，确保了与之前模型-场景对的纵向可比性。本文通过添加GPT-5的配置文件和自定义客户端，将其整合到HELM中。

3.2 将GPT-5整合到HELM中： 由于现有HELM文档未明确说明如何添加新模型，本文通过添加自定义Python模块和配置文件，将GPT-5整合到HELM中，并确保其与现有模型的比较性。

4. 讨论： 4.1 性能解释： GPT-5在数值推理和广泛事实回忆方面有显著提升，但在结构化生成和公平性推理方面存在退步。例如，在EHRSQL中，GPT-5的表现显著低于GPT-4，表明其在模式基础生成方面存在不足。在RaceBias中，GPT-5的表现也显著下降，表明公平性推理能力有所退步。

4.2 未来工作： 未来的基准测试扩展将集中在结构化数据任务、校准概率引出、错误分类、纵向漂移跟踪、公平性压力测试和半自动化事实性裁决管道等方面。模型侧的改进将包括模式基础适配器、约束解码、公平性微调和幻觉对比监督。

参考文献： [1] Stanford CRFM. MedHELM: Holistic Evaluation of Large Language Models for Medical Applications. arXiv preprint arXiv:2505.23802, 2025. [2] Stanford Center for Research on Foundation Models. MedHELM v2.0.0 Leaderboard. Available at: https://crfm.stanford.edu/helm/medhelm/v2.0.0/#/, 2024. [3] Stanford CRFM. HELM Installation Documentation. Available at: https://crfm-helm.readthedocs.io/en/latest/installation/, 2024.

评论总结

评论内容主要围绕GPT-5的性能、使用体验以及与其他模型的比较展开，观点多样且存在争议。

1. GPT-5的性能表现： - 支持观点：GPT-5在编码任务中表现出色，能够快速解决问题，相较于GPT 4.1、Claude Sonnet 4和Gemini 2.5 Pro有明显优势。
引用："GPT 5 just did the job without a fuss. So, I switched immediately to GPT 5, and never looked back."（GPT-5轻松完成任务，我立即切换到GPT-5，再也没回头。） - 质疑观点：GPT-5在某些任务上表现不稳定，如在结构化查询、公平性和证据问答方面表现不如GPT-4，且幻觉抵抗能力提升有限。
引用："But then slips on structured queries (EHRSQL), fairness (RaceBias), evidence QA (PubMedQA)."（但在结构化查询、公平性和证据问答方面表现不佳。）

2. 与其他模型的比较： - 支持观点：GPT-5在事实回忆和推理任务上优于GPT-4，但在某些特定任务上表现不如Google的基础模型或医疗专用模型如MedGemma。
引用："GPT-5 beats GPT-4 on factual recall + reasoning (HeadQA, Medbullets, MedCalc)."（GPT-5在事实回忆和推理任务上优于GPT-4。） - 质疑观点：GPT-5的延迟表现不均衡，长任务更快，短任务更慢，且在某些情况下表现不如Claude。
引用："Latency seems uneven (maybe more testing?) faster on long tasks, slower on short ones."（延迟表现不均衡，长任务更快，短任务更慢。）

3. 对LLM的理解与质疑： - 质疑观点：部分评论者对LLM的“理解”和“推理”能力提出质疑，认为其可能只是基于概率的输出，而非真正的理解。
引用："Are they really understanding, or putting out a stream of probabilities?"（它们真的在理解，还是只是在输出概率流？）

4. 使用体验与问题： - 支持观点：GPT-5在某些任务中表现出色，但存在使用限制和模型切换的问题。
引用："So now I keep my context small, use GPT 5 mini when possible, and when it's not working I move to the full GPT 5."（现在我尽量保持上下文简短，尽可能使用GPT-5 mini，如果不行再切换到完整的GPT-5。） - 质疑观点：GPT-5有时会出现意外行为，如提示查询被禁止但仍给出完整答案。
引用："For example, it will tell me my query is banned and then give me a full answer anyway."（例如，它会告诉我查询被禁止，但仍给出完整答案。）

总结来看，GPT-5在部分任务中表现出色，尤其是在编码和推理任务上，但在其他领域如公平性和结构化查询上表现不佳。评论者对其理解能力和使用体验存在争议，部分用户对其性能表示认可，但也有人对其稳定性和限制提出质疑。

从GPT-4到GPT-5：通过MedHELM衡量进展 [pdf] -- From GPT-4 to GPT-5: Measuring progress through MedHELM [pdf]

文章摘要

文章总结

评论总结