0755-83549999

0755-83548611

当前位置:首页 > 科学研究 > 科技资讯
字号【
OpenAI发布AI医疗大模型进军医疗保健领域
日期:2025-08-18 16:21来源:广州中医药大学深圳医院

  2025年5月13日,OpenAI推出开源医疗AI评测基准HealthBench,旨在系统评估大语言模型在真实医疗场景中的性能与安全性。该基准突破传统考试式测评(如医学选择题库),通过构建5000个多轮对话模拟患者与医生的实际互动,覆盖急诊、不确定性处理、全球健康等七大医疗主题。其核心创新在于联合60个国家262名临床医生共同制定评分标准,从安全性、准确性和适用性三大维度设置 48562条细粒度评估指标。

  HealthBench采用对抗性测试(人工+合成生成)构建复杂对话,涵盖49 种语言和26个专科领域,重点关注模型在真实工作流中的表现。评测方法上,模型回答需经AI评分器对照医生制定的量规进行判定,最终生成综合性能报告。OpenAI 强调,当前医疗AI评测存在三大缺陷:脱离真实场景、缺乏专业验证、顶尖模型改进空间不足,而HealthBench正是为解决这些问题设计。

  行业专家高度评价其价值。斯坦福学者Ethan Goh指出现有医学评测(如MedOA)因模型接近满分失去区分度HealthBench填补了任务级评估的空白;斯坦福医疗首席数据科学家Nigam Shah认为其开源数据集与细粒度量规是重大进步,尤其赞赏其对成本-性能权衡的分析。Qualified Health首席执行官Justin Norden强调,此类标准对建立临床信任至关重要-医疗作为高风险的保守领域,亟须透明评测推动A落地。

  作为OpenAI首个医疗AI应用,HealthBench服务于双重目标:为AI社区建立共享标准,为医疗机构提供循证依据。其发布正值 OpenAI加速医疗布局之际,合作伙伴包括赛诺菲(AI加速药物研发)、UTHealth休斯顿(合规临床工具)、ColorHealth(癌症辅助应用)等机构。业界共识认为,医疗 AI的技术瓶颈已逐步突破,信任建立与行业采纳将成为下一阶段关键,而开源评测框架正是破局的核心基础设施。

  原文标题:OpenAI pushes firther into healthcare with release of HealthBench to evaluate Al models