填补临床评测空白,德适生物发布医疗AI评测平台Doctor
4月30日,杭州德适生物科技股份有限公司(02526.HK,简称“德适”)在香港正式发布医疗AI评测平台Doctor Bench。该平台首次以 “临床实战能力” 为核心标尺,为全球医疗大模型构建起一套贴近真实诊疗场景的多维评测体系。最终评出首期全球医疗大模型排行榜,前三甲分别为:杭州智诊科技的WiseDiag-v2、谷歌的Gemini-3.1-Pro-Preview、OpenAI的GPT-5.4。
当前,全球医疗大模型正加速从实验室走向临床应用,但行业始终缺乏一套能够真正衡量模型“看病能力”的评测标准。现有的评测大多聚焦于医学知识问答,难以反映模型在复杂临床情境中的综合表现——这种评测与临床实践之间的鸿沟,正在成为制约医疗AI落地应用的全球性挑战。
此前,Open AI发布Health Bench,标志着领先企业开始重视这一挑战。然而,医疗具有强烈的本土化特征——不同国家和地区的诊疗指南、语言习惯、患者群体存在显著差异,任何单一评测体系都难以实现全球普适。正是基于对这一全球性挑战的深刻认识,德适发起并打造了Doctor Bench 平台。
《星岛》了解到,德适汇聚了基础医学、临床医学、人工智能、医疗产业等多领域的专家,将严谨的临床医学逻辑与前沿的深度学习算法深度融合,正是这一跨学科团队近十年的深耕与协作,诞生了Doctor Bench,并让该平台既能理解AI技术的边界,又能洞察临床实践的复杂需求,并以此为标准构建评测体系。
基于不只考核大模型“知识储备”,更关注其临床沟通与决策能力的核心理念,即大模型是否能“像医生一样思考”,Doctor Bench平台构建了三大榜单体系——医学主榜单(LLM)、多模态榜单(VLM)与智能体榜单(Agent),分别评测模型的文本诊疗能力、多模态理解能力,以及模拟诊疗环境中的多轮决策与工具调用能力。
《星岛》从现场了解到,在评测机制上,Doctor Bench首创“2大核心维度(安全性和准确性)+3项通用维度(交互质量、信息优先级、主动询问)+5项专项模块(证据与引用、可解释推理、可执行性、个体化适配、情感支持)”的多维架构,并搭载“场景自适应权重”——根据不同临床场景的风险等级,动态调整各维度权重,从而使评分逻辑更贴近真实诊疗决策。
尤为关键的是,该平台还设置了一条具有“一票否决权”的核心红线——即任何模型若在关乎患者安全的关键问题上出现严重偏差,无论其他维度表现如何突出,均无法获得高分。该红线可以确保任何医疗大模型的“医学事实准确”与“安全与风险控制”。而这一设计源于Doctor Bench团队对医疗本质的深刻理解:在关乎生命的领域,安全性永远是第一要义,没有妥协余地。
“医疗AI的发展是一场关乎人类共同健康福祉的长跑,既需要颠覆式的技术创新和跨学科、跨地域的深度协作,更需要对生命健康的绝对敬畏与坚守。” 德适创始人宋宁表示,期待与全球更多科研机构、临床中心和行业伙伴携手,让真正有实力的技术被看见、被信赖,最终惠及每一位患者。
据悉,德适生物成立于2016年,是一家专注于医学影像产品及服务的医疗器械企业,由80后科学家宋宁创立,目前已发展为国内AI医学影像龙头,今年3月30日正式登陆港交所主板,成为港股“医学影像大模型第一股”。
2025年,德适生物推出其自主研发的 iMedImage® 医学影像通用大模型,亦是全球首个千亿级参数跨模态医学影像基座模型。该模型突破了传统医学影像AI单一模态的局限,可覆盖CT、MRI、超声、病理、染色体等19种医学影像模态、超90%的临床医学影像场景,被视为打破了医疗AI行业“单点突破”的发展瓶颈。
目前德适生物的产品与服务已覆盖全国400余家医疗机构,主要集中于生殖健康及血液恶性肿瘤等领域。
财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。
