Google MedGemma 1.5 发布:多模态医疗 AI 的新里程碑
发布时间: 2026年1月19日
Google 在 2024 年推出的 MedGemma 系列,作为 Health AI Developer Foundations (HAI-DEF) 计划的核心部分,已经成为开源医疗 AI 领域的重要力量。这一系列模型允许开发者基于 Google Cloud 和 Vertex AI 构建定制化的医疗应用,发布以来在 Hugging Face 上的下载量已达数百万次,并衍生出了数百个社区版本。
近日,Google 正式发布了 MedGemma 1.5 更新,其中最引人注目的是全新的 MedGemma 1.5 4B 模型 以及专为医疗场景打造的语音识别模型 MedASR。此次更新不仅在多模态理解上实现了突破,更在准确率和实用性上树立了新的行业标杆。
MedGemma 1.5 4B:小参数,大智慧
MedGemma 1.5 4B 是一个 40 亿参数的轻量级模型,专为医疗场景优化。它既可以在云端(Google Cloud / Vertex AI)扩展运行,也支持本地部署,为医院和研究机构提供了极大的灵活性。
核心能力:全方位的医疗数据理解
MedGemma 1.5 不仅仅是一个文本模型,它是一个真正的**多模态(Multimodal)**专家,能够理解和关联复杂的医疗数据:
- 🩺 医学影像理解: 涵盖 CT、MRI、X光、病理切片等多种模态。
- 📝 医学文本分析: 能够处理病历记录、化验报告和病理描述。
- ⏱️ 多时间点数据分析: 具备时间维度感知能力,能够对比同一个病人的历史影像(例如对比两次胸片的变化)。
- 📍 精准解剖学定位: 能够识别影像中具体的器官或结构位置,实现精细化分析。
- 🧪 实验室数据提取: 自动从化验单中提取数值、单位和检测类型,实现结构化数据转换。
性能飞跃:准确率与 3D 理解
此次更新不仅仅是功能的堆砌,更带来了性能的质变。
- 准确率大幅提升: 在 CT、MRI、病理分析和结构定位等关键任务上,MedGemma 1.5 的准确率较前代有了显著提高。
- 首创 3D 影像理解: Google 强调,MedGemma 1.5 的 3D 影像理解能力在开源领域属于**“首创”**。它是第一个公开的、能够直接解释和分析三维医学数据的开源模型,这对于处理复杂的立体解剖结构具有革命性意义。
多样的应用场景
MedGemma 1.5 的设计初衷是赋能整个医疗生态:
- 开发者: 用于训练和微调特定的医学 AI 系统。
- 医院: 定制特定科室(如放射科、病理科)的辅助诊断工具。
- 研究者: 高效分析大规模影像数据集,加速医学研究。
- 无缝集成: 模型原生支持 DICOM 格式(医疗影像通用标准),可直接接入现有的 PACS 等医疗系统。
MedASR:听懂医生的专业语音助手
在医疗场景中,"口述"是医生最高频、最自然的输入方式。无论是录制病历、描述影像发现,还是医患沟通,语音都无处不在。为了解决通用语音模型在专业医疗术语上的不足,Google 同步发布了 MedASR。
专为医疗优化的语音识别
MedASR 是一款专用的医疗语音识别(ASR)模型,其核心优势在于:
- 精准转写: 将医生口述的复杂病历和影像描述准确转换为文字。
- AI 联动: 可以与 MedGemma 联动,实现“语音输入 -> 文本转化 -> AI 推理分析”的完整链路。
性能对比:碾压通用模型
Google 将 MedASR 与 OpenAI 的 Whisper large-v3 进行了对比测试,结果显示 MedASR 在医疗垂直领域具有压倒性优势:
| 测试任务 | MedASR 错误率 | Whisper large-v3 错误率 | 性能提升 |
|---|---|---|---|
| 胸片口述 | 5.2% | 12.5% | ⬇️ 58% |
| 综合医学口述 | 5.2% | 28.2% | ⬇️ 81% |
数据显示,MedASR 的错误率不到通用模型的一半,甚至在综合任务中仅为对方的五分之一。对于需要大量口述工作的医生来说,这意味着极大的效率提升和更少的修改时间。
开放与未来
Google 继续坚持 HAI-DEF 计划的开放策略,致力于降低医疗 AI 的门槛。
- 完全免费可商用: 包括 MedGemma 1.5、MedASR 和 MedSigLIP 在内的所有模型均免费开放,且允许商业用途。
- 获取方式:
- Hugging Face: 下载 MedGemma 1.5 4B
- Vertex AI: 可直接在 Google Cloud Vertex AI 平台上部署运行。
MedGemma 1.5 和 MedASR 的发布,再次证明了专用小模型(4B)在垂直领域经过深度优化后,能够展现出超越通用大模型的实用价值。这为构建更精准、更高效、更易用的未来医疗系统奠定了坚实基础。
