迈向多语言医疗大模型：大规模预训练语料、开源模型与全面基准测试

本文全面的从数据、测评、模型多个角度考虑了多语言医学大语言模型的构建所有数据和代码、模型均已开源。

GitHub: https://github.com/MAGIC-AI4Med/MMedLM

Paper Link: https://arxiv.org/abs/2402.13963

Leader Board: https://henrychur.github.io/MultilingualMedQA/

概览

医疗领域的大型模型已经进行广泛地研究。然而，这些进展主要依赖于英语的基座模型（如LLaMA 2），并受制于缺乏多语言医疗专业数据的限制，导致当前的医疗大模型在处理非英语问题时效果不佳。为了克服这一挑战，我们提出了三项贡献：

我们创建了一个包含25.5Billion tokens的多语言医疗语料库MMedC。
我们开发了一个全新的多语言医疗问答评测标准MMedBench, 覆盖了6种语言，21种医学子课题。
我们推出了一款名为MMedLM 2的全新基座模型，以7B的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。

图a揭示了我们构建的多语言医疗语料库的组成；图b介绍了我们全面的多语言医疗评测标准MMedBench的构成；图c的左侧对比了我们的模型MMedLM与当前主流模型在MMedBench上的准确率，而右侧则展示了我们的方法使模型性能相比于基线显著提升

大规模多语医疗语料（MMedC）构建

在构建数据集方面，我们收集了一份多语言医疗语料库，命名为MMedC。改数据集包含255亿个tokens，其内容来自于四个来源：

通过启发式算法，从广泛的多语言语料库中（例如CommonCrawl）筛选相关内容。
搜集全球各地的医疗教科书电子版，并使用光学字符识别（OCR）技术转化为文本数据。
从多个国家的许可的医疗相关网站抓取数据。
整合已有的小型医疗语料库，以丰富和完善我们的数据集。

MMedC数据集统计概。图a展示了该语料库覆盖的语言对应的地域；图b提供了各种语言的详细数据量统计；图c深入呈现了每种语言数据的来源分布比例。

全面多语言医学能力测试基准（MMedBench）构建

为了评估医学领域多语言模型的发展，我们设计了一项全新的多语言选择题问答评测标准，命名为MMedBench。此基准测试的所有问题均直接源自各国的医学考试题库，而非简单地通过翻译获得，避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。此外，我们为每个题目提供了正确答案的详细解释。在评测过程中，要求模型不仅要选出正确答案，还需提供合理的解答理由。这样的设计不仅评测了模型在选择正确答案的能力，也测试其理解和解释复杂医疗信息的能力，从而更全面地评估其性能。

MMedBench数据统计。图a呈现了MMedBench训练集与测试集的基础数值统计信息；图b揭示了MMedBench样本在不同主题上的分布情况

模型测评

我们对主流医疗语言模型在MMedBench基准上采用三种测试策略进行了评估

Zero-shot：适用于没有开源的模型，我们通过提供Prompt，导模型回答选择题并解释其答案选择的原因。
PEFT Finetuning：适用于已开源的模型，我们首先利用LoRA技术对模型在MMedBench训练集上进行局部微调，然后在测试集上评估其性能。
Full model Finetuning：适用于已开源的模型，首先在MMedBench的训练集上进行全量微调，随后再在MMedBench的测试集上进行测试。

模型准确率评测

主流模型在MMedBench上的准确率评测

模型解释答案能力评测（ROUGE-1/BLEU-1）

主流模型在MMedBench上进行答案解释能力评测。使用的自动指标是BLEU-1/ROUGE-1

考虑到基于句子相似度的自动指标是否可以准确地反应人类的偏好，我们进一步对模型生成的答案解释进行了人工评估。受时间和成本的限制，我们精选了六种代表性强的语言模型进行研究，并对人工评价结果与自动评估指标的一致性进行了深入分析。

模型打分结果对比分析。图a展示了按照BLEU分数、人工质量排序和GPT-4质量排序的量化分数。图B展示了自动指标和人类评估之间的相关性，其中k代表拟合直线的斜率，t代表坎德尔相关系数

数据测消融实验

在上面的主要结果中可以看到，我们最新的模型，MMedLM 2，在多项测试中都维持着领先的水平。MMedLM2是基于InternLM 2的开发的，进一步通过在多语言医疗语料库上进行自回归训练而优化。我们通过消融实验证实了，使用多语言语料进行进一步训练，对模型的性能带来了显著提升。

消融实验。其中HQ-Data与US-Data用于区分医疗数据是否经过人工审核。具体而言，通过启发式算法从CommonCrawl自动获取的数据被归类为US-Data（未审核数据），而来自其他来源的语料信息均经过了严格的人工审核，因此被标记为HQ-Data（高质量数据

研究与临床价值

在本项工作中，我们首次引入了医疗领域的多语言大型模型，这对研究和临床实践都有着重要的影响。在研究方面，我们的工作促进了以下研究的发展：

通用医疗人工智能（GMAI）：GMAI是指能够广泛应用于不同医疗场景下的多模态人工智能模型，其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型，替代以往以英语为中心的模型，能够充分利用全球多种语言的数据资源，从而扩展可用的多模态训练数据，提升对其它模态信息表征的质量。
增强检索的生成任务：在当前的大型语言模型中，”幻觉”问题被认为是一个主要挑战，尤其是在医疗领域。一种有效的解决策略是开发具有检索功能的架构，其核心思想是通过从额外的知识库中检索事实信息，并将这些信息输入到大型语言模型中，来增强其输出的准确性。然而，迄今为止，大部分的研究都集中在英语上，这极大地限制了检索增强方法对其他语言知识库的利用。通过开发多语言的医疗模型，能够极大地提高检索过程对不同语言知识库的利用。

在临床实践中，开源的多语言医疗模型也能满足如下的需求：

语言障碍。在众多医疗保健系统中，语言障碍是患者与医疗服务提供者之间有效沟通的一个主要障碍。这种障碍可能导致误解、误诊，最终使得高质量的医疗资源对大多数人而言变得难以触及。通过提供实时翻译服务，多语言医疗级大型语言模型使患者能够清晰表达自己的症状，并准确理解其诊断与治疗方案。
深入理解文化与法律的异同。多语言医疗大型语言模型能够通过进一步的指令微调，以识别并应对不同国家在医疗诊断过程中的文化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解，不仅可以显著增强用户对医疗大语言模型的信任，还能促进更高质量的医疗服务体验，确保医疗服务的全球化和个性化。

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/314461.html