東大、医療特化LLM「Weblab-MedLLM-109B」を研究者に無償公開、o1超え93.3%

東大松尾・岩澤研究室とさくらインターネットが109Bパラメータの日本語医療特化LLMを共同開発し、研究者に無償提供
医学知識ベンチマークで93.3%を達成し、OpenAIのo1（92.8%）とDeepSeek R1（91.5%）を上回る性能を示した
公開期間は3月5日から8月31日まで。チャットAIとして無償利用可能だが、診断・治療・処方への使用は禁止

日本語医療AIが直面する課題

医療分野のAI活用は世界的に加速しているが、日本語に対応した大規模言語モデル（Large Language Model、LLM）は国際的なモデルと比べて極めて少ないのが現状だ。医学用語の多くは漢字・カタカナ表記が混在し、病名・薬剤名・処置名の表記ゆれが広範に存在する。さらに、医療データは個人情報保護の観点から公開できる学習データが限られており、質の高い日本語医療コーパスの構築そのものが技術的難題となっている。

こうした背景から、英語圏の汎用LLMをそのまま日本の医療現場に転用しても、専門用語の認識精度や文脈理解に限界が生じやすい。国内の医学教育・研究コミュニティが利用できる、日本語に特化した医療LLMの不在が長らく研究者の課題として挙げられてきた。

モデルの概要と開発体制

東京大学松尾・岩澤研究室とさくらインターネットは、東大のオープンイノベーション機構による「医療データ学スケール、システムの構築」プロジェクトの支援を受け、医療特化の日本語LLM「Weblab-MedLLM-Qwen-2.5-109B-Instruct」を共同開発した。モデルはAlibaba製のオープンソースAIモデル「Qwen 2.5」をベースに、医学専門知識に関する追加学習を重ねた構成をとり、パラメータ数は109Bに達する。医学用語や専門語の正確な処理を重視した設計が採用されており、医学画像のキャプション生成タスクでも従来の汎用モデルと比較して医学的精度の向上が確認されているという。

学習には医療関連データと複数の教育機関が協力しており、日本語での医学知識の理解と応答精度を中心に据えた開発が進められた。大学と民間クラウド事業者の連携という体制は、計算資源の確保と医療データへのアクセスを両立させる手段として機能している。

ベンチマークで示した性能

2025年の医学知識ベンチマークにおいて、Weblab-MedLLM-109Bは93.3%のスコアを記録した。これはOpenAIのo1が示す92.8%、DeepSeekのR1が示す91.5%をそれぞれ上回る水準だ。推論モデル（Reasoning Model）とは？o3・DeepSeek-R1の仕組みと使い分けをわかりやすく解説でも取り上げているように、o1やDeepSeek R1は高度な推論能力で知られる最先端モデルだが、医学知識の専門性という観点では本モデルがこれを上回っている。

また、検索拡張生成（Retrieval-Augmented Generation、RAG）技術との組み合わせにより、精度が最大98%に達する可能性も示されている。RAGは外部の知識ベースからリアルタイムで情報を参照しながら回答を生成する手法で、医療ガイドラインや論文データベースとの連携が想定されている。