- ハーバード医科大学・Beth Israel医療センター共同研究がScience誌掲載。救急室患者76名のトリアージ初期診断でOpenAI o1が67%の正確率を記録し、内科専門医2名(55%・50%)を上回った
- 電子カルテから得た実際の患者情報のみをAIモデルへそのまま入力し、データの前処理は一切行わずに評価した点が研究の信頼性を高めている
- 研究チームはAIが救急医療に即時導入できるとは示唆せず、実世界の前向き試験とAI診断における説明責任の枠組み整備の必要性を強調している
研究の概要
ハーバード医科大学とBeth Israel Deaconess Medical Centerの医師・コンピュータ科学者らによる共同研究チームが、大規模言語モデル(LLM)の医療診断能力を測定する実験を実施しました。この研究は2026年5月にScience誌に掲載されており、実際の救急室患者を対象にしたAIと医師の診断精度の比較を含んでいます。
研究では、OpenAIのo1モデルとGPT-4oモデルの性能を、Beth Israelの内科指導医2名と比較しました。同病院の救急室に来院した患者76名のカルテ情報を使用し、AIと医師それぞれが診断を行いました。その結果は別の指導医2名が評価しており、どの診断がAI由来かを伏せたブラインド方式で採点されています。
トリアージ段階の診断精度
研究で注目されたのは、「初期トリアージ」の段階における結果です。トリアージとは、救急患者が来院した直後に病状の深刻度を分類し、治療優先度を決める手続きを指します。情報量が最も少なく、かつ迅速な判断が求められる場面です。
この初期トリアージの場面で、o1モデルは最終診断に「完全一致または近似」する診断を67%の事例で提示しました。対して内科指導医の1名は55%、もう1名は50%にとどまりました。研究チームの一員でハーバード医科大学にAI研究室を持つArjun Manrai氏は「AIモデルをあらゆるベンチマークでテストし、従来モデルと医師のベースラインの両方を上回った」と述べています。
また、研究チームはAIモデルに対して「データの前処理を一切行わなかった」と強調しています。電子カルテ上で実際に記録されていた情報のみを、そのままモデルに入力する設計で実験が行われました。
研究の意義と限界
今回の研究は、LLMが実際の患者データを用いた医療診断で内科医を上回ることを示した大規模なエビデンスとして注目されます。一方で、研究チーム自身はAIが実際の診療現場での判断を即座に代替できるとは示唆しておらず、「実世界での患者ケア設定においてこれらの技術を評価するための前向き試験が緊急に必要」と論文内で述べています。
研究の限界として、モデルはテキスト情報のみを入力として使用しており、画像や音声などのテキスト以外の情報については「現行の基盤モデルは推論能力が限られている」と研究者が指摘しています。また、比較対象が救急医ではなく内科医であった点も、結果の解釈において重要な留意点です。
Beth Israelの医師でもある共同著者Adam Rodman氏は、AI診断に関する「責任の所在を定める正式な枠組みが現時点では存在しない」と指摘し、患者が生死に関わる意思決定では人間の医師による関与を求めていることも強調しています。
医療AI実用化への課題
今回の研究に対しては、救急医のKristen Panthagani氏が「比較対象の選び方に問題がある」と指摘しています。内科医の診断精度を上回ったこと自体は事実ですが、「AI診断ツールを医師と比較するなら、その専門科を実際に診ている医師と比較すべき」と述べており、結果の過度な一般化には注意が必要です。
さらにPanthagani氏は、救急医の本来の目標についても言及しています。「救急室で患者を初めて診る際の主な目標は最終診断を当てることではなく、命に関わる状態かどうかを判断することだ」と強調し、AIの正確率の測定軸が救急医療の実態と必ずしも一致しない可能性を示しています。
医療AIの活用に向けた枠組み整備は各国で議論が進んでいます。Google DeepMindが発表した「AI Co-Clinician」のように医師・患者・AIの三者が協働するモデルも提案されており、診断精度の検証と並行してガバナンス整備が重要な課題となっています。
