COLUMN
医療AIの「完璧な誤診」——誰が責任を負うのか、それとも責任という概念自体が壊れるのか
「責任」という言葉は、近代法体系の中核をなす概念であると同時に、その輪郭が驚くほど曖昧な概念でもある。カントが定式化した道徳的責任の概念は、自由意志を持つ主体の存在を前提とする。行為者が別の選択をし得た場合にのみ、その行為に対する責任が発生する——これがカント倫理学の基本構造だ。では、統計的パターンマッチングによって診断を下す機械学習モデルに「別の選択をする自由」は存在するか。この問いに「否」と答えた瞬間、医療AIの誤診に責任を帰属させる法的・倫理的根拠は溶解し始める。
一方で、人間の臨床医もまた、厳密な意味での「自由な選択」をしているかどうかは疑わしい。ダニエル・カーネマンが『ファスト&スロー』で示した二重過程理論によれば、臨床的判断の相当部分はシステム1——すなわち自動的・直感的・非意識的なプロセス——によって生成される。多忙な外来診療において医師が下す診断の多くは、意識的な論理的推論というよりも、過去の経験によって形成されたヒューリスティクスの産物だ。そうであれば、人間の誤診もまた「別の選択をし得た」かどうかは自明ではない。
私がこのテーマを取り上げるのは、「AIと人間、どちらが優秀か」という競争的な文脈においてではない。そうした問いの立て方自体が、問題の本質を隠蔽していると考えるからだ。医療における誤診とは何か、その発生機序はいかなるものか、そしてAIという新たなアクターの登場が「誤診の責任」という概念そのものにいかなる構造的変容をもたらすのか——この問いを、疫学・認知科学・神経科学・法哲学の交差点から検討する。
誤診の疫学——数字が示す不都合な現実
医療における誤診の規模は、一般に想定されるよりはるかに大きい。米国医療研究・品質庁(AHRQ)の推計によれば、米国内で年間約1,200万件の外来診断エラーが発生しており、そのうち約40,000〜80,000件が患者の死亡に直接寄与していると考えられている。Johns Hopkins大学の研究グループが2016年に発表した試算では、診断エラーに関連する死亡は米国の年間死亡原因第3位に相当するという推計も示された(Makary & Daniel, 2016, BMJ)。
日本においても状況は異なるわけではない。日本医療機能評価機構の医療事故情報収集等事業によれば、報告された医療事故のうち診断に関連するものは毎年一定数を占めており、特に見逃しや診断遅延が問題となる疾患群——大動脈解離、くも膜下出血、肺塞栓症、悪性腫瘍——は繰り返し取り上げられる。ただしこれらは報告された事例に限られ、実際の発生件数はさらに多いと推定される。
誤診が最も頻繁に発生する疾患カテゴリーについて、Graber(2013, BMJ Quality & Safety)は系統的レビューにおいて以下の三大カテゴリーを挙げた。第一に悪性腫瘍(肺癌・大腸癌・乳癌・前立腺癌)、第二に血管性疾患(心筋梗塞・脳卒中・肺塞栓症)、第三に感染症(敗血症・髄膜炎)だ。これらに共通するのは、初期症状が非特異的であり、かつ早期診断が予後を決定的に左右するという特性だ。
人間の誤診——認知バイアスの解剖学
診断という認知プロセスを「脳がどのように動いているか」という神経科学的・認知心理学的観点から分析すると、誤診の発生機序が構造的に理解できる。前述のカーネマンの二重過程理論において、システム1は扁桃体・基底核・前帯状皮質を主たる基盤とし、過去の経験から形成されたパターン認識を高速に実行する。対してシステム2は前頭前野背外側部を中心とした意識的・逐次的・論理的な処理系だ。
臨床における主要な認知バイアスを以下に整理する。
- アンカリング・バイアス(Anchoring bias):最初に得た情報(主訴・初期検査値)に過度に依存し、後続情報との統合が不十分になる。「胸痛=心臓」という初期仮説に固執することで、大動脈解離や肺塞栓症の診断が遅延する典型例がある。
- 早期閉鎖(Premature closure):最初に思いついた診断仮説を採用した後、代替診断の検討を停止する。文献上、診断エラーの最多要因として繰り返し報告されている。
- 利用可能性ヒューリスティクス(Availability heuristic):最近経験した症例や印象的な症例が、確率的に過大評価される。稀な疾患を最近診断した直後は、その疾患を過剰診断しやすくなる。
- 確証バイアス(Confirmation bias):既存の仮説を支持する情報を優先的に選択・解釈し、反証情報を軽視する。前頭前野の認知制御機能が疲弊した状態(疲労・時間的プレッシャー)で顕著になる。
- フレーミング効果(Framing effect):紹介状や看護師の申し送りの表現が診断的枠組みを先取りし、診断者の独立した評価を阻害する。
アントニオ・ダマシオのソマティック・マーカー仮説は、これらのバイアスに別の角度から光を当てる。ダマシオによれば、意思決定は純粋に認知的なプロセスではなく、過去の経験に紐づいた身体的感情状態(ソマティック・マーカー)が前頭眼窩野を介して判断に介入する。臨床医が「この患者は何か違う」と感じる直感的判断も、「この患者は大丈夫だろう」という危険な楽観主義も、同一の神経回路から生成される。経験的直感は時に正確であるが、バイアスに汚染された直感と区別する内的手段は存在しない。
医療AIの診断構造——何を計算しているのか
現代の医療AIの主流を占める深層学習(Deep Learning)モデル、とりわけ畳み込みニューラルネットワーク(CNN)やTransformerアーキテクチャを用いたモデルは、その判断プロセスが本質的に不透明だ。これがいわゆる「ブラックボックス問題」であり、単なる技術的課題ではなく認識論的・倫理的問題の核心をなす。
医療AIの誤診は、人間のそれとは構造的に異なる。人間の誤診が認知バイアスという「一貫した偏り」を持つのに対し、AIの誤診は学習データの偏り(バイアス)、分布シフト(Distribution shift)、敵対的入力(Adversarial input)、過学習(Overfitting)といった、異なる発生機序を持つ。
学習データの偏りは特に深刻だ。画像診断AIの多くは特定の施設・人種・年齢層のデータで学習されており、そのモデルを異なる人口集団に適用した際の性能低下が複数の研究で示されている。Obermeyer et al.(2019, Science)は、米国の大規模商業アルゴリズムが黒人患者の医療ニーズを白人患者に比べて系統的に過小評価していたことを明らかにし、AIが既存の社会的不平等を増幅するメカニズムを持ち得ることを示した。
分布シフトは、モデルが学習した環境と実際の運用環境の差異から生じる。COVID-19パンデミック初期において、既存の胸部X線AIモデルの一部が新型肺炎の画像パターンに対して著しく性能が低下したことは、この問題の現実的な帰結だ。
AIの診断性能——何が証明されていて、何が証明されていないか
医療AI、特に画像診断AIの性能については相当量のエビデンスが蓄積されている。代表的な知見を整理する。
| 疾患領域 | 代表的研究 | 主な知見 | 限界・留意点 |
|---|---|---|---|
| 皮膚科(悪性黒色腫) | Esteva et al., Nature, 2017 | 皮膚科専門医21名と同等の診断精度(AUC 0.96) | 単施設・単人種・静止画像のみ。臨床文脈なし |
| 眼科(糖尿病網膜症) | Gulshan et al., JAMA, 2016 | 眼科専門医と同等の感度・特異度 | 画像品質が一定以上の場合のみ。実環境での検証は限定的 |
| 放射線科(胸部X線) | CheXNet(Rajpurkar et al., 2017) | 肺炎診断において放射線科医の平均を上回るAUC | 後方視的評価。実臨床での対照試験なし |
| 病理診断(乳癌転移) | Liu et al., Nature Medicine, 2019 | 単独では病理医に劣るが、AIと病理医の協働で誤り率が大幅低下 | 協働モデルの臨床実装における最適なワークフローは未確立 |
| 精神医学(自殺リスク予測) | Walsh et al., Clinical Psychological Science, 2018 | 機械学習モデルが臨床医の予測を統計的に上回る | 予測精度は依然として低く(AUC ≈ 0.70〜0.80)、臨床介入への接続は未解決 |
これらのエビデンスが示す共通の構造がある。医療AIは「定型的・高容量・画像中心」の診断タスクにおいて強みを発揮し、「非定型・文脈依存・多モーダル統合」を要するタスクでは人間に及ばない、あるいは未検証だということだ。精神医学的診断の多くは後者に属する。患者の語り、非言語的コミュニケーション、生活史、社会環境の統合的評価は、現時点のAIが最も苦手とする領域だ。
責任の哲学——帰責構造の臨界点
「医療AIが誤診した場合、誰が責任を負うか」という問いは、現行の法体系においては明確な答えを持たない。これは単なる法的空白の問題ではなく、近代的な責任概念の根本的な前提が、AIという新しい認識主体の登場によって揺らいでいるという哲学的問題だ。
現行の医療訴訟における過失概念は「合理的な医師が同様の状況で行うべき注意義務を怠ったか」という基準で判断される。しかしAIに「注意義務」を課すことは原理的に不可能だ。AIは義務を持てない。では責任は開発者か、承認した規制当局か、導入した医療機関か、使用した医師か——この問いへの現行法の答えは国によって異なり、かつどの答えも完全ではない。
EU医療機器規則(MDR 2017/745)およびEU AI法(AI Act, 2024施行)は、高リスクAIシステムとしての医療AIに対して、透明性・リスク管理・ヒューマン・オーバーサイトを義務付けている。日本においては薬機法改正によりプログラム医療機器(SaMD)の規制枠組みが整備されつつあるが、誤診発生時の帰責の問題に対する明確な法的解答は未だ存在しない。
ここで私が注目するのは、「人間の誤診」と「AIの誤診」の責任論的非対称性だ。臨床医の誤診は、当該医師の認知的プロセス・判断・行為に帰属させられ、その結果として職業的・法的責任が生じる。一方、AIの誤診は、分散した意思決定の連鎖——データ収集者、アノテーター、アルゴリズム設計者、検証者、承認者、導入意思決定者、実際の使用者——のいずれにも等しく帰属し、かつ等しく帰属しない。ハンナ・アーレントが「悪の陳腐さ」において描いた「誰も責任を負わない組織的悪」の構造が、ここに技術的形態で再現される可能性がある。
協働診断の神経科学——補完性の可能性と落とし穴
「AIと人間の協働」は現在最も支持を集めるアプローチだが、協働がいかに設計されるかによって、その効果は劇的に変わる。前述のLiu et al.(2019)が示したように、AIと病理医の協働は単独の成績を上回り得る。しかし協働の設計が不適切な場合、かえって誤診率が上昇する現象が報告されている。
これは「自動化バイアス(Automation bias)」として知られる認知現象だ。Mosier & Skitka(1996)が航空管制の文脈で初めて体系化したこの概念は、自動化システムが提示する情報・判断を人間が批判的評価なしに受け入れる傾向を指す。医療の文脈では、AIが「悪性ではない」と判定した皮膚病変を、医師が精査せずに見逃す、というシナリオがその典型だ。Goddard et al.(2012)のシミュレーション研究では、AIが誤った推奨を示した条件下で医師の誤診率が有意に増加することが示されている。
神経科学的観点からは、自動化バイアスは前頭前野の認知負荷軽減と関連する。AIが判断を提示することで前頭前野の関与が低下し、システム2的な批判的吟味が起動されにくくなる——これはヒューリスティクスへの依存と同一の神経基盤を持つ。皮肉なことに、AIの存在が人間の独立した診断能力を長期的に萎縮させる可能性は、教育的・制度的に深刻な問いを提起する。
Z世代社員に特化した
Z産業医事務所
Z産業医事務所は、国内初のZ世代にあたる新入社員や若手社員のメンタルケアに特化した新しい産業医事務所です。AIドクターやオンライン面談システムを駆使して、都内にある本社から離島をはじめとした僻地や地方の支店・営業所も含めた全国のメンタル不調の社員様を24時間体制でフォローすることが可能です。
誤診の認識論——「正しい診断」とは何か
この問いの深部には、医学的認識論の根本問題が横たわる。「誤診」とは「正しい診断」があってはじめて成立する概念だ。では「正しい診断」は何によって定義されるか。
古典的な答えは「生検・剖検・後の経過によって証明されたもの」だが、これは事後的定義であり、行為時点における判断の妥当性を評価する基準にはなり得ない。現実の臨床においては、同一の患者に対して複数の「正しい」診断名が並立することさえある——たとえば「大うつ病性障害」と「双極症II型」の鑑別は、横断的評価では原理的に決定不能な場合があり、経過観察によってのみ診断が確定する。
情報理論の用語を借りれば、診断とは不確実性(エントロピー)を情報(検査結果・症状・経過)によって逐次的に削減していくプロセスだ。ベイズ推定の枠組みでは、診断は事前確率から事後確率への更新の連鎖として記述される。「誤診」とは、この更新プロセスにおける不適切なアップデートとして定義できる——事前確率の誤設定、尤度比の誤評価、代替仮説の棄却失敗のいずれかとして。
AIはこのベイズ的更新プロセスを形式的に実装できる。しかしAIが操作する事前確率は学習データの分布に規定されており、実世界の事前確率とは異なる。AIが「肺癌の確率は3%」と出力するとき、その3%は全人類の平均か、50歳男性喫煙者の平均か、この特定患者が通院している施設のケースミックスの平均か——この問いへの答えがモデルのメタデータに明示されていない限り、その数値を臨床的文脈で解釈することは不可能だ。
まとめ
- 医療における誤診は、米国だけで年間約1,200万件の外来診断エラーが発生しており、死亡原因としても無視できない規模を持つ。日本においても診断エラーは繰り返し医療安全上の主要課題として報告されている。
- 人間の誤診の主要な発生機序は認知バイアス(アンカリング・早期閉鎖・利用可能性ヒューリスティクス・確証バイアス)であり、その神経基盤は前頭前野と辺縁系の相互作用、およびソマティック・マーカー系にある。文献上、診断エラーの約74%が認知的要因に帰因される。
- 医療AIの診断性能は、画像診断・特定疾患領域において専門医と同等以上の性能を示すエビデンスが存在するが、いずれも実臨床環境での前向き比較試験は限定的であり、汎化性・実装性・形成的評価は未成熟な段階にある。
- AIの誤診は人間の誤診とは構造的に異なる発生機序(学習データ偏り・分布シフト・ブラックボックス性)を持ち、かつその帰責構造は分散・拡散しており、現行法体系では責任の所在を確定させることが困難だ。
- AIと人間の協働診断は誤診率低下の可能性を持つ一方、自動化バイアスによって誤診率が上昇するリスクが神経科学的・実証的に示されており、協働の設計は慎重な検討を要する。
- 「医療AIの誤診」を問うことは、「正しい診断」の認識論的定義、「責任」の法哲学的基盤、「判断」の神経科学的実体という三つの根本問題への問い返しを必然的に含む。
- 産業医学領域においても、AI活用ツールの導入に際して自動化バイアスのリスクと帰責構造の明確化は、運用設計段階で明示的に対処されなければならない課題だ。
Closing Note
ホルヘ・ルイス・ボルヘスが「砂の本」において描いたのは、どこから開いても同じページに戻れない書物だった。医療AIが生成する診断は、それとは逆の意味で問題を孕んでいる——常に同一の入力から同一の出力が得られる決定論的な書物であるにもかかわらず、その「なぜ」が読み解けない書物として。人間の誤診がエントロピーの問題——不確実性の管理失敗——であるとすれば、AIの誤診はむしろ過剰な確定性の問題——疑わしき確率の隠蔽——として理解されるべきかもしれない。
責任という概念は、行為・判断・結果の因果連鎖を可視化することを前提とする。医療AIが診断過程に深く組み込まれ、その因果連鎖が構造的に不透明化するとき、責任概念そのものが再定義を迫られる。これは医療技術の問題であると同時に、近代的な主体性・自律性・説明責任という哲学的構築物の問題だ。問われているのはAIの能力ではなく、AIを組み込んだシステム全体が、誰に対して何を説明し得るかという根本的な問いだ。
President Doctor
代表医師・著者