COLUMN

AIは「診る」のか、それとも「測る」のか——診断行為の現象学と機械知性の臨界点

META: AIの診断精度が専門医を上回る領域が出現しつつある。しかし「診断」と「診察」は同一ではない。本稿では診断行為の認識論的構造と神経科学的基盤を解剖し、機械知性が代替できるものと、そもそも代替という概念が成立しない領域を峻別する。

エドムント・フッサールは、知覚とは対象を「そのように見る」という純粋な受動的受容ではなく、意識が能動的に意味を構成する行為だと論じた。知覚には志向性(intentionality)が内在しており、何かを知覚することはつねに「何かについての」意識として成立する。この命題を医療文脈に置き換えると、一つの問いが浮上する。医師が患者を「診る」とき、そこで起きていることは情報処理なのか、それとも意味生成なのか。

AIによる診断支援ツールが臨床現場に浸透しつつある。皮膚科領域では畳み込みニューラルネットワーク(CNN)を用いた悪性黒色腫の検出精度が皮膚科専門医と同等以上であることが Nature 誌(Esteva et al., 2017)に報告され、眼底画像からの糖尿病網膜症診断においてはGooglex DeepMindのシステムが99%以上の感度を示した(De Fauw et al., 2018)。放射線画像の読影、心電図解析、病理診断——これらの領域では「機械の精度が人間を超えた」という言説が専門誌に繰り返し登場するようになった。

しかし私が臨床で繰り返し直面してきたのは、精度の問題ではない。主訴として「眠れない」と記した患者が、実際には夫からの継続的な暴力にさらされていた事実は、問診票の数値変換では捕捉されない。うつ病の評価スケール(PHQ-9)で7点という「軽症」の患者が、じつは過去に複数回の自殺企図を持ち、今まさに危機的な閾値にいた——そのことは、沈黙の長さ、視線の向き、椅子への身体の沈め方という非言語的な情報の束から私が読み取ったものだった。これはアルゴリズムの限界を嘆く話ではない。「診断」と「診察」という二つの行為が、認識論的に異なる構造を持つという話である。

本稿では、AIの医療応用に関する現時点のエビデンスを正確に示しながら、診断行為の神経科学的・現象学的基盤を解剖する。そのうえで、「代替」という概念が適用可能な領域とそうでない領域を、感情的な議論ではなく構造的に峻別することを試みる。

「診断」と「診察」——二つの行為の概念的非同一性

診断(diagnosis)とはギリシャ語の diagignōskein、すなわち「識別する・区別する」を語源とする。医学的文脈では、症状・検査所見・既往歴等の情報を統合し、疾患カテゴリーに分類する認識行為を指す。これは原理的にはパターン認識であり、情報理論の枠組みで記述可能である。入力変数(症状・バイタル・検査値・画像データ)に対して出力変数(疾患クラスラベルと確率)を写像する関数とみなせる。

一方、診察(clinical encounter / medical examination)は、この分類行為を含みながらも、それに還元されない次元を持つ。診察はハイデガー的な意味での「世界内存在」としての患者と医師の間で生じる間主観的(intersubjective)な出来事である。患者は症状を持つ生物学的有機体であると同時に、苦悩の物語を持つ主体であり、診察はその物語の聴取と再構成の場でもある。グドール(Kleinman, 1988)が「illness narrative」と呼んだこの次元は、疾患(disease)という生物学的事実から区別される病い(illness)という体験の次元に対応する。

この概念的非同一性は、臨床判断の二重構造として現れる。カーネマンのSystem 1 / System 2モデル(Kahneman, 2011)を医療判断に適用したKristensenらの研究(2023)は、熟練臨床医の診断過程が直観的・急速な判断(System 1)と分析的・意識的な検証(System 2)の間を動的に往復することを示している。この往復運動において、患者の非言語的情報——姿勢、皮膚色、呼吸パターン、表情筋の微細な動き——は System 1 の入力として機能しており、標準化されたデータ入力フォームには変換されない。

AIの診断性能——エビデンスの現在地

AIの医療診断への応用は、主に教師あり学習(supervised learning)における深層学習(deep learning)モデルを中心に発展してきた。以下に、主要領域における現時点のエビデンスを整理する。

皮膚科領域:Esteva et al.(2017, Nature)は、129,450枚の皮膚病変画像で学習させたCNNが、21名の皮膚科専門医集団と同等以上の悪性黒色腫および角化細胞癌の検出精度を示したことを報告した。AUC(受信者動作特性曲線下面積)は専門医群の平均0.86に対し、CNNは0.96を示した。

眼科領域:De Fauw et al.(2018, Nature Medicine)による光干渉断層計(OCT)画像の解析では、94種類の眼疾患に対して専門医レベルの診断精度が示された。さらに眼底画像から心血管リスク因子(年齢・性別・収縮期血圧・喫煙歴)を予測するモデルも開発されており(Poplin et al., 2018)、これは診断を超えた予後予測の領域に踏み込む。

放射線科領域:Ardila et al.(2019, Nature Medicine)は低線量CTによる肺癌スクリーニングにおいて、AIシステムが放射線科医集団に対してfalse positive率を11%、false negative率を5%低下させることを示した。

精神医学領域:この領域では状況が異なる。うつ病の診断においてNLP(自然言語処理)や音声解析を用いたモデルの開発が進んでいるが、DSM-5診断の再現性においてAIモデルの性能は依然として限定的である。Shim et al.(2021)のメタアナリシスでは、機械学習を用いたうつ病スクリーニングの感度は平均0.80、特異度は0.74と報告されており、これは標準化された質問票(PHQ-9)と大差ない水準にとどまる。精神医学的診断の本質が行動・認知・感情の時間的パターンの評価にある以上、単一時点のデータセットによる診断は構造的に限界を持つ。

領域 代表的手法 精度(AUC等) 専門医比較 主な課題
皮膚科(悪性黒色腫) CNN(画像分類) AUC 0.96 同等以上 ダーモスコープ非使用画像での汎化性
眼科(OCT解析) CNN + 転移学習 専門医水準 同等 希少疾患での訓練データ不足
放射線科(肺癌CT) 3D CNN FP率−11% 上回る場合あり 説明可能性(XAI)の欠如
精神医学(うつ病) NLP・音声解析 感度0.80/特異度0.74 質問票と同等 時間的・文脈的情報の捕捉困難

診断行為の神経科学——ソマティック・マーカーと前頭前皮質

熟練した臨床医が患者を前にして瞬時に「何かおかしい」と感じる——この現象を、ダマシオ(Damasio, 1994)のソマティック・マーカー仮説(Somatic Marker Hypothesis)は神経科学的に説明する。腹内側前頭前皮質(vmPFC)と島皮質(insular cortex)を媒介として、過去の経験に伴う身体的状態(somatic state)が意思決定の前段階で活性化され、特定の選択肢に感情的な「マーキング」を行うという仮説である。

vmPFCに病変を持つ患者(腹内側前頭前皮質損傷例)は、論理的推論能力には障害がないにもかかわらず、現実場面での意思決定能力が著しく低下することが報告されている。アイオワ・ギャンブリング課題(Iowa Gambling Task)を用いた研究では、健常者が数十試行のうちに有利なデッキを選択し始めるのに対し、vmPFC損傷者はこの傾向を示さない(Bechara et al., 1994)。

臨床診察においても同様の機序が働いていると考えられる。患者の微細な表情変化——眼輪筋の収縮(真の笑顔であるデュシェンヌ笑顔の指標)や、口角の非対称な引き下がり——を無意識に処理するのは、上側頭溝(superior temporal sulcus, STS)および扁桃体(amygdala)を中心とする社会的認知ネットワークである。このネットワークは、前頭前皮質との双方向的な接続を通じて、観察者(医師)の身体的状態に変化をもたらし、それがソマティック・マーカーとして臨床判断に統合される。

現在のAIシステムは、この身体化された認知(embodied cognition)の次元を持たない。深層学習モデルは画像の特定の特徴マップにおける活性化パターンを学習するが、それは身体を持たない情報処理であり、ダマシオ的な意味での「感じ」(feeling)を生成しない。これは性能の問題ではなく、アーキテクチャの問題である。

ポイント:ソマティック・マーカー仮説が示す通り、熟練臨床医の直観的判断は「感情的な曖昧さ」ではなく、vmPFC・島皮質・扁桃体を介した身体化された情報統合の産物である。この機序を持たないシステムによる「診断」は、同一の情報処理であっても異なる認識論的カテゴリーに属する。

精神医学的診断の構造——DSM-5の言語とその限界

DSM-5(Diagnostic and Statistical Manual of Mental Disorders, Fifth Edition, 2013)は、精神疾患の診断を操作的基準(operational criteria)によって標準化することを目的として設計された。症状の種類・持続期間・機能障害の程度を規定する閾値ベースの分類体系であり、原則として生物学的マーカーを必要としない。

この操作的アプローチはRCT(ランダム化比較試験)への参加者選定を均一化し、精神薬理学の発展に貢献した反面、複数の構造的問題を内包する。第一に、カテゴリー診断は次元的な連続体としての精神病理の実態とずれを生じる(Kotov et al., 2017が提唱するHiTOP [Hierarchical Taxonomy of Psychopathology] モデルはこの問題への応答である)。第二に、同一診断名の患者間に生物学的・症候学的異質性が高く、DSM-5の大うつ病性障害(MDD)の診断基準を満たす症状の組み合わせパターンは理論上227通り以上存在する(Fried & Nesse, 2015)。

AIによる精神医学的診断支援の困難はここにある。DSM-5の操作的基準をアルゴリズム化することは技術的には容易であるが、それが臨床的に有効な診断に対応するとは限らない。うつ病の臨床診断において、私が重視するのは症状チェックリストの合計点よりも、症状の発症前後のタイムラインと生活文脈の関係、自殺念慮の能動性と受動性の区別、過去の治療反応歴と現在の認知パターンの関係性である。これらは時間をかけた半構造化面接によって初めて現れる情報であり、入力データが存在しなければアルゴリズムは処理できない。

NIMH(米国国立精神保健研究所)が2013年に提唱したRDoC(Research Domain Criteria)フレームワークは、症状カテゴリーを超えて神経回路レベルの次元(認知・感情・社会的処理等のドメイン)で精神疾患を再分類しようとする試みであり、バイオマーカーに基づく精神医学的診断の将来的な枠組みを提供する。fMRI・EEG・血中炎症マーカー・遺伝的変異を組み合わせた機械学習モデルによる精神疾患のバイオタイピングは研究段階にあり、実用化にはさらなる大規模コホートデータと再現性の検証が必要である。

治療同盟の神経生物学——接触が生み出す変化

診察が診断と本質的に異なる次元を持つもう一つの根拠は、診察行為そのものが治療的効果を持つという事実にある。これは精神療法に特有の現象ではなく、内科・外科を含む医療全般に適用される。

プラセボ効果の神経生物学的研究は、医師-患者間の信頼関係(治療同盟, therapeutic alliance)が内因性オピオイド系・ドーパミン系を活性化することを示している。Benedetti et al.(2005)は、オープン投与(医師が投与を明示)と隠蔽投与(患者が投与を知らない)を比較した実験において、同一薬剤であっても前者が有意に高い鎮痛効果を示し、この差がナロキソン(オピオイド受拮抗薬)によって部分的にブロックされることを示した。すなわち、医師の存在と言語的コミュニケーションが内因性オピオイドの分泌を促進する。

オキシトシン(oxytocin)の役割も見逃せない。視床下部の室傍核(PVN)および視索上核(SON)で産生されるオキシトシンは、下垂体後葉から血中に放出されると同時に、脳内投射を通じて扁桃体の反応性を抑制し、社会的信頼の形成に関与する(Heinrichs & Domes, 2008)。対面の診察で形成される医師-患者関係は、このオキシトシン系を活性化する条件を潜在的に持つ。

治療同盟の強度は、精神療法の転帰予測において技法の種類よりも強力な予測因子であることが、複数のメタアナリシスによって確認されている(Horvath et al., 2011; AUCの効果量 r = 0.275)。この効果は、非言語的コミュニケーション、声のトーン、物理的存在の共有を通じて形成されるものであり、現在のAIシステムが生成する出力との相互作用において同等の効果が生じるとするエビデンスは存在しない。

不確実性の責任帰属——医療判断の倫理的構造

AIによる診断支援が普及した場合に生じる問題の一つは、判断の誤りに対する責任の帰属構造が変化することである。これは倫理的な問題であると同時に、認識論的な問題でもある。

臨床判断は本質的に不確実性の下での意思決定であり、ベイズ的な更新プロセスとして記述できる。事前確率(疫学的基礎率)に対して検査所見・症状・文脈情報が「証拠」として機能し、事後確率が更新される。この過程において、どの情報にどれだけの重みを置くかは、医師の認知的プロセスに依存し、そのプロセスの透明性は(完全ではないにしても)説明可能である。

深層学習モデルは「ブラックボックス」問題を持つ。高次元の特徴空間における重み付けは人間が直感的に解釈できる形式をとらず、モデルがなぜある診断を出力したかの説明は後付けの近似(LIME, SHAPなどの説明可能AIの手法)にとどまる。Explainable AI(XAI)の研究は急速に進展しているが、高精度と高説明可能性の間にはトレードオフが存在することが多く(Rudin, 2019)、臨床応用における透明性の確保は未解決課題である。

さらに、AIシステムは訓練データに内在するバイアスを学習・増幅するリスクを持つ。Obermeyer et al.(2019, Science)は、米国の医療システムで広く使用されているリスク層別化アルゴリズムが、同一の疾患負荷を持つ黒人患者に対して白人患者より低いリスクスコアを割り当てており、この偏りが実際の医療資源配分の不平等につながっていることを実証した。アルゴリズムは「中立」ではなく、訓練データが反映する社会的不平等を技術的に固定化する可能性がある。

Medi Faceが産業医・精神科医の両軸で提供するサービスの根幹には、診察を「分類行為」に還元しないという立場がある。労働者のメンタルヘルス評価において、PHQ-9等の標準化スケールはスクリーニングの補助ツールとして機能するが、職場環境・対人関係・業務量の時間的変化・個人の価値体系との葛藤——これらが交差する文脈の中で症状を理解することなしに、適切な就労支援や職場介入の設計は不可能である。

Z世代社員に特化した

Z産業医事務所

Z産業医事務所は、国内初のZ世代にあたる新入社員や若手社員のメンタルケアに特化した新しい産業医事務所です。AIドクターやオンライン面談システムを駆使して、都内にある本社から離島をはじめとした僻地や地方の支店・営業所も含めた全国のメンタル不調の社員様を24時間体制でフォローすることが可能です。

Z産業医事務所 公式Webサイト
Z産業医事務所

人間-AI協働の臨床的可能性——代替ではなく拡張

AIが臨床医を「代替する」という問い設定は、二つの異なる問いを混同している。一つは「AIは特定の診断タスクにおいて臨床医と同等以上の精度を達成できるか」という技術的問いであり、もう一つは「AI が診察という行為を代替できるか」という概念的問いである。前者に対する答えは一部の領域ですでに「yes」であるが、後者は「診察とは何か」を問い直すことなしに答えられない。

より生産的な問いは、AIと臨床医の協働がどのような形で患者アウトカムを改善できるかである。現在実証されつつある協働モデルを以下に整理する。

スクリーニング効率化:大量の画像・データを一次スクリーニングし、要注意症例を臨床医に提示するモデルは、臨床医の認知負荷を軽減し、注意資源を高度な判断が必要な症例に集中させることを可能にする。Topol(2019)が"deep medicine"と呼んだビジョンはこの方向性を示す。

診断エラーの補完:System 1思考に基づく診断ヒューリスティクスの誤り(アンカリングバイアス・利用可能性バイアス等)をAIが検出・警告する機能は、特に非典型症例や稀少疾患において価値を持つ可能性がある(Singh et al., 2021)。

精神医学的モニタリング:スマートフォンの受動的センシング(歩行パターン・タイピングリズム・通話頻度)を用いた気分・活動量の継続的モニタリングは、外来間隔での状態変化の検出に有効であることが示されつつある(Huckvale et al., 2019)。ただし個人情報保護・倫理的課題は現在も検討途上である。

これらはいずれも、AIが診断行為の一部を担いながら、診察の間主観的次元は人間の臨床医が保持するという分業構造を前提としている。この構造は、技術的なデフォルトではなく、意識的な設計の選択として維持される必要がある。

まとめ

  • AIの診断精度は皮膚科・眼科・放射線科等の画像解析領域で専門医と同等以上に達しており、これは否定すべき事実ではなく、臨床に組み込むべき技術的現実である。
  • 「診断(diagnosis)」と「診察(clinical encounter)」は概念的に非同一であり、前者は分類行為、後者は間主観的な意味生成の場である。AIの置換可能性はこの区別に基づいて評価する必要がある。
  • 熟練臨床医の直観的判断は、vmPFC・島皮質・扁桃体を介したソマティック・マーカー機構と、社会的認知ネットワーク(STS等)による非言語情報処理の産物であり、身体を持たないシステムはアーキテクチャ的にこの機序を持たない。
  • 治療同盟は内因性オピオイド系・オキシトシン系を活性化し、実測可能な治療効果を持つ。この効果は精神療法のみならず医療全般に適用されるが、AIとの相互作用で同等の効果が生じるとするエビデンスは現時点で存在しない。
  • 精神医学的診断においては、DSM-5の操作的基準をアルゴリズム化しても臨床的有効性は限定的であり、症状の文脈的意味・時間的パターン・生活史との関係の理解が不可欠である。
  • 深層学習モデルはブラックボックス問題と訓練データに内在する社会的バイアスを持ち、臨床応用における説明可能性と公平性の確保は未解決課題である。
  • AIと臨床医の協働(スクリーニング補助・診断エラー検出・継続的モニタリング)は実証段階にあり、診察の間主観的次元を人間が保持する分業構造の意識的設計が不可欠である。
  • 産業医・精神科医の実践において、標準化スケールとアルゴリズムは文脈理解を前提とした補助ツールであり、スコアの数値が職場介入の設計を直接決定するものではない。

Closing Note

ウィリアム・オスラー(William Osler)は1892年に「医学は不確実性の科学であり、確率の技術(art of probabilities)である」と書いた。この命題は、AIが確率の計算においていかに精度を高めようとも、その不確実性を引き受けるという行為——患者の前に座り、症状の背後にある生を読もうとすること——が医療の核心に残り続けることを示唆している。フッサールが記述した意識の志向性は、情報処理の効率化によって消去されるものではなく、そもそも異なる存在論的カテゴリーに属する。

テクノロジーの発展が診療環境を変容させるとき、問われるべきは「AIはどこまでできるか」ではなく、「診察という行為が何を保存しなければならないか」という問いである。その問いへの回答は技術仕様書の中にはなく、医療が人間の苦悩に応答するという根本的な約束の中にある。

AIドクターのメンタルチェック

AIドクターの
メンタルチェック

AIドクターとのメンタルチェックは、5分〜10分程度です。AIドクターとお話ししながら、あなたのメンタルをチェックします。

AIドクターの診断を受けてみる
← コラム一覧へ

President Doctor

代表医師・著者

近澤徹

近澤 徹

Medi Face代表医師、精神科医、産業医

北海道大学医学部を卒業後、慶應義塾大学病院で研修を経て、名古屋市立大学病院の客員研究員として臨床と研究に従事。医師であり経営者として、医療とテクノロジーを融合させた次世代ヘルスケアを推進中。在学中に創業したMedi Face社では、オンライン診療システム「Mente」を開発し、全国の患者への診療サービスを提供。また、100社以上の企業にAIドクターを導入し、自身も産業医として社員のメンタルケアを日々支援している。「下医は病を治し、中医は民を治し、上医は世を治す」を信条に、医療の枠を超えてヒトと社会を診る。