ニュース

症状についてChatGPTに質問した時の回答はどのくらい正確か？

2025年08月25日

　生成AIの一種で大規模言語モデル（LLM）の一つであるChatGPTは、疾患に関する用語や薬剤、遺伝情報などについては高い精度で回答するが、症状を挙げて疾患名を質問した場合の一致率はそれほど高くないという研究結果が報告された。
　米ニューヨーク州立大学ビンガムトン校のAhmed Abdeen Hamed氏らの研究によるもので、詳細は「iScience」6月号に掲載された。研究者らによると、症状と疾患の一致率は49～61％であり、医学の専門用語と日常で使われる言葉の混在が、AIのプログラムを混乱させている可能性があるという。

　Hamed氏はこの研究の目的について、「体調についてChatGPTに質問する人が最近増えている。例えば、『こんな症状があるが、がんではないだろうか？　心臓発作ではないだろうか？　治療を受けるべきだろうか？』といった質問だ。このような質問に対して不正確な回答を示すことは非常に危険だ。そこで生成AIが実際にどのように答えるのか、その答えの精度はどの程度なのかを知る必要があった」と語っている。

　研究では、疾患に関する用語や薬剤名、遺伝情報、および、症状について、ChatGPTが正確に回答するかをテストした。その結果、疾患に関する用語については88～97％、薬剤名は90～91％、遺伝情報は88～98％と、いずれも高い精度の回答を示した。
　Hamed氏は、「研究を始める前は『精度はせいぜい25％程度だろう』と考えていた。しかしChatGPTは、がんや高血圧は疾患、発熱は症状、レムデシビルは薬剤であり、さらにBRCAは乳がんに関連する遺伝子だと正しく回答した。信じられないほどの精度だ」と述べている。

　一方、症状については精度が49～61％だった。精度が十分でない理由は生成AIの学習方法にあると考えられるという。医師や研究者であれば、定義付けられた言葉を正確に使い分けているが、一般ユーザーはそのような定義付けのない言葉も使って質問する。そのために生成AIが医学用語を誤認識する可能性があるとのことだ。
　Hamed氏によると、例えば、一般ユーザーが「悲しい気分」と入力した時に、生成AIはそれを「うつ病」に結びつけることができないことがあるという。

　Hamed氏は現在、生成AIのこのような欠点を明らかにして、学習モデルを修正する方法を確立し、より精度の高い回答を示すことができるような改善を目指して研究中だ。
　その改善方法の一例としてHamed氏らは、「生成AIが不正確な回答を作り出す前に、怪しいと思われる情報は全て排除されるような仕組みにできないかと考えている」と話している。

　同氏はまた、「例えば米国立衛生研究所（NIH）のデータベース『GenBank』は、全てのDNA配列に番号を割り当て識別している。このGenBankに収載されている乳がん関連遺伝子BRCA1のNM_007294.4という番号について質問すると、ChatGPTは困惑して根拠のない回答を作り上げてしまった。このような現象は"AIの幻覚"（ハルシネーション）と呼ばれている」と解説。
　「医学用語をAIに学ばせることで回答の精度を大幅に向上させ、"幻覚"をなくし、より優れた素晴らしいツールへと進化させていくことが可能ではないか」と同氏は期待している。

（HealthDay News 2025年8月5日）

原文
Abstract/Full Text
Press Release

HealthDay News