【特定健診】健診結果から糖尿病リスクを予測するAIを開発 スマホアプリに搭載し生活改善を促す 大阪大学
特定健診の結果から糖尿病の発症確率を高精度で予測
大阪大学は、機械学習が非常に高い精度で糖尿病の発症確率予測に使えることを、世界ではじめて明らかにしたと発表した。 これまでは小規模の健診データしか利用できなかったが、大阪府の協力により、大阪府健診ビッグデータを使用したAIモデルの構築が可能になったとしている。 病気の発症前に個人が発症確率を知ることは、生活スタイル改善の動機付けとなり、個人の努力により病気発症を抑制することが期待できるとしている。 研究は、大阪大学大学院人間科学研究科の瀬戸ひろえ氏、キャンパスライフ健康支援・相談センターの土岐博特任教授らの研究グループによるもの。研究成果は、英科学誌「Scientific Reports」に掲載された。 「本研究成果で、機械学習によって、非常に精度の高い病気発症確率予測のためのAIモデルを開発することが可能であることが判明しました」と、研究グループでは述べている。大阪府民向けスマホアプリに発症確率を予測するAIモデルを搭載

健康予測AIは、大阪府が大阪大学キャンパスライフ健康支援・相談センターに委託し開発したもの。
大阪府国保の約60万人分のビッグデータを活用
これまで、糖尿病などの病気発症確率予測は、古典的統計モデルであるロジスティック回帰モデルと機械学習を用いたAIモデルにはその発症予測の精度で差異はないと考えられていた。 病気の発症予測を精度良く行うために、多くの人々の健診結果を使う必要があるものの、個人情報であることからデータの入手や活用が困難だった。 これまでは、モデル構築を行うための人数(サンプルサイズ)が少なく、機械学習モデルの予測精度を検証するための十分なデータ数が集まらないという課題があった。 そこで土岐特任教授らの研究グループは、大阪府国保連合会保有の国民健康保険被保険者の健診結果データ(年間で約60万人分のビッグデータ)を活用し、糖尿病の発症予測について、1万件を超えるビッグデータでの機械学習の優位性を定量化し、機械学習が健康予測に高精度で適用できることを解明した。予測値と計測値の違いを表す指標である誤差因子ECEをサンプルサイズの関数で図示
誤差はサンプルサイズが1万を超えるところから顕著に差があらわれた
サンプルサイズが1万を超えると機械学習の精度が上がる
研究グループは、大阪府国保連合会および大阪府保険者協議会の協力で、個人が特定できないように加工された国民健康保険被保険者の健診結果データなどを取得。このうち、糖尿病の発症予測モデルを構築するための対象者を抽出した結果、約28万人の国保被保険者が対象となった。 そこからさまざまなサンプルサイズでデータを抽出し、サンプルサイズを変化させたときに、どれだけの精度で予測確率が推定できるか検証した。計算の誤差は、サンプルサイズが1万を超えるところから顕著に差があらわれ、機械学習が良い精度を出すことが示された。 これらの計算には、勾配ブースティング決定木という高度に発展させた決定木の方法を用いた。これは、決定木を複数組み合わせることで予測精度を向上させる機械学習モデルのひとつ。 このモデルでは、プログラミング言語で効率良く計算を行えるPythonで実行可能なLightGBMを利用することで高速な計算が可能となる。LightGBMは、計算時間のかかる勾配ブースティング決定木を高度化・高速化した機械学習ソフトウェア。 機械学習のパラメータを決定するのは難しく、何度も計算が必要だが、このソフトにはパラメータチューニングを効率的に行うパッケージもあり、最近では多くの研究に利用されている。研究グループは、ビッグデータを使った数値計算を何度も繰り返すことが可能であったことも重要と指摘している。 大阪大学大学院人間科学研究科大阪大学キャンパスライフ健康支援・相談センター
Gradient boosting decision tree becomes more reliable than logistic regression in predicting probability for diabetes with big data (Scientific Reports 2022年10月11日) おおさか健活マイレージ アスマイルについて (大阪府)
ビッグデータを活用した健康予測AI等をアスマイルへ搭載します! (大阪府)
本サイトに掲載されている記事・写真・図表の無断転載を禁じます。

