人工知能の診断精度
先日、BakeryScanを初めて見て驚いた記事を書きました。
記事を書きながら、コンピュータの性能が人間の能力にどのくらい近づくのか考えていました。
今回、興味深い記事を読んだので紹介させていただきます。
医療ガバナンス学会の、6月5日の記事です。
『すでに医師の平均を上回っている人工知能の診断精度』
ただともひろ胃腸肛門科院長
多田 智裕2017年6月5日 MRIC by 医療ガバナンス学会 発行
「人工知能が普及していったら医師の仕事がなくなってしまうと思うのですが、今後どのようなことを学んでいけば良いのでしょうか?」
「人工知能が医師の仕事を奪うなんて、ありえない! そんなことを言う奴は医師の風上にも置けない、けしからん!!」
これは数カ月前の某学会での一コマです。
人工知能の性能がどんどん上がっていけば、自分たちの仕事がなくなってしまうのではないか? 人工知能と共存する時代にどのようなキャリアパスを積めば良いのか──? 若手医師が気にするのも当然だと思います。
一方で指導医が、医師の仕事が人工知能に取って代わられるわけないだろ! と若手医師を叱咤激励する気持ちも分かります。
果たして、人工知能は医師の仕事をどう変えていくのでしょうか。
私は、医療現場で使われる人工知能の特性や実力がどのようなものなのかを知れば、おのずと道が見えてくるのではないかと考えています。ここではその一助として、最新の医学論文による人工知能の評価方法と結果を紹介しましょう。●診断精度を評価する「感度」と「特異度」
病気の診断能力は「感度」と「特異度」で検証します。医学における「感度」とは、「陽性と判定されるべきものを正しく陽性と判定する確率」を指します。
病気を診断する感度が95%ということは、100症例の病気のうち95症例を病気と正しく診断したということになります。でも、この情報だけでは、本当にその精度が高いのか低いのか判断ができません。
もしも、どんなも人にでも95%の確率で“悪性”と診断するとしたらどうでしょうか?この場合、本物の病気を病気と診断する確率は95%なので、感度は95%です。けれども同時に、病気でない人も95%の確率で「病気である」と診断してしまうわけです。全然異常がない人のほぼ全てを「病気」と診断するのでは、感度95%が優秀とは言い難いでしょう。
そこで、「特異度」のチェックが必要になってきます。これは「陰性のものを正しく陰性と判定する確率」を指します。先の例の場合、感度は95%と高いのですが、病気でない人を正しく「病気でない」と診断する特異度は5%ととても低くなってしまいます。
このように、診断能力の精度は、「感度」と「特異度」の両方の数値のチェックが必要なのです。
しかし、人工知能の報道を見ていると「ガンを95%の確率で診断した」というように、片方の数値(おそらく感度)しか報道していない事例が多く見受けられます。
感度を上げるには特異度を下げれば良いのですから、片方の数値のみ報道するのは意味がありません。感度と特異度の両方を評価する必要があるのです。●トップクラスの医師には勝てないが医師平均を上回る
http://expres.umin.jp/mric/mric_119.pdf
人工知能と人間医師の「感度」「特異度」
ここまで理解していただいたところで、上の図をご覧ください。この図はあくまでこのコラム用にイメージとして作成したものですが、現在発表されている人工知能診断の論文では(私どもが研究中の結果を含めて)人工知能の診断精度は多くがこのような形になります。
グラフでは曲線が人工知能の診断精度になります。それに対して、人間医師の診断精度は赤い点で示されています(人工知能の感度と特異度はプログラミングで調整できるので、連続的な曲線で示すことができます。一方、人間医師の診断精度は人により固定されているので非連続的な点で示されるというわけです)。
これを見ると、“感度が高いが、特異度の低い”医師がいたり(やたら多く検査を勧める医師がこれに当たります)、“特異度が高いが、感度が低い”医師(検査をいっぱい勧めてはこないが、病気の発見が遅れることも多い)がいたりすることが分かります。
しかし、トップ10%くらいの医師は、感度も特異度も共に人工知能を上回っており、人工知能よりも少ない検査で正しく病気を検出できるということになります。
なお、緑の点は人間医師の平均です。人間医師の平均よりも、人工知能の方が上回っているという結論になります。
これまで発表されている人工知能の性能評価は、メラノーマ(皮膚ガン)の診断、糖尿病性網膜症の診断、そして私たちが研究しているピロリ菌胃炎診断などに関するものです。これらの診断において、人工知能は現状ではトップクラスの医師には勝てないが、医師平均を上回る性能出していると思っていただければ概ね正しい認識と言えるでしょう。●人工知能がアシストする時代はもうすぐ
冒頭の会話に戻ると、修行を積まなければ人工知能以下の精度しか出せないわけですから、若手医師が自分の仕事に意味がないように感じ、何をしたら良いか不安に思うのも当然でしょう。
一方、指導医は人工知能以上の精度が出せるわけですから、若手医師に「人工知能が人間医師に取って代わるわけがない」「まずは人工知能以上の精度が出せるまで修練を積むべきだ」と指導するのも当然でしょう。
いずれにせよ、人工知能診断が医療現場で医師のアシストとして使用される時代はすぐそこまで来ています。不必要に恐れたり、役に立たないと決めつけるのではなく、それを利用してより良い医療を提供できるように努めるのが、患者さんに最良の医療を提供する私たち医療従事者の務めだと私は思います。
(引用ここまで)
わたしとしては、詳しく知りたいので参考文献を挙げていただければなと感じました。
注意が必要なことは、“診断”に限定して記述されていることです。
医師の業務は“診断”だけではありません。
先日の記事の中では「麻酔の業務がコンピュータに取って代わられるのでは」という、麻酔科に限定した話について書いたのですが、他の科でも同じ話が持ち上がってるのだなと感じました。
そのくらい、日本の西洋医学では専門化が進んでおり、他の科の情報はあまり入ってきません。
わたしが面白いと感じた一文が「トップクラスの医師には勝てないが医師平均を上回る」というものです。
この一文は面白いです。
“診断”ではない“麻酔”の分野でも同じことが言えるようになれば、例えばわたしが麻酔を受けるときに、研修医か人工知能の二択なら人工知能を選びます。
(実際は研修医が一人で麻酔をかける状況はないのですが。)
おそらく…、医師に限らず、どの職業でも同じことが言えると思います。
人工知能は、トップクラスにはなれない。
当たり前なのかもしれませんが、そういうことだと思います。
逆に考えると、平均的な技術・能力であれば、人工知能に簡単に超えられます。
例外はあるかもしれませんが、コーチングを“適切に”学ぶことが、人工知能には到底追いつけない場所へわたしたちを連れて行くかもしれないと考えます。
長文をお読みいただき、ありがとうございました。
reader読者登録
ブログ購読をご希望の方はこちらからご登録ください。