読者です 読者をやめる 読者になる 読者になる

Q-bind

医療と機械学習を正しく、簡単に伝える

医者(医学生)は人工知能とどう向き合うべきか?

AIブームと言われる中、若い医師、医学生にも興味を持ってもらえる時代が到来した。

Q&A形式となるが、よく質問を受ける3つのことに対して簡便に私の考えを述べる。

興味を持ったら当ブログの他の記事を読んでほしい。

 

「なぜAIを考えなければならないか?」

端的に言えば、「考える必要がある。なぜなら患者さんのためになるから」である。

学んだ治療方法を実践する医師と、人工知能で患者さんを助けるソフトウェアの本質的な違いは現状では、保険で認めれた治療かどうかだけだ。

( #物凄くざっくり言えば、治療の適切度などは人工知能と医師、現状では遜色ないことが多い)

 

医師は炎症性の疾患に対しステロイドを患者さんの様子を見ながら投薬し治療していく。

一方でデータを大量に学習したモデル(人工知能)は患者さんの検査所見(ラボデータ)を解析し適切なステロイドを投与する。

 

医療の最大の目的は「患者の治療」である。よって医師が治療しようが、人工知能が治療しようが、患者にとってどちらでも良い訳である。患者にとって聴診器でも心エコーでも「正しく診断」できればどちらでも良いのだ。人工知能は、そういった意味で医療の延長線上にある。だから医師は人工知能と向き合わなければいけないわけだ。

決して「自分の職業が奪われるかもしれないから」という自分勝手な理由ではない。

 

「私が医療をよくするためにAIとどう向き合ったら良いか」

 まず人工知能 (AI)の正体を知るべき。それは単なる関数の組み合わせであり、それが人工知能と騒がれてる。では向き合う時に、「どこから向き合うべきか」だが、医療の人間が最も考慮すべきは「ある人工知能モデルが一般的な胸部レントゲン画像で肺がんと診断する感度と特異度、陽性尤度比はどれくらいか。何のデータで学習したか」という点だ。ここが最初のポイントだ。

この辺の知識をまず整理すべきだ。医療とはリスクマネージメントだと私は思う。すなわち難しい数学以前に、予測と学習に関する知識を整理すべきだ。勉強用のスライドは検索すれば大量に出てくる。

 

www.slideshare.net

また現場で困っているあなた自身の問題を「これは人工知能機械学習で解決できないか?」という姿勢を常に持つと面白い。例えば「なぜ診察中、患者さんの医療情報を取る時にキーボードを使って記録しなければいけないのか。面倒である。これをAIにやらせることはできないか?」というような反応は至極真っ当であり、そのような純粋な疑問を持つことが向き合うべき二つ目のポイントだと思う。宣伝をしているわけではないが、自社でもそのような議論から開発した製品を見てほしい。Qspeech

 

 

「医師がコードを書くのは現実的ではないか」

決してそんなことはない。医師に大学院の期間が3年間あるとする。

その3年間で、勉強をすれば研究のためのコード、機械学習の基礎知識は必ず身に付けることができる。その苦労を厭わないなら3年で独り立ちできるだろう。下記のようなオンラインコースを取ってプログラミングを勉強できる。

prog-8.com

また機械学習で特にブームになっている深層学習も同じようにWebでスライドをしばらく見ていれば雰囲気はつかめる。

 

これらを読んで興味を持った方は、ぜひ自社 Augrim に連絡してほしい。

 

 

2017年の前半~機械学習(人工知能)と医療の論文を読み~医療はAIでどう変わるか?

今回のテーマは、

「ただ医療データを機械学習で予測するだけで意味はあるか?」

「モデルができた場合、どうすれば病院に届けることができるか?」

答えからいえば

「医師と同じ能力で予測だけでは意味はない。医師の業務を軽減するような予測をする必要がある」ということです。ソフトに画像読み込ませて「がんです」と出るだけでは業務に使えません。「ソフトに画像を読み込ませれば、カルテに医師が書いてる細かな情報と同じことが記載される」など業務の一環をサポートできるように補足できることが大事です。それが今回紹介するGoogle論文*1 です。

 

次に「モデルは大事だが、複雑なモデルよりもわかりやすいモデルが医療では大事。結局人間が判断するケースが多い、その場合、「なぜこのモデルが悪性度4と判断したか」というのが人間にわかることが大事です。」

 

早速本題に入ります。

2017年に入り、Googleを筆頭に、「機械学習で医療データを予測しよう」という論文がニュースで割と有名になりました。*2

money.cnn.com

こちらの成果をざっくり言えば、

「がんの悪性度を判断する病理検査がある。病理医は毎回患者さんの病理画像を見てから悪性度を判定しデータにまとめるという作業をしているが、これを病理医より正確に早くできるようになった」

ということです。ただ「この画像はがん」と予想するだけの論文ではなく、「どの部分が悪性度の高いがんで、それは全体のスライドのX%を占めている」ということまで教えてくれるので、現実問題に沿った非常に重要な問題です。個人的には、現場の医療問題として画像データのサイズが大きすぎる。この現場の問題も彼らは言及しています。

 

その他にも今年はこんなのがありました。

www.inverse.com

上記のように敗血症を事前に予測するというテーマもニュースになりました。この記事では、Q&A方式で研究者が答えているのが面白いです。AIが判断することで医師の責任はどう問われるか、電子カルテのデータ構造やデータのあり方をどう変えれば良いか。など世界共通の悩みに「いまだ答えが出てない」ということを教えてくれています。

 

www.standard.co.uk

こちらはGoogle DeepMindが絡んでいるようです。急性腎不全になる前に患者の血液データからそれを予測したということです。「正直、このような研究は以前からあります。」とか関係なく、救われた家族の話が掲載されていて心が和みます。

ちなみにテーマとしては、私が2015年NIPS Clinical Health workshop*3で論文化しDeepMindからStudent Awardをもらった研究内容に近く肝硬変患者の腎障害予測でした。

 

www.wired.co.uk

医療画像の予測研究は数多くあります。深層学習が現れる前からあります。特に皮膚科や乳がんのレントゲン写真、胸部レントゲン写真、あとは眼底画像。これらは多いです。なぜかというと、健康診断などで取られる機会が多く、医師の見落としが起きやすいからです。

 

 さてまず最初に2017年の研究を紹介した理由としては、「研究自体は以前から多くあった。別に新しい手法ができて2017年じゃなきゃこの研究はできなかった、ということでは全くない」ということを強調したいです。

つまりこのように記事になったりWebで有名になるのは、人工知能に対する過度な期待な表れなわけです。しかし過度な期待には常に期待はずれがつきものです。例えば上で紹介した4つの研究のうち、一つの研究が5個の病院に実際に設置されるのはいつ頃になるでしょうか。

恐らく長い時間がかかるでしょう。それは下記のような理由です。

  • ラボデータをどうやってモデルに入れれば良いのか?
  • モデルは他の病院で有名で精度が高いわけで、我々の病院に当てはまる保証はあるのか?
  • 医師でも直感でわかっていることしか、機械学習は予測していない

一言でまとめるとすればモデルの解釈が全くできていない点と、病院に保存されている医療データの所在と管理方法が古すぎるのが問題です。

機械学習というのは「次に来るデータに対しうまく予測できれば良い」というスタンスを取っており、モデルがいくら複雑になろうと、解釈性が低くても良いとなってる。

(ここでいう解釈性とは、「なぜこのモデルは画像 Xを犬と判定したか」をということです。)これは医療では逆。なんでそう思ったか、というのは知りたい。なぜなら人工知能だけで患者ががんと診断されるのはやはり怖いです。

 

TensorflowやChainerで簡単に実装ができる中で、がんを診断する論文なんて、「簡単に書けるだろう」思われるかもしれない。しかし論文を書くだけなら簡単かもしれないが、実際に機械学習を真面目に勉強し実際の現場に送り込もうとすると「簡単」とは言えない。

なぜなら実装して「ああ、予測精度8割ね」とは終わらず、このモデルの評価をしなければならない。どれくらい汎化性があるか、どのような画像が苦手で間違えたか、特定の画像に病気とは関係いないスケールやノイズが入っていないか。さらにこのモデルを病院内で使ってもらうためには、現状の病院システムのどこに組み込めば良いのか。それは安全なのか。考えることは山ほどあります。

これらをしっかり判断したい。ニュース記事では、予測ができた、予測ができたと騒ぐ。一回落ち着いて欲しい。

 

また今回病気の予測を何からするかというのが今後大事だと思います。

機械学習のモデルにとって画像か数値というのはあまり変わらないかもしれませんが、医師(というか人間)にとっては大きく違います。数値10個を見て判断するのか、画像1枚の行列1つをみて判断するのかでは、やはり後者の方が人間の直感は働く気がします。

すなわち複数の数値データから病気になる確率を予測したりする能力は圧倒的に機械学習(AI)の方が優れている。
それが如実に表れているのは、我々医療従事者は、現場ですぐ計算できるように物凄く近似された予測方程式を使う。ペインの式、eGFR式*4などだ。逆にいえば、そこで先ほどの急性腎不全の予測を数値で行うのは人間には無理です。入力するデータの数が10個以上の場合、僕らはいちいち計算していらられない。じゃあその数値データをどうやってモデルに入れるのか。上述したモデル問題が姿を表す。モデルの解釈と場所が問題になるのだ。


一方で二つ目の問題として、病院内の医療データだ。現在多くの病院は、医療データが存在するサーバーをオフラインにすることでイントラネット内で全てを完結させている。それはそれで一つの手段だが、イントラネット内でも病院の情報は引き出すのが難しいし、不正に引き出すことも沢山できる。それらを安全に簡易に行おうと考えている企業がある。予想通りDeepMindだ。彼らのブロックチェーンに類似する医療データの管理方法の研究がメディアにも反響を呼びました。(この時点で、なんの研究家かはあまり言及していません。ブロックチェーンとだけ言っています)

deepmind.com


今後、医療には莫大なデータの統合が必要です。それは医療データは施設バイアスが激しいからです。例えば車の画像は、だいたい日本の国内なら同じです。しかし血糖値というデータ一つ取っても、地域ごとに測定する頻度や糖尿病に対する患者の意識の差などあり、グローバルに役に立つモデルというのは非常に難しい気もします。だからモデルを個別化させるか、データを統合的に集めるかしか手段がないです。
そこで安全にデータを集約するという意味で、ブロックチェーンのような構造を取るのは非常に良いアイデアですが、計算コストや維持費などが高すぎる。Google DeepMindはきっと年末にはこの点を改善したデータ管理方法を開発するでしょう。

 

我々もデータ管理システムを作っています。(後日記載)

日本が医療と機械学習で進みが遅いのは、圧倒的に「医療と機械学習で技術を持った会社」が少ないからです。そのように技術に飛び抜けた会社が業界をリードすべきです。Google DeepMindのような海外に頼ってしまいたいですが、しかし医療は世界共通ではありません。米国と日本では殆どの疾患で治療法が異なります。米国は米国人の遺伝子と生活にあった治療が存在し、日本には日本のものが存在します。よって日本は日本の医療をリードする日本の技術で飛び抜けた会社が必要です。そういう会社を僕らは目指しています。(   )

参考文献

発熱

  1. Bottieau E, Clerinx J, de Vega MR, Van den Enden E, Colebunders R, Van Esbroeck M, Vervoort T, Van Gompel A, Van den Ende J. Imported Katayama fever: Clinical and biological features at presentation and during treatment. J Infect. 2006;52:339-345. [Epub 2005 Sep 19]
  2. Bottieau E, Clerinx J, Schrooten W, Van den Enden E, Wouters R, Van Esbroeck M, Vervoort T, Demey H, Colebunders R, Van Gompel A, Van den Ende J. Etiology and outcome of fever after a stay in the tropics. Arch Intern Med. 2006;166:1642-1648.
  3. Casalino E, Le Bras J, Chaussin F, Fichelle A, Bouvet E. Predictive factors of malaria in travelers to areas where malaria is endemic. Arch Intern Med. 2002;162:1625-1630.

 

疲労

  1. Kroenke K, Wood DR, Mangelsdorf AD, Meier NJ, Powell JB. Chronic Fatigue in Primary Care. Prevalence, Patient Characteristics, and Outcome  . JAMA. 1988;260(7):929-934.
  2. The National Ambulatory Medical Care Survey: 1975 Summary . US Dept of Health and Human Services publication (PHS) 78-1784, 1978.
  3. Allan FN:  The differential diagnosis of weakness and fatigue . N Engl J Med 1944;231:414-418.Article
  4. Morrison JD:  Fatigue as a presenting complaint in family practice .J Fam Pract 1980;10:795-801.



  1. Cherry DK, Hing E, Woodwell DA, Rechtsteiner EA. National Ambulatory Medical Care Survey: 2006 summary. Natl HEalth Stat Report. 2008; 3:1-39.
  2. Irwin RS, Madison M. The diagnosis and treatment of cough. N Engl J Med. 2000;343:1715-1721.
  3. Pratter MR. Overview of common causes of chronic cough: ACCP evidence-based clinical practice guidelines. Chest. 2006;129(suppl 1)59S-62S.



めまい

  1. DrachmanDA, HartCW. Anapproachtothedizzypatient. Neurology. 1972;22:323-334.
  2. HanleyK,O’DowdT, Considine N. A systematic review of vertigo in primary care. Br J Gen Pract. 2001;51:666-671.
  3. Kentala E<,Rauch SD. A practical assessment algorithm for diagnosis of dizziness. Otolaryngol Head Neck Surg. 2003;128:54-59.

 

頭痛

  1. Cherry DK, Woodwell DA. National Ambulatory Medical Care Survey: 2000 summary. Advance data from vital and health statistics; No. 328. Hyattsville, MD: National Center for Health statistics, 2002. Available at:http://www.cdc.gov/nchs/data/ad/ad328.pdf.
  2. Rasmussen BK, Jensen R, Schroll M, Olesen J Epidemiology of headache in a general population—A prevalence study. JClin Epidemiol. 1991;44:1147-1157.
  3. V. Dhopesh, R. Anwar, C. Herring. A retrospective assessment of emergency department patients with complaint of headache. Headache, 19 (1979), pp. 37–42
  4. A.P. Friedman, T.J.C. von Storch, H.H. Merritt. Migraine and tension headaches: a clinical study of two thousand cases. Neurology, 4 (1954), pp. 773–778

臨床データベースMIMICの使い方~なぜ医療における人工知能研究は少ないか

こんばんわ、今日はMIMIC2*1という米国の臨床データベースの使い方を紹介します。
と言いたい所なんですが、使い方の前に、このデータベースは、アメリカのオンライン倫理学習コースCITI*2を取得しなければ利用することができません
今日はその倫理学習コースの取得方法をご紹介します。(若干面倒)
[現在はMIMIC3*3 となっております。MIMIC2の時とは別の倫理コースを受けなければなりません。これについては後日ブログにします。]
 
さて医療のデータは患者様の貴重なデータによって構成されています。すなわち漏洩が許されません。よって患者さんのデータをUSBで持ち運べるようにする、病院のサーバーをインターネットにつなげるなどは避けられるべき行為です。
 
一方で人工知能の研究には多大なるデータが必要です。犬と猫の画像が何千枚もデータセットとして存在していることで、多くの研究は進んできました。人工知能と医療の研究が進みにくいのはデータの閉鎖性が一端です。私の大学病院でも医療情報は非常に厳しく管理され、必ず倫理審査委員の定期的なチェックが入ります。
 
よって医療データを持ってる人間とコネクションがある人間しか「医療と人工知能機械学習」の研究はできないことになります。それは仕方がないことです。しかし米国ではその常識を覆すようにMIMICというデータベースがあります。こちらは米国の病院と大学が協力をし11年分の救命救急室ICUのデータを全て公開しています。データは倫理講習を受けると、簡単に得ることができます。SQL形式でデータを取得できます。とても便利です。しかし急性期の病態しか扱えないのが欠点ではあります。
 
MIMIC2の説明書はこちらです。

http://physionet.org/mimic2/UserGuide/UserGuide.pdf

 

この医療データの特殊性は、Google DeepMindなど医療と人工知能の最先端の研究を行っている人々も大変気にしております。DeepMindはイギリスの病院と連携をし100万人以上の患者データに自由にアクセスすることができます。しかしイギリス国民から「私の知らないところで私のデータがなぜ使われとるのだ」と不満が募るわけです。そのためにDeepMindは、「あなたの医療データはいつ使われ、どのように使われ、それは安全な場所に今もある」と言えるためのシステムを構築しているそうです。

さてMIMIC2の説明に入ります。2016年12月現在、MIMIC2は廃止され、MIMIC3に移行しています。
よって下記の記事は意味がありません。しかし雰囲気をつかむという理由で掲載しておきます。
 

1:倫理講習

サイトでユーザー登録をします。
 
ここでひたすら講義を聴き、問題を解きます。
そして8割以上の正解で証明書を手に入れることができます。
 

2:MIMIC2の利用申請

そしてPhysioNetに向かいます。
こちらでまずユーザー登録を行った、あとログインすると、様々なプロジェクトが見えます。
 f:id:keivard:20141102002016p:plain

 

まずこのPhysionetというサイトで、先ほど手に入れた証明書をアップロードします。(Training Certificateという箇所)
すると自分のアカウントには、証明書が添付されるわけです。

 

この状態で初めてMIMIC Ⅱ Clinical Databaseというものに登録します
下記のProjectから MIMIC Ⅱ Clinical Databaseを探してくださいf:id:keivard:20141102001904p:plain

3:メールの返信

登録すると、その後、メールが届き、様々な個人情報の登録を求められます。
 
 
それに返信し、使用許可がおりれば、いよいよMIMIC2が使えるわけです。
ここのウェブサイトがSQLを簡単に発行できます。
 
4:ひとまずquery builderを使ってみましょう。

「医療分野で応用されてる機械学習(人工知能?)」は未だない

早速だが、この記事を見て欲しい。

itpro.nikkeibp.co.jp

 

まず誤解がないように、これだけはハッキリさせておくと、医療分野に応用されてる、つまり病院に配置されてる機械学習、深層学習はまだない。(人工知能と思ってもらっても大丈夫です。)

 

さてこの記事の図を見て欲しい。

f:id:keivard:20161220134757j:plain

取り組み = これからやります。という宣言だけだ。

また集団学習、深層学習、自然言語処理は独立して存在する技術ではない。ハッキリ言って意味不明な記事だと思う。更に言えば、患者さんの元に上の技術が届くのは少なくともあと5年はかかるだろう。

 

今日は、代わりに既に行われている研究、なおかつ医療応用が秒読みな技術を紹介しよう。

 

一つ目: 遺伝子の変異を決定する有名なアルゴリズムが深層学習に変更される可能性がある

Creating a universal SNP and small indel variant caller with deep neural networks | bioRxiv

今までの生物学の研究では、「あなたがガンになりやすい確率は、一般的な健常者より1.5倍高い」ということを発見するのが流れでした。その研究のために必要なのは、ガンになった人と、ガンになってない人。この二つのグループの遺伝子を検査して統計学的に有意差がある変異を探していました。そこで面白いのが、このような研究は世界各国で行われているのですが、どの研究も使っているソフトウェアが同じということです。GATKと呼ばれるソフトウェアを使っていました。*1

ここで研究を紹介します。今回の研究では、深層学習を使って以前のGATKアルゴリズムより精度の高い手法を開発しました。つまり今まで発見していた遺伝子の変異がより高い精度で見つかるようになるということです。

この手の話は、使ってるゲノムシークエンサーにも依存するため一概には言えませんが、それらを踏まえても米国食品医療品局FDA-administered variant calling challenge*2 で最も精度が高い手法でした。今後、このアルゴリズムが普及し遺伝子検査の精度が高まることが期待されます。

 

二つ目: 個別化医療に置ける深層学習を利用したアルゴリズム

www.fronteo-healthcare.com

こちらの会社の「がん個別化医療AIシステム」と言うのは、正直内容がわからないので、何とも言えません。ただ学術的な世界で、包括的な意味での「がん」に対して個別化したアプローチを取って成功している例は未だに知りません。よくある研究の類としては、「あるがんの遺伝子変異に対して、ある抗がん剤はこれぐらい効果があった」と言うような研究です。

 おそらくここでFRONTEOが言いたいことは、IBMのWatsonと同じく論文検索でしょう。ある患者のがんにおける遺伝子変異を検索クエリーにし、その遺伝子変異特有の治療法を研究している論文を検索することです。これはある意味個別化ですが、個別化のレベルが非常に低い。より医療に踏み込むとすると、「この患者の遺伝子変異、肝臓腎臓の薬の代謝量、がんの大きさ」全てを包括して、「この患者に適切な抗がん剤の組み合わせ、種類、投与方法」と言うのがわかれば、個別化医療でしょう。しかしFRONTEOがやっていることは論文検索だけのように思います。

 

 個別化医療と言うのは、患者の身体的、精神的、社会的背景を踏まえて適切な治療を施すことです。しかしそのような複合的な問題は、今の人工知能では絶対に最適化できません。データもありませんし、精神的なもの、社会的なものは数値化が難しいでしょう。しかし進んでいる研究分野はもちろんあります。一つ深層学習を利用した例をご紹介しましょう。

 

U. Shalit, F. Johansson, D. Sontag. Estimating Individual Treatment Effect: Generalization Bounds and Algorithms. arXiv:1606.03976 Preprint, 2016 

 

こちらにスライドもあります。

いわゆる「反事実推定」と言われる分野です。例えば糖尿病に対して、2種類の薬A, Bがあります。今患者に対してAを使った場合、血糖値は10下がりました。しかしBを使っていたら、どうなっていただろう。と言うような問題設定です。

このような問題設定はCausal Inferenceと調べると関連論文が出てきますが、深層学習が研究される、だいぶ前から研究されました。特に有名なのがPropensity Scoreというものですが、医学研究にのみ有名な研究な気がします。このような考え方は、機械学習を専門にやってきた人だと、あまり馴染みがないかもしれません。下記のような素晴らしいまとめをご参考いただければなと思います。

統計学における因果推論(ルービンの因果モデル) – 医療政策学×医療経済学

 

さて本題の論文ですが、要は治療薬Aを受けた群とBを受けた群の特徴をうまくマッチさせましょうということです。

 

続きます、、

 

 

 

 

 

 

 

 

 

 

NIPS2016の医療ワークショップのまとめ

こんにちわ。先週行われたNIPS2016の医療ワークショップについて書きます。

(初学者の方は機械学習=人工知能とざっくり思ってもらっても大丈夫です。

ただ一つ強調したいのは、人工知能は何でもできるわけではありません。むしろ何もできません。

現在の人工知能は電卓のようなものです。決められたことしかできません。ガンを治すこともできなければ、病気になることは絶対に防げません。

人工知能ができるのは、例えば糖尿病に5年後なる確率をだいたい予測できるなどですが、毎日お酒を飲んで大量に印象句をしている人が糖尿病になりそうなのは、計算しなくても僕らは直感でわかります。2016年現在、医療における人工知能とはその程度でしかありません。笑)

 

そもそも機械学習の国際会議で応用系のワークショップが盛んなのは素晴らしいことですね。常に応用を考えなければ意味がないと、NIPSにいる基礎系の研究者は誰しもが思っています。それゆえに、2012年ICMLでは、機械学習の研究者に対して物を申す論文が大きく注目されたわけです。下記ブログは素晴らしく整理されております。

Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶

 

さてさっそく本題に入りたいと思います。

まず最も大事なことは、「完成された研究を発表し合う」というより、「発展途上の研究を一緒に現場に応用するには」という点がテーマです。だからワークショップに出す論文も「1論文あたりページ数は上限が5枚」と定まっており、その代わり、可能な限り幅広いテーマを皆んなで議論するというイメージです。

 

まず採択された論文テーマが50以上ありますが、そのうち23本は「何かを予測する」論文です。非常に驚きです。何を予測してるか簡単にあげますと、
(詳しくはこちらを見てください)

とあります。ここで一本一本、論文を読んでいくと、入力データは画像か、カルテの自然言語か、血液データか。更には時系列データか。予想する出力値は生存期間か、発症したかどうかか。などあります。

 

おそらく多くの方が「医療と人工知能」「医療と機械学習」でイメージするのは、何かを予測する上のような研究だと思います。これらの研究はこのワークショップ以外にも大量に行われております。疾患の予測というのは、医療が専門ではない方にとってもわかりやすい。故に大量に研究がされている。試しに「deep learning OCT prediction」とでも調べると一瞬で論文が出てきます。https://arxiv.org/pdf/1612.04891.pdf

 

しかし、予測するだけでは無意味です。医療従事者は、「どのステージの患者で、感度と得意度がどれぐらいなのか。予測に使った検査値は、どのステージで取られたものか」など非常に重要な点が残ります。なので、「ただ予測しました」というのは何も語ってないのに等しい訳です。私が人工知能ブームで恐れているのは、そのような点です。

 

さて前回も述べましたが、医療データの特徴は、

  • 「肺がん」という一つの病気をとっても、病気の進行の多様性は数多い
  • 医師が記録をしたい、測定したいと思わない限り、結果が残らないので、欠損値が多い
  • 人体とは生まれてから死ぬまでなのだが、ある病気が発症する4,5年前からしか最大でもデータが取れない(50歳で肺がんが発症しても40歳の時のデータは測定されてない)
  • 患者が来たい時に来るので不定期な時系列データになる
  • ラベルが付いてないデータが当たり前かつ、ラベルがついていても、病院ごとで違うことが多いし、信頼はできない (つまり、他院で肺がんと診断されるかもしれないが、他の病院では肺炎と診断されるかもしれない)

 

「じゃあ50本中、疾患の予測以外の論文25本は何をしているの?」というと、医療データの特徴をうまく処理できるようなアルゴリズムの開発。その他には、

  • 乳がんを意味がある形でサブ - クラスタリングする*4
  • アキレス腱断裂におけるリハビリテーションでは、患者の幾つものデータが欠損している。どのようにデータを補完し最適なリハビリを提供するか *5
  •  アメリカの医療コードを正準相関分析をして意味のある特徴量を見つけ出し、大腸憩室炎の発症を予測する *6

 

疾患対象は多岐に渡ります。というよりも、「手頃なデータがあるからやってみよう」という雰囲気を何年間か見ていますが感じます。すべての医療データに対して、予測かデータ補完かサブクラスタリングができるわけです。つまりデータがあれば論文の書き用はあるという印象を受けます。

 

他にも「ある部分を予測して切り出してくる」という論文もあります。今回ですと、CTで肝臓とリンパ節の部分を切り出してくるアルゴリズムの開発などがありました。

その他画像では、「様々な部位のX線画像を学習する。そして手のX線画像は、どの辺りの特徴で手と認識されるか」というようなわかりにくい問題設定の研究 *7もありました。この手の研究は、「X線画像を見て医師は肺がんを診断しているが、同じように深層学習も肺がんを診断するとき、人間と違う特徴量をつかってるかどうか知りたい」というような時に有用ではありますが、有用になった例の研究は私の知る限り知りません。

今年は画像系の研究がworkshopで少なかったように感じます。

 

 

今回はそのうち一つについて僕が好きだった論文を紹介します。これは「データがあるからやった」というよりも医療を最適化するうえで、現場のデータをどうすればよいかという問題を解こうとしています。

[1611.07663] Learning Cost-Effective and Interpretable Regimes for Treatment Recommendation

 

問題設定

医師は日々決断をせまられる。薬の投与量の変更や使用している薬の中止など。彼らはその決断を、目の前の患者を見ながらサジ加減調節することが多い。大量にデータがあるのにも関わらずそのようなことを行ってしまう。このように医師が行動をとってしまう理由は3つある。まず同じ患者はこの世にいないので、結局目の前の患者の情報が第一であるから。次にインターネットで情報を集めるのが面倒。さらに治療方針を再度変えるとお金がかかる。

 

これに対して現在の医療では、手作業による治療ガイドラインアルゴリズムが偉い方々の学会から毎年改定されて公開されている。これは作成コストが高すぎるのではないか。彼らが行った研究では、簡単に言えば「目の前の患者に最適化された選択肢を提示し、そのコストも計算し医師に見せる」ことを機械学習でやろう。というものです。

 

手法とデータセット

Figure 1を見てもらいたいのですが、このような画面を出力したいわけです。そのために彼らはルールの最適化を行います。あるルールの集合をレジメと呼び(呼吸機能が悪くなったら、酸素を入れるというのがルールのひとつの例です)、このレジメがコストが一番かからず患者の病気が一番早く良くなれば、一番良いレジメということです。それをマルコフ過程 + 木構造に乗せて最適化していきます。(有名なAlphaGoと同じ仕組みです)

データセットは、彼らは喘息の患者を対象に行いました。入力データは、年齢、性別、身長体重、呼吸機能などです。介入は2種類で速攻型吸引薬、コントロールのための薬物です。出力は、どの程度の期間発作が治まっていたか。というものです。これらの中から「最もコストが掛からず、発作が治まってる期間が長いレジュメ」というのを推定します。

 

結果

彼らのフレームワークで研究したレジュメは、人間の考えたものより良い治療ができるという結果が出ました。治療にかかったコストもわずかながら彼らのフレームワークの方が優れていました。

 

私が思うこと

米国ならではの研究で素晴らしいと思います。日本は、国民全員保険に入っているので、医療費のコストなどを一般市民が認識する機会がありません。しかし米国ではそれが普通です。このように医療費の最適化を真剣に考えている点は素晴らしいと思いました。

 

 

 

 

 

Who we are

こんにちわ。このブログを作成するにあたり、間違った情報を伝えない、誇張したことを書かないなど人間として当たり前のことをしっかりやっていきたいとおもいます。

 

news.tbs.co.jp

 

DeNAのこちらの事件が発端で、私はこの記事を書こうと思いました。

「医療と人工知能」というだけで多くの企業が「儲かる」という理由で投資をしビジネスを始めています。しかし果たして患者さんを救うことにつながっているのでしょうか。DeNAだけを責めるわけではありません。ただ僕らがやりたいことは、このような事件が二度と起きないように努めることです。そのために「人工知能とは結局医療とって何か」というのを紹介していきます。

  

医療と人工知能の熱の上がり方は激しく、どの企業や研究者も熱心に取り組もうと頑張っています。しかし残念ながら、一部では利益のためだけに公明正大に嘘をついたり、誇張した表現で活動をしていることがあります。それらは必ず患者さんに悪い結果をもたらします。

僕らはそのようなことは容認できません。そのため患者さんが、正しい情報を手に入れるお手伝いをこのブログで行いたいです。また研究者の皆様も、僕らがまとめた情報で、皆様の力に少しでも慣れたらなと思います。 

 

ご意見、ご連絡がありましたら、こちらまでお願いします。

keiohigh2nd[~at~]gmail.com

[at]を@に変更してください