【 思考分析 】人はなぜ予防しないのか? 強化学習の観点から考えてみた 前編

グースの部屋

思考分析

今回は、病気の予防をしない人の思考を、強化学習の観点から分析する。

思考分析 病気の予防を題材にした背景

国民医療費は少子高齢化に伴い年々増加し、2015年度の時点で総額42兆3644億円と過去最高を更新した。これは、GDP(国内総生産)の約8%にあたる。

このまま少子高齢化が進めば、医療費の負担はさらに大きくなり、自己負担割合が増えるのも時間の問題といえる。

現在の日本では、国民皆保険の恩恵で、個々の負担する医療費はかなり賄われている。しかし、この制度も崩壊しないという保証はなく、米国のように医療費の自己負担割合が高額になり、貧乏人は病気・怪我をするな、という未来も十分に考えられる。

さらに、病気になってしまうと、医療費がかかるだけでなく、仕事やプライベート活動にも多大なる影響を及ぼす。健康寿命を伸ばすことが重要なのだ。

しかし、多くの人は予防をしない。健康長寿が大事と分かっていても、行動が伴わない。健康診断の結果で少しぐらい悪い判定が出ても、仕事のために睡眠時間をろくに取れない日々が続いても、運動不足が続いているとわかっていても、タバコや過度の飲酒・添加物てんこ盛りの食物は体に良くないと知っていても、知識としては理解していたとしても、生活習慣を改善する・病気を予防するための行動をすぐに取れる人は少ないのではないだろうか。

今回は、こういった予防をしない多くの人の思考を分析し、健康長寿に貢献することを目的とした商品を世に広める際に重要となるポイントを紹介する。

 

強化学習の紹介

まずは、強化学習について簡単に紹介する。強化学習とは、ある環境内におけるシステムの行動選択に基づいて、それに対する報酬を与えることで、システムの状態価値を最大にする問題を扱う機械学習の1つである。

最近では、強化学習と深層学習を掛け合わせたDQNが実装されたGoogleのアルファ碁が、世界トップ棋士である柯潔に勝利したことで話題になっている。現在の人工知能AIと呼ばれるものの最高峰の1つといえるアルファ碁にも、強化学習が使われているわけだ。


https://www.engadget.com/2016/03/12/watch-alphago-vs-lee-sedol-round-3-live-right-now/

そして機械学習とは、人間が持つ学習にあたる仕組みを機械で実現する技術・手法の総称である。

そこで、人工知能のレベルを上げている機械学習の1つである強化学習のモデルを使うことで、人間が学習する仕組みをざっくりではあるが分析できると考えた。

 

強化学習の観点から人の思考を分析する

強化学習では、システムの状態価値を決めるためのモデルとして、次のベルマン方程式が一般的に使われる。ベルマン方程式の詳しい解説は割愛し、簡単な形式で書くと次のようになる。

V(s) = max E [ Rs,a + γV(s(s,a)) ]

V(s):状態sにおける状態価値V
V(s(s,a)):状態sで行動aを採用した1step後の新たな状態sにおける状態価値V
Rs,a:状態sで行動aを採用した時に得られる即時報酬R
γ:時間割引(未来の報酬を割り引いて考えるためのパラメータで、γは0から1の間の数)
max E []:期待される最大値

このベルマン方程式が成り立つシステムの前提条件として、学習対象がマルコフ決定過程である必要がある。マルコフ決定過程とは、次のステップの状態S(t+1)が、現在の状態S(t)と採用した行動A(t)で決まるシステムのことである。

マルコフ決定過程でない学習対象としては、現在の状態S(t)以外の過去の状態、S(t-1)、S(t-2)… も次のステップの状態S(t+1)に影響を与えるようなシステムである。もちろん、現実世界で人が扱う学習対象は、厳密にはマルコフ決定過程でないことも多いが、モデルのシンプル化のため、マルコフ決定過程が成立するものとして考える。

ベルマン方程式を用いて人の行動・思考を分析してみる。発言内容の下にベルマン当てはめた方程式が書かれている。

お腹が空いた。美味しい焼肉をお腹いっぱい食べよう。
V(s) = max E [ Rs,a ]

これは、もっともシンプルな思考パターンであり、即時報酬に忠実に従う方法だ。本能的、野生的など言えるかもしれない。

お腹が空いた。美味しい焼肉をお腹いっぱい食べたい。でも、将来メタボにならないようにするためには、食べすぎは良くない。そうはいっても、まだ自分は20代。メタボになるのはまだ先の話だし、いっぱい焼肉を食べよう。
V(s) = max E [ Rs,a + γV(s(s,a)) ]

今度は、焼肉をお腹いっぱい食べた後の自分の状態にも思考を巡らせている。しかし、メタボの心配をするにはまだ早い(γ(時間割引)の値が0に近い)ということから、結果的に、即時報酬が大きく得られる行動(焼肉をいっぱい食べる)を選択している。

お腹が空いた。美味しい焼肉をお腹いっぱい食べたい。でも、今メタボだし医者からは焼肉はなるべく食べないようにと言われている。でも本当にあんな医者の言うことが当たっているのだろうか。。やっぱり、いっぱい焼肉を食べよう。
V(s) = max E [ Rs,a + γV(s(s,a)) ]

今度も、結果的に即時報酬が大きく得られる行動(焼肉をいっぱい食べる)を選択している。今回の場合、現状メタボで医者から控えるようにと言われているが、医者の言うことが本当に当たっているのか(医者の指示に従った未来が想像できない)ということを理由に、γ * V(s(s,a))の項目を消し去っている。

お腹が空いた。美味しい焼肉をお腹いっぱい食べたい。でも、今メタボだし、メタボが原因で不自由している・死んでしまった患者さんを何人も知っている。そうはなりたくないから、やっぱり、焼肉を食べるのはやめよう。
V(s) = max E [ Rs,a + γV(s(s,a)) ]

ようやく、即時報酬を覆し、将来の自分の状態価値を優先する(焼肉を食べない)選択ができた。

これは、現状メタボである(メタボが遠い未来の問題ではないため、γが1に近い)、メタボが原因で死んでしまった患者さんを何人も知っている(メタボを突き進んだ自分の未来に対する想像力がある)から、できたことである。

 

思考分析 なぜ、多くの人は予防しないのか

さて、命題に戻る。なぜ、多くの人は予防しないのか。この思考を、ベルマン方程式で考えると、次のように考えることができる。

V(s) = max E [ Rs,a + γV(s(s,a)) ]

V(s):自分の健康状態
V(s(s,a)):病気の予防をしない結果として得られる自分の健康状態
Rs,a:病気の予防をしないことによる即時報酬
γ:時間割引(未来の報酬を割り引いて考えるためのパラメータで、γは0から1の間の数)
max E []:期待される最大値

医者などで病気を患った結果を知っている・過去に特定の病気になったことがあるetcの経験を持たない限り、V(s(s,a)を想像することは困難である。

また、予防は未来の自分のためにする行動であり、γ(時間割引)の影響が大きくなる(γが0に近い)

したがって、Rs,aの比重が大きくなってしまう。病気の予防には、様々な制限が伴う。この薬を毎日飲まないといけない、痛い注射を月1でうけないといけない、美味しい焼肉をお腹いっぱい食べてはいけない、矯正器具を毎日装着していないといけない…等である。

病気の予防に伴うこれら全ての事柄は、いずれもネガティブ要素であり、人を病気の予防という行動から遠ざける要因である。

以上のことから、人というシステムの多くは、病気の予防を積極的に行うことができないのである。

では、どうすれば、予防をしない多くの人々に対して、健康長寿に貢献することを目的とした商品を世に広めることができるのか。そして、日本の医療費高騰問題に歯止めをかけることができるのか。。

 

記事一覧

▼日本ブログ村でのNOTAMARIはコチラから▼

日本ブログ村 旅行ランキング

 

コメント