データでいのちを描く テレビディレクターが自分でAIをつくったわけ

 東日本大震災の報道での無力感から、辿り着いたのがビッグデータ

データでいのちを描く―テレビディレクターが自分でAIをつくったわけ

データでいのちを描く―テレビディレクターが自分でAIをつくったわけ

 

 ナースコール

 意外なところにデータが眠っていることもあります。(略)

協力してもらったのは、熊本県にある済生会熊本病院。長年大量のデータを収集・活用しており、データに関するリテラシーが高い病院です。自前で巨大なサーバーを用意し、検査データは看護師の皆さんが即時にデジタル化を行います。提供してもらった1年分のナースコールのデータは、約109万回分。(略)

 提供されたデータには患者個人が特定できるような情報は含まれておらず、ナースコールが押された日時や病棟の場所、診療科、患者の年代や性別、押した目的などの限られた属性がひも付けられているだけでした。しかし、「109万回」という、とてつもないボリュームが大きな意味を持ったのです。(略)

頻繁にナースコールが押されるのは何時ごろか、性別はどうなのか、どの年代が多いのか。結果、80代の男性患者が、消灯から1時間の間に、「寂しいから」という理由で押すパターンがいちばん多かったとわかりました。

飲酒運転

 飲酒運転を撲滅したい──強い思いで臨む現地取材チームが福岡県警と交渉し、過去10年間の飲酒運転による事故の詳細データを提供してもらったのです。(略)
[データは予想以上に]とても細かくデジタル化されていました。

 事故の起こった地点、運転者のアルコール量、発進した後いくつ目のカーブを曲がりきれずにぶつかったかなど、事故の詳細が記録されていたのです。これらのデータを分析したところ、飲酒運転で事故の起きたケースの多くでは、発進後一つ目のカーブすら曲がりきれないことがわかりました。

ディープラーニングが最強なわけではない

第3次AIブームを牽引するディープラーニングは画期的なものですが、最新の学習法が使用されたプログラムだけがAIではないというのが個人的な意見です。

 私自身の体験を紹介しましょう。あるセンサーデータをAIに学習させて、自動判別を行うことを試みました。「どうせやるなら最高の技術を投入しよう」と、数日かけてディープラーニングによる学習モデルをつくりました。結果は、判定精度が98%と高い成績を収め、その力強さに大満足。そこで終えても良かったのですが、古典的な機械学習との差を確認しようと、そちらも試してみることに。結果、95%と高い精度を叩き出しました。わずか30分で実装したものです。さらに、設定値を少し調整すると98%に到達することがわかりました。

 確かにディープラーニングのパフォーマンスはすばらしいのですが、古典的な技術とあまり変わらない場合もあるのです。ある意味で手垢の付いた古典的な技術は、その導入方法やロジック、あるいは問題点が明確になっており、使い勝手が良いという利点があります。

(略)

 ここで、ちょっとした笑い話を紹介しましょう。あるプログラマーと話していたときのことです。その人は「自分は決してエクセルを使わない」と言い張りました。エクセルは、データの整理もグラフ化も数理処理も手軽に行える、優れた表計算ソフトです。最近は性能も上がり、ビッグデータ解析にも使えます。しかし、その人は普段からプログラムを書くことにこだわりを持っており、既存のソフトウエアを使うことはあまりないと言うのです。

 あるとき、データの中に混じっている“汚れ”を取り除くことをお願いしたのですが、その処理をするためだけにプログラムを書いたそうです。エクセルですれば10分でできるはずなのに3時間かかっていました。これは典型的な“プログラマーあるある”です。「必要もないのに、20行のプログラムコードを3行に短くして自慢する」「計算速度を5倍にすることに数日かける」。少し汚いコードでも、正確に動いてくれれば問題ありませんし、コーディングに数日かけるくらいなら、さっさと計算を始めて、空いた時間でコーヒーブレイクした方がいいでしょう。

 AIの技術も同様です。シンプルな機械学習を使わない(認めない)プライドの高い人がいますが、それはもったいないです。たとえ10年前と同じ手法であっても、今だからこそ入手できるビッグデータを学習させるならば、当時よりはるかに良質な結果が得られます。

 また、一つの手法を磨くよりも、複数を組み合わせた方が効果的な場合もあります。NECの開発した、「異種混合学習」という学習法はその内部で巧みに手法を組み合わせており、防犯カメラの顔認証から食品スーパーの在庫管理まで驚異的な精度を出しています。

ディープラーニングブラックボックス

 たくさん技術がある中で、どれを社会課題解決型AIに使えばいいのか。ここで二つの大きな選択肢があります。

1.ブラックボックス

2.ホワイトボックス型

 ディープランニングは前者に分類されます。比類のない高い成果を生み出しますが、開発者であっても弾き出された回答までのプロセスの理解は困難で、ブラックボックス化してしまうのです。

(略)
 しかし、社会課題を解決したい場合、それでは困ります。100万件の交通事故状況のデータをAIに学習させるのならば、「事故発生確率が60%」と予測をするだけでなく、確率の高くなる要因が「ドライバーの年齢」なのか、「日が暮れて暗くなってきたこと」なのか、「街路樹が多いこと」なのか、原因を突き止めることが求められます。事故発生予測AIをつくることに意味はありません。具体的な解決の一手にたどり着かなければ、新たに発生する事故を、ただ見守ることしかできないのです。

 さて、選択肢の二つ目、ホワイトボックス型のAIにはどんなものがあるのでしょうか。(略)機械学習の中には、決定木や次元削減、クラスタリング、回帰分析など長年使用されてきた技術が山のようにあります。可視化の方法や精度の上げ方も明確です。そして、AIの“思考”プロセスをのぞくことが可能なこともポイントでしょう。

 事例によってはディープラーニングのパフォーマンスに敵わないこともありますが、精度の差が極端に開くことは少ないので、開発者は目的に応じて適切な技術を選択すればいいわけです。思い切った表現をするならば、ホワイトボックス型AIの技術水準はもはや“伝統芸”の領域に達しているとも言え、安定した結果を生み出してくれます。

(略)

AIは「何でも放り込めば、後は何とかうまくやってくれる」と思われがちですが、内部構造をつくる際、さまざまな値を設定する必要があり、その微妙なコントロールがパフォーマンスに大きく影響します。まるで職人の世界です。設定値は、データの種類や量によっても変わるのですが、「うまくいったらそれが正解」的な性格が強くて、研究者の方とお話ししていても、「やってみないとわからないね」と返ってくることが多々あります。

「人は被害に遭うまで避難しない」 

東日本大震災の際の携帯電話の位置情報から、浸水域を対象に10メートル以上移動した人のデータを抽出し、その軌跡をグラフ化したのです。(略)

 ざっと解説しますと、震度7地震が発生した直後、さらなる余震、そして津波を警戒して人は移動し始めました。しかし、データから見えてきたのは多くの動かない人たちです。最初の地震から約15分、震度5程度の余震が発生すると、最初よりは少ないですがやはり人々は移動を始めました。その後、しばらくは大きな行動は見当たりません。そして津波警報などの情報が入り始め、また少しずつ動きが出始めます。そのタイミングでまた余震が起き、そこでまた少し移動するのが認められます。その後しばらくはほとんど動かない時間が続き、最後に、津波が押し寄せてから多くの人々が動き出しました。

 ここから見えてくるのは、「人は被害に遭うまで避難しない」ということです。