アマゾノミクス データ・サイエンティストはこう考える

amazon元チーフ・サイエンティストという経歴に沿った主張。

序章

 ソーシャルデータ革命とかかわりのない個人は一人もいない。そしてソーシャルデータから恩恵を享受したければ、自分に関する情報も共有しなければならない。これは断言できる。データを社会化することによるメリットは、たいてい意思決定能力の向上というかたちで表れる。何らかの交渉をするとき、製品やサービスを購入するとき、融資を受けるとき、仕事を探すとき、教育や医療を受けるとき、そしてコミュニティを良くするために、より良い判断ができるようになる。
 あなたが支払う対価やデータを共有するために引き受けるリスクは、そこから得られるメリットと少なくとも釣り合うものでなければならない。データ企業が何を調べ、何をしているのかについて透明性を確保することはきわめて重要だ。データ製品とサービスについてわれわれ自身がある程度の管理能力を持つこともそうだ。そうしなければ、享受するものと差し出すもののバランスを判断することなどできない。

本書から学んでいただきたいメッセージ

 第三に、データ企業のアウトプットの多く(商品の推奨からタクシー需要が高まる時間帯の予測まで)は、個人の生データを精製することで初めて可能になる。あなた自身のデータが、あなたが受け取る結果を左右することはないかもしれないが、データ企業が製品やサービスのすべてのユーザーにデータを提供してほしいと依頼するのは理にかなったことである。
 私はこうした理由から、自らの提供する生データの見返りとして金銭的報酬を要求することは支持しない。それよりも自分のデータをいつ、どのように、どんな理由で共有するか、それをどのような用途に使うことを認めるのか、その結果として何を受け取るのかといった点について、影響力のある効果的な手段を要求すべきだと考える。
 成功しているデータ会社は、ユーザーが提供する個人データが、ユーザーに提供される精製データの質の向上にどのように役立てられているかを明確にしている。今日の社会は、企業の生データの使い方にどのような規制を設けるべきかという問題に拘泥し、透明性と主体性を醸成するために企業はどのようなツールを提供すべきかという問題の議論にまるで時間をかけていない。
 データ企業は、あなたを単なる数字に落とし込み、それを売買しているだけではない。少なくとも、すべての企業がそうではない。本書から学んでいただきたいメッセージを一つだけ挙げるとすれば、ソーシャルデータはあなたがより良い意思決定をするのに役立つものである、ということだ。どこかの大企業がこれまでより優れた広告キャンペーンをするためだけにあるのではない。あなたはあなたが作成するデータの総和であると同時に、あなたが下す意思決定の総和でもある、と私は思う。だからこそデータはあなたにとって価値があるのだ。

データの解釈は双方向のプロセスだ。

 わかりやすい例を挙げよう。航空会社がビジネスクラスを利用してくれそうな乗客に的を絞ったスマホ広告を展開することにした。そこでデータ・サイエンティストのチームに、ニューヨークのJFK空港を頻繁に利用するスマホ・オーナーを見つけるよう依頼した。
 問題は空港を最も頻繁に利用するのは、ビジネス旅行客ではないことだ。空港と航空会社の従業員である。データ・サイエンティストはスマホの移動パターンを観察し、この事実がデータにも表れていることを確認した。頻繁に空港を訪れる人々の一群(空港のチェックインカウンターの係員、整備士、荷物係)は、毎日明らかにシフトのスケジュールどおりにやってきては、帰っていった。ニューヨークシティに住んでいる航空機の乗務員を識別するのはもう少し難しかったが、空港のWiFiを通じてアクセスするサイトやアプリの種類によって判定できそうだった。彼らのうちホテルを探したり、ウーバーで車を手配する者はほとんどいない一方、空港出口に向かいながら婚活アプリにログインする者が多かったのだ。

進んで人生を「公開」する時代

 われわれは大勢と炉を囲み、プライバシーなどほとんどなく、それを期待もしていなかったあけっぴろげな時代から、プライバシーを「権利」として掲げ、居室の壁によって個人的プライバシーを、投票ブースによって政治的プライバシーを守るまでに進歩した。そして今、インターネットが社会生活を生きるうえで欠かせないツールとなるなか、われわれは無料かつ迅速に家族、親友、見知らぬ他人と交流できる見返りに、進んで人生を「公開」するようになった。プライバシーという概念を構築し、それを解体するというプロセスが、すべてほんの二世紀ほどのあいだに起きた。(略)
 過去100年にわたり、われわれはプライバシーを大切にしてきたが、そろそろそれが幻想にすぎないことを認めるべきだ。(略)
ブランダイス判事はたしかにすばらしい概念を生みだしたが、それはデータ量が限られ、コミュニティが孤立し、コミュニケーションにコストがかかる時代の産物であった。当時は誰かがあなたの意に沿わない写真を公表するのを止めるのも簡単だった。
 だがいまや時代は変わった。匿名性は民主主義の前提条件などではない。プライバシーの幻想に浸り、過去のルールが未来もわれわれを守ってくれると期待するより、今日の状況と未来の可能性を見すえた新たなルールを作るほうがいい。データを個人のために役立てるには、透明性と主体性が必要だ。
 何が公開情報で、何がプライベートな情報かといった線引きをしたり、データを囲い込む(あるいは遮断する)ための壁を作ったりするのに多大な労力を費やすより、われわれが自分らしくあるには何が必要か、という点に目を向けよう。そうすることでデータ会社を最大限に生かすとともに、データを共有することの潜在的なメリットとデメリットのバランスを考えられるようになる。

匿名データの匿名性を検証

フェイスブックが登場するはるか以前から、データから個人を特定することは可能だった。1990年代半ば、コンピュータ・サイエンティストのラターニャ・スウィーニーが「匿名」とされる医療データベースの情報に、実際にどれだけの匿名性があるか調べてみた。
 マサチューセッツ州は州職員の通院に関するデータを研究機関と共有することは、公益にかなっていると判断した。もちろん州の担当者はバカではなかった。個人名がわかるデータを共有するのは不適切だとわかっていたので、名前、住所、社会保障番号などの識別子はすべて削除した。ただ医療政策の改善に役立つようにと、それに関連するデータはいくつか残しておいた。性別、誕生日、郵便番号だ。スウィーニーはこの三つのデータを、20ドルの利用料を支払えば誰でも閲覧できる別の公開データベースと照らし合わせることで、州知事の医療情報を特定することができた。(略)
 スウィーニーの推測では、性別、誕生日、郵便番号がわかれば、アメリカ国民の87%[のちに63%に訂正]を特定できる。
(略)
[ネットフリックスの匿名レビューから個人を特定する]
ネットフリックスが、ユーザーが特定の映画をどう評価するか予測する精度を高めるため、予測モデルのコンテストを開くと発表(略)[参加する研究者に顧客48万人による]「一億件の映画評価とそれを書いた日付」を提供した。データセットに顧客の名前は含まれていなかった。
 ただテキサス大学オースティン校の二人の研究者、アービンド・ナラヤンとヴィタリー・シュマティコフは(略)IMDbドットコムに投稿されたレビューと比較することで、ネットフリックスの匿名データセットに含まれていた個人を特定することに成功した。(略)
彼らが[ネットフリックスで]「こっそり」観ていた映画のタイトルは、その嗜好をかなり色濃く反映していた。少なくとも「ドー対ネットフリックス」裁判の原告はそう主張している。(略)
五万人の研究者に、自分がレズビアンであることが暴露されてしまったという不安を抱いた
(略)
 映画レンタルの履歴が世間に公表されてもかまわないと思う人でも、自分の検索履歴がすべて公開されたら非常に困るのではないか。

フェイスブック以前は偽名が当たり前だった

ソーシャルデータ・プラットフォームにおいて実名が広く使われるようになったのは、フェイスブックの登場以降である。それまでは偽名が当たり前だった。そこには現実的な理由もあった。名前以外に個人を識別する情報がなかったため、ユーザーネームを実名に限定すると、よくある名前のユーザー同士を識別することができなくなってしまうというケースが生じたのだ。
(略)
複数の偽名を使い分けるというプロセスを通じて、われわれは他者との新たなかかわり方を見いだしていった。
(略)
[パスワードを入力したり、ペットの名前を答えたりしてきたが]
 われわれが残すデジタル痕跡の多くは(略)[端末]操作のかなりの部分に、個人を識別できるだけの特徴がある。(略)多くのデータ会社は行動パターンをもとに、複数のデバイスを併用している個人を特定する方法の研究に相当な資金をつぎ込んでいる。
(略)
 バイオキャッチはユーザーが何を検索しているかではなく、どのように検索しているかに注目する。タッチスクリーンを強く叩くか、穏やかに触れるか。スマホを握っているときに手はどれくらい震えているか。スクロールアップあるいはスクロールダウンするときに、面面のどこに触れるか。マウスを動かす速度はどうか。リンクを開くときに新たなタブを開くか、それとも既存のタブで開くのを好むか。バイオキャッチの顧客には、利用者の本人確認をする新たな方法を模索する金融機関などが含まれている。
 リアルタイムのデータ分析が本人確認に役立つ場面は他にもある。身元情報が信頼できない、あるいは簡単に手に入らない場合などだ。
(略)
暗黙の痕跡を使った機械学習システムを欺くのは、明示的属性を偽るよりはるかに難しい。

なぜアマゾンはレビュアーに実名を強制しなかったか

 私がアマゾンにいた当時、偽名で投稿されたカスタマーレビューと実名によるものでは、どちらが他のユーザーにとって価値があるか調べたことがある。アマゾン・アカウントにログインして、何らかの偽名を名乗らせることで、「無益な」レビューが書かれる倍率が抑えられることはわかっていた。また顧客は匿名ではないレビューを重視する傾向があることも明らかだった。そしてアマゾンでは顧客が表示される名前を変更するたびに、過去のレビューの署名もすべてアップデートして最新の名前に統一することで、これまでの全てのレビュー履歴がそっくり残るようにしていた。顧客の身元とレビュー履歴には一貫性を確保する一方、公開される偽名には一貫性を求めなかったのだ。
 アマゾンはレビュアーに実名の使用を強制することもできた。すべての顧客には実名があり、それはアカウントのクレジットカード情報でも確認できた。しかしふたを開けてみると、ユーザーが最も重視するのは、レビュアーがレビュー対象の商品を実際に買ったか否かをアマゾンが示すことだとわかった。ユーザーはたしかに裏付けのある意見を信頼した。ただこの場合の裏付けとは、レビュアーの名前ではなく、商品を実際に購入したというデータであった。こうした発見に基づいて、アマゾンはカスタマーレビューの星の数の「平均」を算出する方法を見直し、商品の購入が確認されたレビューへの重みづけを増やした

クリックの背後にあるユーザーの意図を解釈するのは難しい

私はマッチドットコムで仕事をしていたとき、大勢の黒人女性をブロックしているユーザーを見つけた。単純に考えれば、この男性は人種主義者だという結論になりそうだが、そうではない。男性のフィルターセッティングや過去のクリックを調べると、まさにその逆であることがわかった。この男性は黒人女性にしか興味がなかった。しかも「メリハリボディ」だと申告している女性に関心があった。男性は時間と労力を無駄にしないため、すでに連絡を取ったがうまくいかなかった女性をブロックしていただけなのだ。データ探偵にとって、この手の問題に取り組むのは本当に楽しい。データを理解するには、優れた仮説を考えしっかり検証することが欠かせない。
 データをもとに仮説を立てる際には、どうすればユーザーの視点に立てるかを考えなければならない。どんなストーリーを語るときもそうだが、状況が重要だ。われわれのニーズは曜日や時間帯によって変化する。私がシンガポールの婚活サイト、フライデーと仕事をしていたとき、金曜日の午後二時にユーザーが閲覧するプロフィールと、日曜日の午前二時に検索するプロフィールは異なることに気づいた。フライデーのデータ分析チームは、その情報をユーザーに表示するプロフィールのランキング方法にどう反映するかを検討した。
(略)
[スマホ婚活サイト]のデータ・サイエンティストであるセバスチャン・ボーアは、不適切なメッセージを排除するためのアルゴリズムを開発した。
 このシステムは内輪で「鼻つまみ者探知器」と呼ばれていた。何をもって不適切とするかは(略)たとえば大勢のユーザーからブロックされたら、その人物は「鼻つまみ者」ということになる。少なくとも統計的には。また特定のユーザーに繰り返し、一方的にメッセージを送り付ける人は、相手からすれば「鼻つまみ者」かもしれない。
(略)
鼻つまみ者にメッセージの送信を止めさせるには、管理者から忠告メッセージを送るのと、他のユーザーから一切返信が来なくなるというフィードバックのどちらが効果的だろうか。プロフィール情報をあれこれ変更する(略)場合、他のユーザーからペテン師と見なされるか否かの一線はどこにあるのか。
 ユーザーの行動について透明性を高めることで、その人物が本当にプロフィールどおりの理想のソウルメイトの特徴を備えているか、他のユーザーが判断できるようになる。

架空の人間を作るには

ヘッドハンターはリンクトインレベッカデイビスのプロフィールを見つけた。そこに書かれた情報によるとレベッカは若いがやり手のマーケティング専門家で、同僚からの評価も高い。シリコンバレーの名門企業でインターンをしていたこともあるようだ。
 とはいえ、これはいささか困った事態だった。というのもレベッカは実在しないからだ。ネット上で偽の人格を創り、維持するのがどれくらい難しいか確かめてみようと考えた私の友人が生み出した架空の人物なのだ。
 レベッカは複数のソーシャルメディア・プラットフォーム上に存在する。まず活動を開始したのはフェイスブックだ。そこで現実世界で一切つながりのない相手に友達申請を承認してもらうという困難な仕事に挑んだ。(略)
[売出し中の芸能人や]同級生よりたくさんのバーチャルフレンドを集めたいという10代の若者にアプローチするというのも手だが、誰彼かまわず友達にするタイプしか友達がいないというプロフィールは、アルゴリズムに簡単にフラグを立てられてしまう。そこでレベッカはターゲットを特定の集団に絞った。
 こんにちは、レベッカです。私は自分の名前が好き。自分らしさって、名前で決まるところが大きいから。あなたもそう思いませんか?フェイスブックにいるレベッカという人全員とお友達になれたらいいな。
 レベッカ以外にも、フェイスブックで見つかるかぎりのレベッカー、ベッキー、ベッカー、レバに友達申請を送った。(略)
 驚くことに、レベッカはすぐに相当なソーシャル・ネットワークを持つようになった。ほかのレベッカのみならず、その友人もネットワークに加わった。まもなく誕生日のお祝いメッセージも来るようになったので、フェイスブックの友達同士がそうするように、レベッカも誰かのライフイベントの通知が来るたびにお祝いメッセージを送るようになった。さらに状況のアップデートや食べ物の写真もときどき投稿し、恋愛や仕事についての一般的なアドバイスを求めるようになった。このアカウントがふつうの人間と同じようにふるまったので、フェイスブックアルゴリズムも友達も、レベッカが実在の人物ではないことに気づかなかった。
(略)
 しばらくすると、リンクトインにもプロフィールを持つべき頃合いになった。誕生日やさまざまな投稿から判断すると、大学を卒業し、仕事を探しているようだった。すでにメールのアカウントやフェイスブックのプロフィールも持っていたので、他のソーシャル・ネットワークに実在の人物であると証明するのに役立った。レベッカの創造主は、インターンシップと初級レベルの仕事の経験と初めての昇進を一気にレベッカに与えた。
(略)
 ただ仕事用のネットワーキングを目的とするウェブサイトで信頼性のある経歴をでっちあげるのは、フェイスブックで偽りのプロフィールを作るよりはるかに難しかった。特にリンクトインは、同じ会社で同じ時期に勤務していた人物を「もしかして知り合い?」と聞いてくるから厄介だ。
 それでもレベッカが勤務していたと主張した会社で働いていた10人以上のユーザーが、レベッカをコンタクトに追加した。数件のスキル推薦まで受けた。他のユーザーは実在する別のレベッカと勘違いしたのだろうか、それともとにかく自分のネットワークを広げたいために、レベッカのつながりリクエストをよく見ずに承認したのだろうか。いずれにせよレベッカの架空の経歴と人脈は、複数のヘッドハンターの目に留まるまでになった。

リーマン破綻を察知したリンクトイン

リンクトインは四億人のユーザーが共有したデータに基づき、特定の企業や業界の健康度を判定している。印象的な事例をあげると、二〇〇八年九月一四日の日曜日に、リンクトインのデータ・サイエンティストはサイトでのアクティビティが急増していることに気づいた。週末にはきわめてめずらしいパターンだったので、サイトがハッキングされた懸念が高まり、調査チームが招集された。調査の結果、急増したトラフィックの出どころが明らかになった。リーマン・ブラザーズの従業員である。彼らが慌ただしく知人に連絡を取る、履歴書を書き直す、コンタクトリストをダウンロードするといった行動に出たことで、サイトヘのリクエストが急増したのだ。リンクトインの調査チームは、リーマン・ブラザーズの破綻回避の試みが失敗したことを悟った。まだこのニュースが公式に発表される前のことだ。
 従業員が自分のコンタクトリストを一斉にダウンロードするというのは、まずい兆候である。従業員の大量退社も同じだ。ある会社がライバルに次々に人材を引き抜かれているという事実は、その会社の未来がライバルほど明るくないことを示唆しているのかもしれない。こうした情報はいまのところ法人ユーザーにしか公開されていない。個人ユーザーにはすでに「ユニバーシティ・ページ」を通じて、特定の大学出身者が多く集まる企業を開示している。これをあと一歩進めて、特定の企業出身者が多く集まる企業を表示することもできるはずだ。