みんな嘘つき - 検索データの新科学
2017/09/18 初出
2018/02/09 日本語版発売につき更新
「誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性」
→2017年のベストにも挙げた本なのでご一読を。
人に言えない秘密でも、グーグルになら言えるはず。
本書"Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are"は、元グーグルのデータサイエンティストであるSeth Stephens-Davidowitz(以下ダヴィドウィッツ)による初の著書である。
タイトルを訳すと「みんな嘘つき:ビッグデータ、新しいデータ、そしてインターネットが教える本当の私たち」。
ダヴィドウィッツの語り口は洒脱で軽妙だ。データサイエンスがテーマである本書の「あとがき」を"How many people finish books?"(何人が本を最後まで読むのか?)と題していて笑った。でも、グーグルトレンドなどオンライン上のデータを用いて彼が分析する対象は重いテーマが多い。性的嗜好、人種差別、人工中絶、うつ病など。なぜなら、こうした領域の調査ではみんな嘘をついているからだ。
目次
人が調査に嘘をつくとき
米国の統合的世論調査(General Social Survey)によると、ヘテロの女性は平均で年55回のセックスを行い、その16パーセントでコンドームを使う。これを基にコンドームの年間使用数を試算すると約11億になる。
でも、同じ試算を男性の回答結果に対しても適用すると、コンドームの数はそれより多く約16億になる。数が合わない。男と女、どちらが嘘をついているのだろう。
答えはどちらも。調査会社ニールセンの別の市場調査によると、年間で売られたコンドームは約6億しかない。男も女も、程度の差があるだけで、実際よりもずっと多く使用数を申告している。
これは意識的な嘘というよりも、社会的に望ましい状態を答えてしまうバイアス(Social Desirability Bias)がもたらす無意識の嘘だ。たとえ匿名であっても、人は調査に対して、または自分自身に対して嘘をつく。
検索ウインドウは教会の懺悔室
一方で、オンライン上なら人は何でも「誠実に」検索する。ちなみにダビドウィッツは本書を"How big is my penis?"(自分のペニスはどれぐらい大きい?)と名付けようとして編集者から却下されたらしい。これはグーグルで男性が行うポピュラーな検索文のひとつ。
ここに、グーグルの検索データなどオンラインデータが重要な理由がある。それは、検索をするときに人は正直になるからだ。誰にも打ち明けられない悩みや嗜好も、人は検索ウインドウに打ち込む。まるで教会の懺悔室での告白のように。データも(ペニスも)大事なのはサイズではない。質だ。量ばかりが問題とされる「ビッグデータ」という言葉を見直して、データ科学を神話解体(demystify)したいとダヴィドウィッツは語る。
検索データからわかることは性だけでない。たとえば"my mom /dad hit me"(ママが/パパがわたしを殴る)といった検索データを他の統計データと組み合わせて、潜在的な児童虐待を発見する。従来の統計では見過ごされてしまう声なき声(というか声なき検索履歴)を拾えるのだ。
さらには差別の問題。ダヴィドウィッツは、ネット上の人種差別的なコンテンツと検索を、矛盾したような言い回しで"hidden explicit racism"(隠された、露骨な人種差別)と呼ぶ。
日本でもそうだが、ネット上では人種差別が誰の目にも明らかなほど露骨に広がっている。でも、ほとんどの人はオフラインでそれを認めようとしない。こんな社会の状態は過去にない。それが例えば投票にどんな影響を与えるかについて、まだサンプルが少なすぎる。
失業者が求職サイトより検索するもの
本書で紹介される例には単純に雑学として楽しめるデータも多い。たとえば、失業率の増加と相関性がより高い検索ワードは、new jobといった職に関する言葉よりも、slutload(ポルノサイト)やspider solitaire(ゲームのソリテア)らしい。失業が増えると時間を持て余す人が増えるからそれらの検索も増えるという仮説。
他にも、女性の尻に関する検索トレンドの変遷なんかも面白かった↓
元グーグルデータサイエンティストが著者の"Everybody Lies"という本をいま読んでいるけど、2010年代から米国では「豊胸」ならぬ「豊尻」の検索が全州で急増中らしい。小尻に憧れる検索が多かったそれ以前からの変化。
— 未翻訳ブックレビュー (@kaseinoji) 2017年9月9日
「サンキュー、キム・カーダシアン!」と著者w pic.twitter.com/8YULymVtpu
社会科学は本当の科学になるか
でも、本書は単なる断片的なデータの寄せ集めではない。ネットの誕生以前には入手できなかったデータを収集して計測できることの可能性をダヴィドウィッツは主張する。
These experiments demonstrate the potential of Big Data to replace guesses, conventional wisdom, and shoddy correlations with what actually works—causally.
こうした実験はビッグデータの可能性を示す。憶測や社会通念、いいかげんな相関関係を、実効性のある「因果関係」に置き換える可能性だ。
顕微鏡や天体望遠鏡が誕生する以前と以後では自然科学のあり方は大きく異なる。検索データをはじめとするオンライン行動データは、社会科学にとっての顕微鏡だ。厳密な実験や証明が要求される自然科学に比べて、従来の社会科学は「ソフト・サイエンス」でしかなかった。オンラインデータの蓄積と活用により(ようやく)社会科学はリアル・サイエンスになりつつある。怪しい民間療法が近代医学に置き換えられて痛みに苦しむ人が減ったように、正しいデータ(ビッグデータ、とイコールではない)を活用することで、たとえば性や人種に関する憶測や俗説が誤りだと証明されて、救われる人がいるかもしれない。
Seth Stephens-Davidowitz著"Everybody Lies"は2017年5月に発売された一冊。スティーブン・ピンカーが序文を寄せていて、カーネマン「ファスト&スロー」を引き合いにしつつ、「心について学ぶ全く新しいやり方を示す本」と賞賛。ダヴィドウィッツは、次のキンゼイ*1も、次のフーコーも、次のフロイトも、次のマルクスも、みんなデータサイエンティストだろう、とまで言う。日本語版の発売予定は不明。 日本語版は2018年2月に発売。
Everybody Lies: The New York Times Bestseller
- 作者: Seth Stephens-Davidowitz
- 出版社/メーカー: Bloomsbury Publishing
- 発売日: 2017/05/29
- メディア: Kindle版
- この商品を含むブログを見る
誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性
- 作者: セス・スティーヴンズ=ダヴィドウィッツ,酒井泰介
- 出版社/メーカー: 光文社
- 発売日: 2018/02/15
- メディア: 単行本
- この商品を含むブログを見る
- 作者: スティーヴン・D・レヴィット/スティーヴン・J・ダブナー,望月衛
- 出版社/メーカー: 東洋経済新報社
- 発売日: 2007/04/27
- メディア: 単行本
- 購入: 34人 クリック: 437回
- この商品を含むブログ (246件) を見る
*ダヴィドウィッツはFreakonomics(ヤバい経済学)から大きな影響を受けたそうな
*1:米国の性科学者、動物学者。1940-50年代に「キンゼイ報告」と呼ばれる性についての報告を発表。