データが正義を殺すとき。'数学'破壊兵器とは - Weapons of Math Destruction by Cathy O'Neil

2018/5/9 追記

寄稿連載「植田かもめの『いま世界にいる本たち』」でも本書を取り上げました！

翻訳版「あなたを支配し、社会を破壊する、AI・ビッグデータの罠」が2018/6/13に発売！

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

コンピュータは人を差別するだろうか？

本書"Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy"（'数学'破壊兵器：ビッグデータはいかに不平等を助長し民主主義を脅かすか）は、人間の主観に頼らず客観的で中立的な分析を目指したはずのデータ活用に潜む罠を提起する。

データサイエンティストである著者のキャシー・オニールは根っからの数学オタク。ウォール街の金融機関でクオンツとしてはたらいていたが、リーマンショックとその後始末を経験して、数学モデルがなぜ不正義に加担してしまうかを考え始めた。

目次

人間に頼らない司法判断

WMDはチューニングされない

フェアネスの価値はどれぐらい

教科書にないブラック英単語講座：clopener

人間に頼らない司法判断

米国自由人権協会の調査によれば、刑事裁判において黒人に言い渡される刑期は、類似の罪を犯した白人に比べて20パーセントも長かった。

無意識の偏見に左右されない客観的なジャッジをすべく、累犯モデル（recidivism models）といった評価システムが90年代から多くの州で導入された。被告へのヒアリング結果などを基に再犯罪のリスクを計算してスコア化し、判事はスコアを参考にして判決を下す。

ところが、実はヒアリング項目に本来は判決と切り離すべき個人の生い立ちや交友関係に関連する質問が含まれていた。それがスコアに反映され、結局人種間の刑期の偏りは改善されなかった。

つまり、設計者が何のデータを分析対象に含めるかによって、公平なはずの分析モデルにバイアスが入り込む。欠陥のあるデータ分析は、テクノロジーでバイアスをカモフラージュして、偏見をブラックボックスに押し込む。

WMDはチューニングされない

オニールは、こうした不公正なデータモデルをWeapons of MATH Destruction（WMD）と呼ぶ。MassとMathをかけた、大量破壊兵器ならぬ'数学'破壊兵器だ。ロジックの「不透明性」、影響範囲の「スケール」、社会生活への「ダメージ」という3点がWMDの要素である。

本書は豊富な例でWMDがもたらす悪循環を検証する。たとえば、ひとたび「ハイリスク」と判断された地域には多くの警察が配備され、そこの出身者はより長い刑期を受け、刑期のデータが彼らをハイリスクな人間として求職活動からブロックし、職歴のデータが信用スコアを下げて保険への加入や住宅ローンの利用を阻む。そして彼らが見るオンライン広告には、サブプライムローンに似た金融商品が表示される・・

つまり、いったん不公正な扱いを受けると、アルゴリズムが流れるようにどんどん社会からロックアウトされてしまう。しかも、それは分析モデルの「正しさ」の証明になる。これがWMDの怖い点だ。モデル自体が新しい現実を生み出して、モデルの正しさを自己強化してしまう。

とはいえ、こんな反論はできないだろうか。機械学習を含めて、データモデルやアルゴリズムというのは試行錯誤で改善されるものだ。はじめは欠陥のあるモデルも、より多くのデータを与えてチューニングを繰り返すうちにベターなものになるんじゃないのか？

オニールは、WMDにはこれが当てはまらないと述べる。比較として挙げるのは「マネーボール」などでも知られるようになったスポーツ選手の成績に関する統計分析だ。たとえば、将来活躍すると分析した選手が伸び悩み、別のチームの選手が大獲得したとする。そのチームはきっと、自分たちの分析モデルを見直すだろう。スポーツ選手はひとりが大金を生み出すからだ。

一方で、たとえば低賃金労働者の大量雇用では、ベストな人材を見つけることでなく、できるだけ効率的にできるだけ多くの人間を排除する目的でアプリケーションが使われる。本書によれば、履歴書の約70パーセントはそもそも人の目に触れない。自動化プログラムがスキルや経歴を抽出してフィルタリングする。

結果として、たとえデータの収集方法が不公正であっても、多くのWMDは改善されないまま放置される。本書では、生徒に人気がありながら「低パフォーマンス」という理由で解雇された教師や、成績優秀でありながら企業の面接に弾かれ続けた学生が登場する。彼らがブロックされた理由は開示されず、モデル自体に誤りがあるかはほとんど顧みられない。効率的な処理システムを維持するため、マイノリティ・リポート（少数報告）は無視されるのだ。

フェアネスの価値はどれぐらい

さて、個人的な感想だけど、本書はローレンス・レッシグの「CODE」といった本の系譜にある。

ざっくりサマると、2000年に最初のバージョンが発表された同書の主張はこうだ。「インターネットは自由で公平な空間だ」という考えはおかしい。なぜならインターネットはアーキテクチャの設計次第でいくらでも不自由で不平等になり得る。だから、もし自由や平等といった憲法的な価値を守りたいなら、公的機関が積極的にアーキテクチャの設計ルールに介入すべきだ。逆説的だけど、自由を守るためにこそ規制を許容すべきである。

オニールは本書で、「ビッグデータによる分析は客観的で公平」という考えを疑い、一定の規制の導入を提唱する。なぜなら、データ分析にはモデルの設計次第でいくらでもバイアスが入り込む。だから、もし正義やフェアネスといった価値を守りたいなら、分析の効率や精度を犠牲にしてでも、分析モデルの設計ルールを定めるべき。

言いかえると「データをうまく使うにはどうすればいいか」ではなく「我々は正義やフェアネスといった価値をどれぐらい大事にしたいのか」をオニールは問いかけている。本書では、採用活動の効果と相関関係があるとわかっていながら、求職者の住所や出身地といったデータを分析対象からあえて外すことを選択した企業も紹介される（たとえばある特定地域の出身者の離職率が高いというデータがあっても、その地域出身者の履歴書をはじくことはしない）。

けれど、オニールの希望に反して、WMDの'軍縮'への道は険しそうだ。AIなどの技術が発展するほど、データ分析モデルはよりブラックボックス化して、人間はその結果を盲目的に信じるしかなくなるからである。本書の存在は、「サピエンス全史」のユヴァル・ノア・ハラリが英ガーディアン誌で2016年のベスト本に挙げていて知った。でも、実はそのハラリは「人間は将来的に民主主義や人間中心主義を捨てて、機械に判断を任せるデータ主義（Dataism）に移る。しかもそっちの方が人間は幸せになる」という挑発的な見立てをしていたりする↓

おそらく、オニールが提唱するデータ分析への懐疑的な態度は、メディア・リテラシーと同じような概念として扱えるだろう。

基本的にメディアのニュースというのは事実を扱う。けれど、メディアが中立的で何の意図も持っていないと考える人はあまりいないはずだ。どの情報を扱うか、何を強調して何は触れないか、そこに各メディアの意図が入る。で、受け手側もそれをバイアスとして割り引く。朝日だからこう言っている、産経だからそう言っている、といった具合に。

ビッグデータ分析も同じで、扱うデータは事実でも、そこには分析モデルがあり、モデルにはなんらかの意図や目的がある。本書によれば、モデルとは「数学に埋め込まれた意見」なのだ（"Models are opinions embedded in mathematics."）

キャシー・オニール著"Weapons of Math Destruction"は2016年9月に発売された一冊。彼女はGoogle Talksで講演したりもしている。