読者です 読者をやめる 読者になる 読者になる

未翻訳ブックレビュー

Lost In Bookish Rambles. 日本語版発売を待たずに本を紹介するページです

データが正義を殺すとき。'数学'破壊兵器とは - Weapons of Math Destruction by Cathy O'Neil

BUSINESS & SOCIETY SCIENCE & TECHNOLOGY

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

 

コンピュータは人を差別するだろうか?

 

データサイエンティストのキャシー・オニールによる本書"Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy"('数学'破壊兵器:ビッグデータはいかに不平等を助長し民主主義を脅かすか)は、人間による判断に頼らない客観的で効率的な分析を目指したはずのデータ活用に潜む罠を提起する。

 

彼女は根っからの数学オタでウォール街の金融機関でクオンツとしてはたらいていたが、リーマンショックとその後始末を経験して、数学モデルがなぜ不正義に加担してしまうかを考え始めた。

 

目次

人間に頼らない司法判断

米国自由人権協会の調査によれば、刑事裁判において黒人に言い渡される刑期は、類似の罪を犯した白人に比べて20パーセントも長かった。

 

偏見に左右されない一貫したジャッジをすべく、累犯モデル(recidivism models)といった評価システムが90年代から多くの州で導入された。被告へのヒアリング結果などを基に再犯罪のリスクを計算してスコア化し、判事はスコアを参考にして判決を下す。

 

でも、ヒアリング項目には、本来は判決と切り離すべき個人の生い立ちや交友関係に関連する質問が含まれていて、それがスコアに反映される。

 

結局、設計者が何のデータを分析対象に含めるかによって、公平なはずの分析モデルにバイアスがビルトインされてしまう。欠陥のあるデータ分析は、テクノロジーでバイアスをカモフラージュして、偏見をブラックボックスに押し込む。

 

そして、こうした分析モデルは悪循環をもたらす。スコア評価の結果で「ハイリスク」とジャッジされた人間にはより長い判決が言い渡されて、それは出所後の再就職を難しくする。もしその人間が再犯をおかせば、このモデルの「正しさ」が証明される。さらに、別の「犯罪予測」システムは、限られた警官のリソースをより犯罪の多い地域へと重点的に配置する。その地域で育った人間は警察とかかわる機会が増えて、より「ハイリスク」な人間と評価される。

 

WMDはチューニングされない

オニールは、こうした不公正なデータモデルをWeapons MATH Destruction(WMD)と呼ぶ。MassとMathをかけた、大量破壊兵器ならぬ'数学'破壊兵器だ。ロジックの「不透明性」、影響範囲の「スケール」、社会生活への「ダメージ」という3点がWMDの要素である。

 

本書は豊富な例でWMDのループを検証する。特定の地域に多くの警察が配備され、その出自のデータは逮捕者に長い刑期を与え、刑期のデータが彼らをハイリスクな人間として求職活動からブロックし、職歴のデータが信用スコアを下げて保険への加入や住宅ローンの利用を拒む。そして彼らが見るオンライン広告には、サブプライムローンに似た金融商品が表示される。いったん不公正な扱いを受けると、アルゴリズムが自動で流れるようにどんどん社会からロックアウトされてしまう。そしてモデル自体が自らの正しさを補強する新しい現実を生み出して自己強化される。

 

とはいえ、機械学習などを含めて、データモデルやアルゴリズムというのは試行錯誤で改善されるものだ。はじめは欠陥のあるモデルも、より多くのデータを与えてチューニングを繰り返すうちにベターなものになるんじゃないのか?

 

オニールは、WMDにはこれが当てはまらないと述べる。比較として「マネーボール」などでも知られるようになったスポーツ選手の成績に関する統計分析を挙げる。たとえば、あるチームが独自の統計分析により将来活躍すると見込んだ選手が伸び悩み、別の選手がルーキー・オブ・ザ・イヤーを獲得したとする。そのチームはきっと自分たちの分析モデルを見直すだろう。スポーツ選手はひとりが大金を生み出すからだ。

 

一方で、たとえば低賃金労働者の大量雇用では、ベストな人材を見つけることでなく、できるだけ効率的にできるだけ多くの人間を排除する目的でアプリケーションが使われる。本書によれば、履歴書の約70パーセントはそもそも人の目に触れない。自動化プログラムがスキルや経歴を抽出してフィルタリングする。

 

たとえデータの収集方法が不公正があっても、多くのWMDは改善されないまま放置される。本書では、生徒に人気がありながら「低パフォーマンス」という理由で解雇された教師や、成績優秀でありながら企業の面接に弾かれ続けた学生が登場する。彼らがブロックされた理由は開示されず、モデル自体に誤りがあるかはほとんど顧みられない。効率的な処理を可能にするシステムを維持するため、マイノリティ・リポート(少数報告)は無視される・・

*映画と違って、AIの未来予測に従って逮捕されることは今のところまだ無い

 

フェアネスの価値はどれぐらい

個人的な感想だけど、本書はローレンス・レッシグの「CODE」といった本の系譜にある。

 

ざっくりサマると、2000年に最初のバージョンが発表された同書の主張はこうだ。「インターネットは自由で公平な空間だ」という考えはおかしい。なぜならインターネットはアーキテクチャの設計次第でいくらでも不自由で不平等になり得る。だから、もし自由や平等といった憲法的な価値を守りたいなら、公的機関が積極的にアーキテクチャの設計ルールに介入すべきだ。逆説的だけど、自由を守るためにこそ規制を許容すべきである。

 

オニールは本書で「ビッグデータによる分析は客観的で公平」という考えはおかしいと主張する。なぜならデータ分析にはモデルの設計次第でいくらでもバイアスが入り込む。だから、もし正義やフェアネスといった価値を守りたいなら、分析の効率や精度を犠牲にしなければいけないかもしれない。

 

言いかえると、「データをどう使うか」ではなく「我々は正義やフェアネスといった価値をどれぐらい大事にしたいのか」をオニールは問いかけている。本書では、採用活動の効率化に役立つとわかっていながら、求職者の住所や出身地といったデータを分析対象から外すことをあえて選択した企業の例も紹介される。

 

けれども、WMDの'軍縮'への道は険しそうだ。AIなどの技術が発展するほど、データ分析モデルはよりブラックボックス化して、人間はその結果を盲目的に信じるしかなくなると予想されるからだ。本書の存在は、「サピエンス全史」のユヴァル・ノア・ハラリが英ガーディアン誌で2016年のベスト本に挙げていて知った。でも、実はそのハラリは、最新作'Homo Deus'で「人間は将来的に民主主義や人間中心主義からデータ主義(Dataism)に移る、しかもそっちの方が人間は幸せになる」という挑発的な見立てをしていたりする↓

 

オニールが提唱するデータ分析への懐疑的な姿勢は、メディア・リテラシーと同じようなものだろう。基本的にメディアのニュースというのは事実を扱う(最近はフェイク・ニュースというのもあるが・・)。けれど、メディアが中立的で何の意図も持っていないと考える人はもうあまりいないはずだ。どの情報を扱うか、何を強調して何は触れないか、そこに各メディアの意図が入る。で、受け手側もそれをバイアスとして割り引く。朝日だからこう言っている、産経だからそう言っている、といった具合に。

 

ビッグデータ分析も同じで、扱うデータは事実でも、そこには分析モデルがあり、モデルにはなんらかの意図や目的がある。本書によれば、モデルとは「数学に埋め込まれた意見」なのだ("Models are opinions embedded in mathematics.")

 

キャシー・オニール著"Weapons of Math Destruction"は2016年9月に発売された一冊。日本語版の発売予定は不明。彼女はGoogle Talksで講演したりもしている。

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

 

 

教科書にないブラック英単語講座:clopener

最後におまけ。本書を読んで"clopener"という言葉を知った。お店が閉まるまで夜勤して、数時間後にまた店を開けるために出勤する人を、closeとopenを足してこう呼ぶらしい。どこの国にもブラック企業はある。

 

ちなみに本書では、Mira Bernsteinというハーバード大の数学者が考案した「企業のサプライチェーンのデータを取り込んで奴隷的な労働がないかを検出する数学モデル」も紹介されている。