一般向け機械学習本の決定版 - The Master Algorithm by Pedro Domingos

このブログで何回も名前を出しているユヴァル・ノア・ハラリ「ホモ・デウス」は、人間の全ての活動はアルゴリズムにいずれ置き換え可能だろうと説く本だった。

ハラリはさらにそれを歴史の文脈に位置付ける。神が中心の時代から、神を解体して生まれた人間中心主義の時代があり（←いまココ）、人間を解体する「データ主義」の時代がやがて来るだろうと。簡単に表にすると以下の通り。

神中心	人間は神の創造の産物に過ぎない
人間主義 Humanism	神は人間の想像の産物に過ぎない
データ主義 Dataism	人間の想像もアルゴリズムの産物に過ぎない

ハラリの見立ては挑発的でめちゃくちゃ面白いのだけど、ひとつ腑に落ちない点もあった。じゃあ人間を置きかえるアルゴリズムって具体的に何？というのが全く不明なのだ。アルゴリズム＝「物事を処理する手順、方法」と定義してしまえば、そりゃ全宇宙の営みがアルゴリズムの産物だろう。

そこで読んだのが本書、

The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World（マスター・アルゴリズム：究極の学習マシーンはいかに世界を再構築するか）

である。

ワシントン大の教授で機械学習の専門家である著者のペドロ・ドミンゴスが本書で探求するのは、どんな目的にでも適用できる究極のアルゴリズムだ。それが存在するなら「過去、現在、未来についてのあらゆる知識を、データから導き出す」ことができる、というのが本書の中心仮説である。

目次

機械学習とそれ以前との違いとは

5つのトライブ

結局、マスター・アルゴリズムとは

まとめ

機械学習とそれ以前との違いとは

どんなときにでも適用できるマスター・アルゴリズム、それは機械学習なしでは有り得ない。なぜなら機械学習とは「どんなアルゴリズムを作るかを決めるアルゴリズム」だからだ。

AIや人工知能といった言葉はニュースなどでも雑に使われるけれど、そもそも、機械学習以前の（狭い意味での）「コンピュータプログラム」と機械学習との違いは何だろう。

すべてのアルゴリズムには入力と出力がある。アルゴリズムとは入力から出力を生み出す手順であり方法だ。機械学習以前の方法では、人間が作ったプログラムに従ってコンピュータが入力を出力に変える。だから、

入力＝データ
出力＝結果

である。

でも、機械学習では入力と出力がそもそも違う。

入力＝データと望む結果
出力＝望む結果を得るためのアルゴリズム

なのだ。

つまり、人間でなく機械が、あるアルゴリズムから別のアルゴリズムを作る。だから、機械学習は「何を自動化するかを自動化」する。ドミンゴスは次のように語る。

"The Industrial Revolution automated manual work and the Information Revolution did the same for mental work, but machine learning automates automation itself."

「産業革命は肉体労働を自動化し、情報革命は頭脳労働を自動化した。機械学習は、自動化それ自体を自動化する。」

では、マスター・アルゴリズムの候補になり得る機械学習には具体的にどんな種類があるのだろう。

5つのトライブ

本書では機械学習を5つのトライブ＝部族に分類する。Symbolist、Connectionist、Evolutionist、Bayesian、Analogizerの5つであり、ドミンゴスが定義する各分類の中心的なアルゴリズムとともに紹介される。

1つめのSymbolist（記号主義者？）が行うのは記号と論理の操作だ。いわゆるif-then文の集合のイメージ。機械学習における中心的なアルゴリズムは逆推論（Inverse Deduction)だとする。

2つめのConnectionist（関係主義者？）は、人間の脳の神経回路をモデル化する。神経回路の結びつきの強さを変えるように、ある要素と別の要素の結びつきの強弱を重み付けによって調整する。中心的なアルゴリズムは逆伝搬（Backprobagation）と呼ばれるもの。

3つめのEvolutionist（進化主義者）は、脳の働きではなく、生物の進化をモデル化する。生物種が自然淘汰で生き残るように、たとえばカーナビの複数ルートを比べていってトーナメントで最後に生き残ったルートを提示する。中心的なアルゴリズムは遺伝的プログラミング（Genetic Programming）である。

4つめはBayesian（ベイジアン）。ノイズを含む膨大なデータや不確定な情報を扱うことに適していて、確率的推論/ベイズ推定を中心的なアルゴリズムとする。

最後の5つめ、Analogizer（類推主義者？）が重視するのは類似性からの推定だ。いわゆる「これが好きならこれも好きかも」のオススメをするときなどに使われ、中心的なアルゴリズムはサポートベクターマシーン（SVM）と呼ばれるパターン認識だ。

結局、マスター・アルゴリズムとは

で、上に挙げたどれが「マスター・アルゴリズム」に結局なり得るのか。なんとなく予想がつくかもしれないが、答えはどれかひとつではなくその組合せになるだろうというのが本書の結論である。

ドミンゴスに言わせると、人工知能をめぐる現在の議論は上の5つの部族のどれかに属する別々の仕組みを別々の言葉で別々のコミュニティが語っている状況にある。パターン認識、統計モデリング、データマイニング、自己組織システムなどなど・・

こうした、異なるアルゴリズムを志向するコミュニティが同じ「AI」という言葉を使っている状況は、さながら「群盲象を評す」状態だという。

群盲象を評す - Wikipedia

それでは、5つの部族の盲人の知恵を集めてできあがるアルゴリズムとは何か。本書は「マスター・アルゴリズムに今のところ一番近いもの」を最後に示す。それはRepresentation（表現）、Evaluation（評価）、Optimizer（最適化/チューンナップ）という3層に分けて、以下の通り定義される。

Representation

マルコフ理論ネットワーク/Markov Logic Network

Evaluation

事後確率/Posterior Probability

Optimizer

遺伝的検索/Genetic Search

確率的勾配効果法/Gradient Descent

これを簡単に言うとだね。

と説明したいところなのだけど、管理人には正直理解できなかった。上に挙げた単語をひとつずつググっている段階である。本書の日本語版が出たら再チャレンジしてみたい・・

まとめ

さて、マスター・アルゴリズムはまだ見つかっていない。それが生まれるのは10年後かもしれないし100年後かもしれないし見つからないかもしれない。本書によれば機械学習はまだ錬金術のステージにいる科学である。

でも、ビジネスから日常生活まで我々は既に多くの機械学習に囲まれている。ドミンゴスは言う。車が走る仕組みを知っているのは少数のエンジニアだけで良い。全てのドライバーはハンドルをどう操作するか、アクセルとブレーキを使うと何が起こるかを知らないといけない。

ペドロ・ドミンゴス著「マスター・アルゴリズム」は2015年9月に発売された一冊。各アルゴリズムを数式ほぼなしでステップバイステップで紹介する本なので、ふわっと語られるAIやディープ・ラーニングといった概念を具体的に理解したい人には最適の本だ。また、各アルゴリズムが生まれた歴史なども詳述するので、大学で一般教養科目として機械学習の授業があったらそのまま教科書になりそう。というか、自分が学生だったら1年くらいかけてじっくり読み込みたい本である。日本語版の発売予定は不明。