人工 知能 は 人間 を 超える か Chapter05(2)
日本 全国 の 天気 は 、47 都道府県 の 天気 の 「平均 」を とった もの である 。
東北 の 天気 は 、 東北 地方 の 県 の 天気 の 平均 、 九州 は 九州 の 平均 だ 。
晴れ を 2 点 、くもり を 1 点 、雨 を 0 点 と した ので 、各 地点 の 点数 の 平均 を 計算 すれば よい 。
その 結果 、たとえば 、ある 日 の 天気 は 次 の ように 表さ れる 。
たとえば 、香川 県 であれば 、全国 と 四国 に 当てはまる ので 、全国 1・8 と 四国 0・8 を 足し合わせて 平均 を とり 、1・3 と なる 。
四捨五入 して 1 だ から 、くもり と 予想 する 。
実は 、「特徴 表現 ③ 」の ように 表す ほうが 、「特徴 表現 ② 」より 正確に 日本 全体 の 天気 を 伝える こと が できる 。
コンピュータ は 、データ 間 の 相関関係 を 分析 する こと で 、「特徴 表現 ③ 」の ような もの を 自動的に 見つける こと が できる 。
つまり 、「東北 」とか 「関東 」といった 分け方 は 知らなくて も 、天気 の 関連 が 高い という こと から 、地理的な まとまり を 勝手に 見つける こと が できる のである (*注 40 )。
そして 、その 中 でも 、最も 適した 特徴 表現 を 自動的に 見つけ出す こと が できる 。
もう 少し 専門的な 用語 で 言う と 、各 県 の 天気 の 間 に 「情報量 」が ある とき に 、これ を 利用する 、と いう こと だ 。
ある 県 の 天気 が 晴れ である こと が 、ほか の 県 の 天気 に 何らか の 影響 が ある とき 、「情報量 が ある 」と いう 。
コンピュータ は 、全国 47 都道府県 の 天気 データ を 見る こと で 、勝手に 「東北 地方 」や 「日本海側 」と いう 概念 を 生成する こと が できる 。
その とき に カギ と なる の が 「天気 を いかに 少ない 情報 で 伝え 、正確に 再現 する こと が できる か 」と いう こと な のである 。
入力 と 出力 を 同じ に する と 、隠れ 層 の ところ に 、その 画像 の 特徴 を 表す もの が 自然に 生成される 。
「東北 地方 」や 「日本海側 」が 自然に 生成 される の と 同じ ように 、適切な 特徴 表現 が つくられる 。
150 ページ の 図 21〔*〕 の よう に 、 入力 層 と 出力 層 に 比べて 、 真ん中 の 隠れ 層 が 細く くびれて いる ので (* 注 41)、 入力 は いったん 「 細い ところ を 通って 」 出力 される 。
その とき に 、出力 が 、もと の 入力 と できるだけ 近い もの に なる ように (専門的な 言い方 を する と 「復元 エラー 」が 最小 に なる ように )重みづけ が 修正 される こと に なる 。
天気 の 例 で 、もともと の 47 カ所 の 天気 の 情報 から 、10 カ所 だけ の 天気 の 情報 を 伝える こと で 、47 カ所 の 天気 の 正解 率 を 上げたい の と 同じ だ 。 出力 が もと の 入力 と できる だけ 近く に なる ように する に は 、どう したら よい だろう か 。
「情報量 」を 使えば よい のである 。
たとえば 、ある 画素 が 黒 の とき 、その 隣 の 画素 も 必ず 黒 なのだ と したら 、その 2 つ の 画素 は まとめて 扱って しまえば よい 。
つまり 、その 2 つ の 画素 を 別々 の 数字 として 隠れ 層 に 渡す ので は なく 、「その 2 つ の 数字 が まとめて 黒 か 白 か 」を 隠れ 層 に 渡せば よい のだ 。
関東 地方 の 天気 は 似て いる から まとめて 扱って しまえ 、と いう の と 同じ である 。
どこ を まとめて 扱ったら 結果 (出力 )に 影響 し ない の か 、逆に どこ を まとめて 扱う と 大きく 異なる 結果 (出力 )が 出て しまう のか 、コンピュータ は 圧縮 ポイント を 試行錯誤 して 、自分 で 学習する こと に なる 。
つまり 、「復元 エラー 」が 最小 に なる ような 、適切な 特徴 表現 を 探す わけである 。
前 章 で 登場 した 28 ピクセル × 28 ピクセル = 784 ピクセル の 画像 の 例 で は 、入力 層 が 784 次元 、出力 層 も 784 次元 あって 、真ん中 の 隠れ 層 が たとえば 100 次元 ある ような イメージ だ 。
784 次元 を 100 次元 に 圧縮 する ため に 、たとえば 、「左 下 の この 位置 が 黒く なって いれば 、その 周辺 の 10 ピクセル は まとめて 黒く しても 結果 (出力 )に 影響 しない 」と わかれば 、10 ピクセル の 情報 を 1 ピクセル で 代用 できる 。
ただ ひたすら 同じ 画像 の エンコーディング (圧縮 )と デコーディング (復元 ・再 構築 )を 繰り返す うちに 、いかに 効率的に 少ない 情報量 を 経由して もとに 戻せる か を 学習していく 。
そして 、答え 合わせ の 成績 が よい とき に 、隠れ 層 に できている もの が 、よい 特徴 表現 なのだ 。
数学 や 統計 に くわしい 人 であれば ピンと くる かも しれない が 、自己 符号 化 器 で やっている こと は 、アンケート 結果 の 分析 など で おなじみ の 「主成分分析 」と 同じ である 。
主 成分 分析 と は 、たくさんの 変数 を 、少数 個の 無相関 な 合成 変数 に 縮約する 方法 で 、マーケティング の 世界 で よく 使わ れる 。
実際 、線形 な 重み の 関数 を 用い 、最小 二乗 誤差 を 復元 エラー の 関数 と すれば 、主成分 分析 と 一致 する (*注 42 )。
自己 符号 化 器 の 場合 は 、後述 する ように さまざまな 形 で ノイズ を 与え 、それに よって 非常に 頑健 に 主成分 を 取り出す こと が できる 。
その こと が 「ディープ に 」、つまり 多階層 に する こと を 可能に し 、その 結果 、主成分分析 では 取り出せない ような 高次 の 特徴量 を 取り出す こと が できる 。
1 段目 の 隠れ層 を 2 段目 の 入力 (および 正解 データ )として 、コンピュータ に 学習 させる のだ 。
図 22 が それ に 当たる 。
この 100 次元 の データ を 同じ ように 入力 と する 。
その ため 、隠れ 層 を 仮に 20 個 と する と 、入力 層 の 100次元 の データ を いったん 20個 に まで 圧縮し 、もう一度 100次元 の ノード に 復元する わけである 。
2 段目 の 隠れ層 に は 、1 段目 の 隠れ層 で 得られた もの を さらに 組み合わせた もの が 出てくる から 、さらに 高次 の 特徴量 が 得られる (もと の 入力 の 画像 の 次元 に 戻す と 、さらに 抽象化 された 画像 が 出てくる こと に なる )。 これ を 、さらに 3 段目 の 入力 (および 正解 データ )として 用い 、得られた 隠れ層 を 、さらに 4 段目 の 入力 と する 。 そうして 次々 と 繰り返して 、多 階層 に して いく わけである 。
この 多 階層 の ディープラーニング の 仕組み を 図 に した の が 図 23 だ 。
真ん中 の 隠れ 層 を 上 に 引っ張り出し (②)、入力 層 と 出力 層 は 同じ だ から 便宜的に 重ねて (③)、これ を 何層 に も わたって 重ねる と 、④の タワー の ように なる 。
一番 下 から 入力 した 画像 は 、上 に 上がる につれて 抽象度 を 増し 、高次 の 特徴量 が 生成 さ れる 。
そして 「3 」なら 「3 」と いう 数字 そのもの の 概念 に 近く なる 。
個別 ・ 具体 的 な 、 さまざまな 「 手書き の 3」 を 読み 込み 、4、5 回 抽象 化 を 繰り返す と 、 現れる の は 「 典型 的 な 3」 だ 。
これ こそ 「3の概念」にほかならない。
教師 あり 学習 は 非常に 少ない サンプル 数 で 可能に なる 。
相関 の ある もの を ひと まとまり に する こと で 特徴量 を 取り出し 、さらに それ を 用いて 高次 の 特徴量 を 取り出す 。
そうした 高次 の 特徴 量 を 使って 表される 概念 を 取り出す 。
人間 が ぼーっと 景色 を 見ている とき に も 、実は こんな 壮大な 処理 が 脳 の 中 で 行われている のである 。 おそらく 、生後 すぐ の 赤ちゃん は 、目 や 耳 から 入ってくる 情報 の 洪水 の 中 から 、何と何 が 相関 し 、何が 独立 な 成分 か という 「演算 」を すごい スピード で 行っている はずである 。
情報 の 洪水 の 中 から 、予測 して は 答え 合わせ を 繰り返す こと で さまざまな 特徴量 を 発見し 、やがて 「お母さん 」という 概念 を 発見し 、まわり に ある 「もの 」を 見つけ 、それら の 関係 を 学ぶ 。 そうして 少しずつ 世界 を 学習 して いく 。
一般 的な 画像 を 扱う ので 、当然 、手書き 文字 の 場合 より 大変だ 。
用いる ニューラルネットワーク は 、より 巨大 に なる 。
下 の ほう の 層 で は 、点 や エッジ など の 画像 に よく ある 「模様 」を 認識 する だけ だが 、上 に いく と 、丸 や 三角 など の 形 が 認識 できる ように なる 。
そして それ ら の 組み合わせ として 、丸い 形 (顔 )の 中 に 2 個 の 点 (目 )が あって 、その 真ん中 に 縦 に 一筋 線 が 入って (鼻 )といった ように 、複雑な パーツ を 組み合わせた 特徴量 が 得られている 。 その 結果 、上 の ほう の 層 で は 、「人間 の 顔 」らしき もの や 、「ネコ の 顔 」らしき もの が 出て くる 。
つまり 、ユー チューブ から 取り出した 画像 を 大量に 見せて ディープラーニング に かける と 、コンピュータ が 特徴量 を 取り出し 、自動的に 「人間 の 顔 」や 「ネコ の 顔 」と いった 概念 を 獲得 する のだ 。
コンピュータ が 概念 (シニフィエ 、意味 される もの )を 自力 で つくり 出せれば 、その 段階 で 「これ は 人間 だ 」「これ は ネコ だ 」と いう 記号 表現 (シニフィアン 、意味する もの )を 当てはめて やる だけ で 、コンピュータ は シニフィアン と シニフィエ が 組み合わさった もの としての 記号 を 習得する 。
ここ まで くれば 、次 から は 、人間 や ネコ の 画像 を 見た だけ で 、「これ は 人間 だ 」「これ は ネコ だ 」と 判断 できる こと に なる 。
ただし 、この 研究 で は 、1000万 枚 の 画像 を 扱う ために 、ニューロン 同士 の つながり の 数 が 100億 個 と いう 巨大な ニューラルネットワーク を 使い 、1000 台 の コンピュータ (1万6000 個 の プロセッサ )を 3 日間 走らせている 。
膨大な 計算 量 である 。
ディープラーニング の 場合 、この 教師 なし 学習 を 、教師 あり 学習 的な アプローチ で やって いる 。
自己 符号 化 器 は 、本来 なら 教師 が 与える 正解 に 当たる 部分 に もと の データ を 入れる こと に よって 、入力 した データ 自身 を 予測 する 。
そして 、さまざまな 特徴 量 を 生成 する 。
それ が 、教師 あり 学習 で 教師 なし 学習 を やっている という こと である 。
ところが 、少し 理解 が 難しい の が 、そうして 得られた 特徴量 を 使って 、最後に 分類する とき 、つまり 、「その 特徴量 を 有する のは ネコ だ 」とか 「それ は イヌ だ 」という 正解 ラベル を 与える とき は 、「教師あり 学習 」に なる こと だ 。 「教師 あり 学習 的な 方法 に よる 教師 なし 学習 」で 特徴 量 を つくり 、最後に 何か 分類 させたい とき は 「教師 あり 学習 」に なる のである 。 結局 、教師 あり 学習 を する の なら 、ディープラーニング を やって も あまり 意味 が ない ように 思う かもしれない が 、この 違い は きわめて 大きい 。
たとえば 、ディープラーニング に よって 、天気 の 情報 から 、「日本海側 」の 概念 が すでに できている のであれば 、「島根 、鳥取 、福井 、石川 、富山 、新潟 、山形 、秋田 など の 県 の こと を 日本海側 と 言います 」と 教える だけ で 、「ああ 、これら の かたまり は 『日本海側 』と 呼べば いい の ね 」と すぐに わかる 。 ところが 、こうした 概念 が できて い なければ 、「島根 、鳥取 ……、あれ ?
兵庫 は 入る んだっけ ? 」など と 覚える の が 大変 である 。
「山陰 という のは 、島根 、鳥取 、あるいは 山口 県 北部 や 京都 北部 も 含まれ こと が ある 」と 聞く と 、「ああ そう です よね 、だって そこらへん 、天気 似て います から ね 」と すぐに 理解する こと が できる 。 コンピュータ に とって は 、「教師 データ 」を 必要 と する 度合い が まったく 違う のだ 。
世の中 の 「相関 する 事象 」の 相関 を あらかじめ とらえて おく こと に よって 、現実的 な 問題 の 学習 は 早く なる 。
なぜなら 、相関 が ある という こと は 、その 背景 に 何らかの 現実 の 構造 が 隠れている はずだ から である 。
ところが 、その 実 、ディープラーニング で やって いる こと は 、主成分分析 を 非線形 に し 、多段 に した だけ である 。
つまり 、データ の 中 から 特徴量 や 概念 を 見つけ 、その かたまり を 使って 、もっと 大きな かたまり を 見つける だけ である 。