×

Nous utilisons des cookies pour rendre LingQ meilleur. En visitant le site vous acceptez nos Politique des cookies.


image

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 05 (2)

人工 知能 は 人間 を 超える か Chapter 05 (2)

日本 全国 の 天気 は 、47 都道府県 の 天気 の 「 平均 」 を とった もの である 。

東北 の 天気 は 、 東北 地方 の 県 の 天気 の 平均 、 九州 は 九州 の 平均 だ 。

晴れ を 2 点 、 くもり を 1 点 、 雨 を 0 点 と した ので 、 各 地点 の 点数 の 平均 を 計算 すれば よい 。

その 結果 、 たとえば 、 ある 日 の 天気 は 次 の ように 表さ れる 。

たとえば 、 香川 県 であれば 、 全国 と 四国 に 当てはまる ので 、 全国 1・8 と 四国 0・8 を 足し 合わせて 平均 を とり 、1・3 と なる 。

四捨五入 して 1 だ から 、 くもり と 予想 する 。

実は 、「 特徴 表現 ③」 の ように 表す ほう が 、「 特徴 表現 ②」 より 正確に 日本 全体 の 天気 を 伝える こと が できる 。

コンピュータ は 、 データ 間 の 相関 関係 を 分析 する こと で 、「 特徴 表現 ③」 の ような もの を 自動 的に 見つける こと が できる 。

つまり 、「 東北 」 と か 「 関東 」 と いった 分け 方 は 知ら なくて も 、 天気 の 関連 が 高い と いう こと から 、 地理 的な まとまり を 勝手に 見つける こと が できる のである (* 注 40)。

そして 、 その 中 でも 、 最も 適した 特徴 表現 を 自動 的に 見つけ出す こと が できる 。

もう 少し 専門 的な 用語 で 言う と 、 各 県 の 天気 の 間 に 「 情報 量 」 が ある とき に 、 これ を 利用 する 、 と いう こと だ 。

ある 県 の 天気 が 晴れ である こと が 、 ほか の 県 の 天気 に 何らか の 影響 が ある とき 、「 情報 量 が ある 」 と いう 。

コンピュータ は 、 全国 47 都道府県 の 天気 データ を 見る こと で 、 勝手に 「 東北 地方 」 や 「 日本 海 側 」 と いう 概念 を 生成 する こと が できる 。

その とき に カギ と なる の が 「 天気 を いかに 少ない 情報 で 伝え 、 正確に 再現 する こと が できる か 」 と いう こと な のである 。

入力 と 出力 を 同じに する と 、 隠れ 層 の ところ に 、 その 画像 の 特徴 を 表す もの が 自然に 生成 さ れる 。

「 東北 地方 」 や 「 日本 海 側 」 が 自然に 生成 さ れる の と 同じ ように 、 適切な 特徴 表現 が つくら れる 。

150 ページ の 図 21〔*〕 の ように 、 入力 層 と 出力 層 に 比べて 、 真ん中 の 隠れ 層 が 細く くびれて いる ので (* 注 41)、 入力 は いったん 「 細い ところ を 通って 」 出力 さ れる 。

その とき に 、 出力 が 、 もと の 入力 と できる だけ 近い もの に なる ように ( 専門 的な 言い 方 を する と 「 復元 エラー 」 が 最小 に なる ように ) 重み づけ が 修正 さ れる こと に なる 。

天気 の 例 で 、 もともと の 47 カ所 の 天気 の 情報 から 、10 カ所 だけ の 天気 の 情報 を 伝える こと で 、47 カ所 の 天気 の 正解 率 を 上げたい の と 同じだ 。 出力 が もと の 入力 と できる だけ 近く に なる ように する に は 、 どう したら よい だろう か 。

「 情報 量 」 を 使えば よい のである 。

たとえば 、 ある 画素 が 黒 の とき 、 その 隣 の 画素 も 必ず 黒 な のだ と したら 、 その 2 つ の 画素 は まとめて 扱って しまえば よい 。

つまり 、 その 2 つ の 画素 を 別々の 数字 と して 隠れ 層 に 渡す ので は なく 、「 その 2 つ の 数字 が まとめて 黒 か 白 か 」 を 隠れ 層 に 渡せば よい のだ 。

関東 地方 の 天気 は 似て いる から まとめて 扱って しまえ 、 と いう の と 同じである 。

どこ を まとめて 扱ったら 結果 ( 出力 ) に 影響 し ない の か 、 逆に どこ を まとめて 扱う と 大きく 異なる 結果 ( 出力 ) が 出て しまう の か 、 コンピュータ は 圧縮 ポイント を 試行 錯誤 して 、 自分 で 学習 する こと に なる 。

つまり 、「 復元 エラー 」 が 最小 に なる ような 、 適切な 特徴 表現 を 探す わけである 。

前 章 で 登場 した 28 ピクセル ×28 ピクセル =784 ピクセル の 画像 の 例 で は 、 入力 層 が 784 次元 、 出力 層 も 784 次元 あって 、 真ん中 の 隠れ 層 が たとえば 100 次元 ある ような イメージ だ 。

784 次元 を 100 次元 に 圧縮 する ため に 、 たとえば 、「 左 下 の この 位置 が 黒く なって いれば 、 その 周辺 の 10 ピクセル は まとめて 黒く して も 結果 ( 出力 ) に 影響 し ない 」 と わかれば 、10 ピクセル の 情報 を 1 ピクセル で 代用 できる 。

ただ ひたすら 同じ 画像 の エンコーディング ( 圧縮 ) と デコーディング ( 復元 ・ 再 構築 ) を 繰り返す うち に 、 いかに 効率 的に 少ない 情報 量 を 経由 して もと に 戻せる か を 学習 して いく 。

そして 、 答え 合わせ の 成績 が よい とき に 、 隠れ 層 に できて いる もの が 、 よい 特徴 表現 な のだ 。

数学 や 統計 に くわしい 人 であれば ピンと くる かも しれ ない が 、 自己 符号 化 器 で やって いる こと は 、 アンケート 結果 の 分析 など で おなじみ の 「 主 成分 分析 」 と 同じである 。

主 成分 分析 と は 、 たくさんの 変数 を 、 少数 個 の 無 相関 な 合成 変数 に 縮 約する 方法 で 、 マーケティング の 世界 で よく 使わ れる 。

実際 、 線形 な 重み の 関数 を 用い 、 最小 二 乗 誤差 を 復元 エラー の 関数 と すれば 、 主 成分 分析 と 一致 する (* 注 42)。

自己 符号 化 器 の 場合 は 、 後 述 する ように さまざまな 形 で ノイズ を 与え 、 それ に よって 非常に 頑健 に 主 成分 を 取り出す こと が できる 。

その こと が 「 ディープ に 」、 つまり 多 階層 に する こと を 可能に し 、 その 結果 、 主 成分 分析 で は 取り出せ ない ような 高次 の 特徴 量 を 取り出す こと が できる 。

1 段 目 の 隠れ 層 を 2 段 目 の 入力 ( および 正解 データ ) と して 、 コンピュータ に 学習 さ せる のだ 。

図 22 が それ に 当たる 。

この 100 次元 の データ を 同じ ように 入力 と する 。

その ため 、 隠れ 層 を 仮に 20 個 と する と 、 入力 層 の 100 次元 の データ を いったん 20 個 に まで 圧縮 し 、 もう 一 度 100 次元 の ノード に 復元 する わけである 。

2 段 目 の 隠れ 層 に は 、1 段 目 の 隠れ 層 で 得られた もの を さらに 組み合わせた もの が 出て くる から 、 さらに 高次 の 特徴 量 が 得られる ( もと の 入力 の 画像 の 次元 に 戻す と 、 さらに 抽象 化 さ れた 画像 が 出て くる こと に なる )。 これ を 、 さらに 3 段 目 の 入力 ( および 正解 データ ) と して 用い 、 得られた 隠れ 層 を 、 さらに 4 段 目 の 入力 と する 。 そうして 次々 と 繰り返して 、 多 階層 に して いく わけである 。

この 多 階層 の ディープラーニング の 仕組み を 図 に した の が 図 23 だ 。

真ん中 の 隠れ 層 を 上 に 引っ張り出し (②)、 入力 層 と 出力 層 は 同じだ から 便宜 的に 重ねて (③)、 これ を 何 層 に も わたって 重ねる と 、④ の タワー の ように なる 。

一 番 下 から 入力 した 画像 は 、 上 に 上がる に つれて 抽象 度 を 増し 、 高次 の 特徴 量 が 生成 さ れる 。

そして 「3」 なら 「3」 と いう 数字 そのもの の 概念 に 近く なる 。

個別 ・ 具体 的な 、 さまざまな 「 手書き の 3」 を 読み 込み 、4、5 回 抽象 化 を 繰り返す と 、 現れる の は 「 典型 的な 3」 だ 。

これ こそ 「3 の 概念 」 に ほかなら ない 。

教師 あり 学習 は 非常に 少ない サンプル 数 で 可能に なる 。

相関 の ある もの を ひと まとまり に する こと で 特徴 量 を 取り出し 、 さらに それ を 用いて 高次 の 特徴 量 を 取り出す 。

そうした 高次 の 特徴 量 を 使って 表さ れる 概念 を 取り出す 。

人間 が ぼ ーっと 景色 を 見て いる とき に も 、 実は こんな 壮大な 処理 が 脳 の 中 で 行われて いる のである 。 おそらく 、 生後 すぐ の 赤ちゃん は 、 目 や 耳 から 入って くる 情報 の 洪水 の 中 から 、 何と 何 が 相関 し 、 何 が 独立 な 成分 か と いう 「 演算 」 を すごい スピード で 行って いる はずである 。

情報 の 洪水 の 中 から 、 予測 して は 答え 合わせ を 繰り返す こと で さまざまな 特徴 量 を 発見 し 、 やがて 「 お母さん 」 と いう 概念 を 発見 し 、 まわり に ある 「 もの 」 を 見つけ 、 それ ら の 関係 を 学ぶ 。 そうして 少しずつ 世界 を 学習 して いく 。

一般 的な 画像 を 扱う ので 、 当然 、 手書き 文字 の 場合 より 大変だ 。

用いる ニューラルネットワーク は 、 より 巨大に なる 。

下 の ほう の 層 で は 、 点 や エッジ など の 画像 に よく ある 「 模様 」 を 認識 する だけ だ が 、 上 に いく と 、 丸 や 三角 など の 形 が 認識 できる ように なる 。

そして それ ら の 組み合わせ と して 、 丸い 形 ( 顔 ) の 中 に 2 個 の 点 ( 目 ) が あって 、 その 真ん中 に 縦 に 一筋 線 が 入って ( 鼻 ) と いった ように 、 複雑な パーツ を 組み合わせた 特徴 量 が 得られて いる 。 その 結果 、 上 の ほう の 層 で は 、「 人間 の 顔 」 らしき もの や 、「 ネコ の 顔 」 らしき もの が 出て くる 。

つまり 、 ユー チューブ から 取り出した 画像 を 大量に 見せて ディープラーニング に かける と 、 コンピュータ が 特徴 量 を 取り出し 、 自動 的に 「 人間 の 顔 」 や 「 ネコ の 顔 」 と いった 概念 を 獲得 する のだ 。

コンピュータ が 概念 ( シニフィエ 、 意味 さ れる もの ) を 自力 で つくり 出せれば 、 その 段階 で 「 これ は 人間 だ 」「 これ は ネコ だ 」 と いう 記号 表現 ( シニフィアン 、 意味 する もの ) を 当てはめて やる だけ で 、 コンピュータ は シニフィアン と シニフィエ が 組み合わさった もの と して の 記号 を 習得 する 。

ここ まで くれば 、 次 から は 、 人間 や ネコ の 画像 を 見た だけ で 、「 これ は 人間 だ 」「 これ は ネコ だ 」 と 判断 できる こと に なる 。

ただし 、 この 研究 で は 、1000万 枚 の 画像 を 扱う ため に 、 ニューロン 同士 の つながり の 数 が 100億 個 と いう 巨大な ニューラルネットワーク を 使い 、1000 台 の コンピュータ (1万6000 個 の プロセッサ ) を 3 日間 走ら せて いる 。

膨大な 計算 量 である 。

ディープラーニング の 場合 、 この 教師 なし 学習 を 、 教師 あり 学習 的な アプローチ で やって いる 。

自己 符号 化 器 は 、 本来 なら 教師 が 与える 正解 に 当たる 部分 に もと の データ を 入れる こと に よって 、 入力 した データ 自身 を 予測 する 。

そして 、 さまざまな 特徴 量 を 生成 する 。

それ が 、 教師 あり 学習 で 教師 なし 学習 を やって いる と いう こと である 。

ところが 、 少し 理解 が 難しい の が 、 そうして 得られた 特徴 量 を 使って 、 最後に 分類 する とき 、 つまり 、「 その 特徴 量 を 有する の は ネコ だ 」 と か 「 それ は イヌ だ 」 と いう 正解 ラベル を 与える とき は 、「 教師 あり 学習 」 に なる こと だ 。 「 教師 あり 学習 的な 方法 に よる 教師 なし 学習 」 で 特徴 量 を つくり 、 最後に 何 か 分類 さ せたい とき は 「 教師 あり 学習 」 に なる のである 。 結局 、 教師 あり 学習 を する の なら 、 ディープラーニング を やって も あまり 意味 が ない ように 思う かも しれ ない が 、 この 違い は きわめて 大きい 。

たとえば 、 ディープラーニング に よって 、 天気 の 情報 から 、「 日本 海 側 」 の 概念 が すでに できて いる のであれば 、「 島根 、 鳥取 、 福井 、 石川 、 富山 、 新潟 、 山形 、 秋田 など の 県 の こと を 日本 海 側 と 言います 」 と 教える だけ で 、「 ああ 、 これら の かたまり は 『 日本 海 側 』 と 呼べば いい の ね 」 と すぐに わかる 。 ところが 、 こうした 概念 が できて い なければ 、「 島根 、 鳥取 ……、 あれ ?

兵庫 は 入る んだっけ ? 」 など と 覚える の が 大変である 。

「 山陰 と いう の は 、 島根 、 鳥取 、 あるいは 山口 県 北部 や 京都 北部 も 含ま れ こと が ある 」 と 聞く と 、「 ああ そう です よ ね 、 だって そこら へん 、 天気 似て います から ね 」 と すぐに 理解 する こと が できる 。 コンピュータ に とって は 、「 教師 データ 」 を 必要 と する 度合い が まったく 違う のだ 。

世の中 の 「 相関 する 事象 」 の 相関 を あらかじめ とらえて おく こと に よって 、 現実 的な 問題 の 学習 は 早く なる 。

なぜなら 、 相関 が ある と いう こと は 、 その 背景 に 何らか の 現実 の 構造 が 隠れて いる はずだ から である 。

ところが 、 その実 、 ディープラーニング で やって いる こと は 、 主 成分 分析 を 非 線形 に し 、 多 段 に した だけ である 。

つまり 、 データ の 中 から 特徴 量 や 概念 を 見つけ 、 その かたまり を 使って 、 もっと 大きな かたまり を 見つける だけ である 。


人工 知能 は 人間 を 超える か Chapter 05 (2) じんこう|ちのう||にんげん||こえる||chapter Will Artificial Intelligence Surpass Humans Chapter 05 (2) L'intelligence artificielle dépassera-t-elle l'homme ? Chapitre 05 (2) A inteligência artificial ultrapassará o ser humano Capítulo 05 (2)

日本 全国 の 天気 は 、47 都道府県 の 天気 の 「 平均 」 を とった もの である 。 にっぽん|ぜんこく||てんき||とどうふけん||てんき||へいきん|||| The weather throughout Japan is the “average” of the weather in 47 prefectures.

東北 の 天気 は 、 東北 地方 の 県 の 天気 の 平均 、 九州 は 九州 の 平均 だ 。 とうほく||てんき||とうほく|ちほう||けん||てんき||へいきん|きゅうしゅう||きゅうしゅう||へいきん| The weather in Tohoku is the average of the weather in the prefectures of Tohoku, and Kyushu is the average of Kyushu.

晴れ を 2 点 、 くもり を 1 点 、 雨 を 0 点 と した ので 、 各 地点 の 点数 の 平均 を 計算 すれば よい 。 はれ||てん|||てん|あめ||てん||||かく|ちてん||てんすう||へいきん||けいさん|| Since it was 2 points for clear weather, 1 point for cloudiness, and 0 point for rain, it is sufficient to calculate the average score for each point.

その 結果 、 たとえば 、 ある 日 の 天気 は 次 の ように 表さ れる 。 |けっか|||ひ||てんき||つぎ|||あらわさ| As a result, for example, the weather of a certain day is expressed as follows.

たとえば 、 香川 県 であれば 、 全国 と 四国 に 当てはまる ので 、 全国 1・8 と 四国 0・8 を 足し 合わせて 平均 を とり 、1・3 と なる 。 |かがわ|けん||ぜんこく||しこく||あてはまる||ぜんこく||しこく||たし|あわせて|へいきん|||| For example, in Kagawa Prefecture, this applies to the whole country and Shikoku.

四捨五入 して 1 だ から 、 くもり と 予想 する 。 ししゃごにゅう||||||よそう| Since it is 1 after rounding off, I expect it to be cloudy.

実は 、「 特徴 表現 ③」 の ように 表す ほう が 、「 特徴 表現 ②」 より 正確に 日本 全体 の 天気 を 伝える こと が できる 。 じつは|とくちょう|ひょうげん|||あらわす|||とくちょう|ひょうげん||せいかくに|にっぽん|ぜんたい||てんき||つたえる||| In fact, "Characteristic Expression (3)" It is better to express it in the form of "Feature expression 2. More accurate weather information for the whole of Japan.

コンピュータ は 、 データ 間 の 相関 関係 を 分析 する こと で 、「 特徴 表現 ③」 の ような もの を 自動 的に 見つける こと が できる 。 こんぴゅーた||でーた|あいだ||そうかん|かんけい||ぶんせき||||とくちょう|ひょうげん|||||じどう|てきに|みつける||| By analyzing correlations between data, computers can create "feature expressions (3). The system can automatically find things like

つまり 、「 東北 」 と か 「 関東 」 と いった 分け 方 は 知ら なくて も 、 天気 の 関連 が 高い と いう こと から 、 地理 的な まとまり を 勝手に 見つける こと が できる のである (* 注 40)。 |とうほく|||かんとう|||わけ|かた||しら|||てんき||かんれん||たかい|||||ちり|てきな|||かってに|みつける|||||そそ In other words, "Northeast." and "Kanto Even if we do not know how to divide the weather, we can find a geographical grouping on our own because of the high degree of weather association (*Note 40).

そして 、 その 中 でも 、 最も 適した 特徴 表現 を 自動 的に 見つけ出す こと が できる 。 ||なか||もっとも|てきした|とくちょう|ひょうげん||じどう|てきに|みつけだす||| It can then automatically find the most suitable feature expression among them.

もう 少し 専門 的な 用語 で 言う と 、 各 県 の 天気 の 間 に 「 情報 量 」 が ある とき に 、 これ を 利用 する 、 と いう こと だ 。 |すこし|せんもん|てきな|ようご||いう||かく|けん||てんき||あいだ||じょうほう|りょう|||||||りよう||||| In more technical terms, the "amount of information" between each prefecture's weather. The idea is to use it when there is a

ある 県 の 天気 が 晴れ である こと が 、 ほか の 県 の 天気 に 何らか の 影響 が ある とき 、「 情報 量 が ある 」 と いう 。 |けん||てんき||はれ||||||けん||てんき||なんらか||えいきょう||||じょうほう|りょう|||| When the fact that the weather is fine in one prefecture has some influence on the weather in other prefectures, it is "informative. The following is a brief description of the process

コンピュータ は 、 全国 47 都道府県 の 天気 データ を 見る こと で 、 勝手に 「 東北 地方 」 や 「 日本 海 側 」 と いう 概念 を 生成 する こと が できる 。 こんぴゅーた||ぜんこく|とどうふけん||てんき|でーた||みる|||かってに|とうほく|ちほう||にっぽん|うみ|がわ|||がいねん||せいせい|||| By looking at weather data for 47 prefectures across the country, the computer will automatically calculate the "Touhoku Region" and "Tohoku Region". and "Sea of Japan side The concept of "a" can be generated.

その とき に カギ と なる の が 「 天気 を いかに 少ない 情報 で 伝え 、 正確に 再現 する こと が できる か 」 と いう こと な のである 。 |||かぎ|||||てんき|||すくない|じょうほう||つたえ|せいかくに|さいげん|||||||||| The key is to be able to accurately reproduce the weather with the least amount of information. This is what we are trying to do.

入力 と 出力 を 同じに する と 、 隠れ 層 の ところ に 、 その 画像 の 特徴 を 表す もの が 自然に 生成 さ れる 。 にゅうりょく||しゅつりょく||どうじに|||かくれ|そう|||||がぞう||とくちょう||あらわす|||しぜんに|せいせい|| When the input and output are the same, something representing the image's features is naturally generated in the hidden layer.

「 東北 地方 」 や 「 日本 海 側 」 が 自然に 生成 さ れる の と 同じ ように 、 適切な 特徴 表現 が つくら れる 。 とうほく|ちほう||にっぽん|うみ|がわ||しぜんに|せいせい|||||おなじ||てきせつな|とくちょう|ひょうげん||| "Northeast Region" and "Sea of Japan side The appropriate feature representation is created in the same way that the

150 ページ の 図 21〔*〕 の ように 、 入力 層 と 出力 層 に 比べて 、 真ん中 の 隠れ 層 が 細く くびれて いる ので (* 注 41)、 入力 は いったん 「 細い ところ を 通って 」 出力 さ れる 。 ぺーじ||ず|||にゅうりょく|そう||しゅつりょく|そう||くらべて|まんなか||かくれ|そう||ほそく||||そそ|にゅうりょく|||ほそい|||かよって|しゅつりょく|| As shown in Figure 21 [*] on page 150, the hidden layer in the middle is narrower than the input and output layers (*Note 41), so that the input once "passes through the thin layer." The output is

その とき に 、 出力 が 、 もと の 入力 と できる だけ 近い もの に なる ように ( 専門 的な 言い 方 を する と 「 復元 エラー 」 が 最小 に なる ように ) 重み づけ が 修正 さ れる こと に なる 。 |||しゅつりょく||||にゅうりょく||||ちかい|||||せんもん|てきな|いい|かた||||ふくげん|えらー||さいしょう||||おもみ|||しゅうせい||||| The output should then be as close as possible to the original input (in technical terms, a "restoration error"). The weighting will be modified to minimize

天気 の 例 で 、 もともと の 47 カ所 の 天気 の 情報 から 、10 カ所 だけ の 天気 の 情報 を 伝える こと で 、47 カ所 の 天気 の 正解 率 を 上げたい の と 同じだ 。 てんき||れい||||かしょ||てんき||じょうほう||かしょ|||てんき||じょうほう||つたえる|||かしょ||てんき||せいかい|りつ||あげ たい|||おなじだ In the weather example, you want to increase the percentage of correct answers for the 47 weather stations by giving information for only 10 stations from the original 47 stations. 出力 が もと の 入力 と できる だけ 近く に なる ように する に は 、 どう したら よい だろう か 。 しゅつりょく||||にゅうりょく||||ちかく||||||||||| How can we make the output as close as possible to the original input?

「 情報 量 」 を 使えば よい のである 。 じょうほう|りょう||つかえば|| "Volume of information" The same is true for the "M" and "H".

たとえば 、 ある 画素 が 黒 の とき 、 その 隣 の 画素 も 必ず 黒 な のだ と したら 、 その 2 つ の 画素 は まとめて 扱って しまえば よい 。 ||がそ||くろ||||となり||がそ||かならず|くろ||||||||がそ|||あつかって|| For example, if a pixel is black and its neighbor is also necessarily black, then the two pixels should be treated together.

つまり 、 その 2 つ の 画素 を 別々の 数字 と して 隠れ 層 に 渡す ので は なく 、「 その 2 つ の 数字 が まとめて 黒 か 白 か 」 を 隠れ 層 に 渡せば よい のだ 。 ||||がそ||べつべつの|すうじ|||かくれ|そう||わたす|||||||すうじ|||くろ||しろ|||かくれ|そう||わたせば|| In other words, instead of passing the two pixels as separate numbers to the hidden layer, "the two numbers are black or white together. The only way to do this is to give the hidden layer of the

関東 地方 の 天気 は 似て いる から まとめて 扱って しまえ 、 と いう の と 同じである 。 かんとう|ちほう||てんき||にて||||あつかって||||||おなじである The weather in the Kanto region is similar enough that it should be treated as one.

どこ を まとめて 扱ったら 結果 ( 出力 ) に 影響 し ない の か 、 逆に どこ を まとめて 扱う と 大きく 異なる 結果 ( 出力 ) が 出て しまう の か 、 コンピュータ は 圧縮 ポイント を 試行 錯誤 して 、 自分 で 学習 する こと に なる 。 |||あつかったら|けっか|しゅつりょく||えいきょう|||||ぎゃくに||||あつかう||おおきく|ことなる|けっか|しゅつりょく||でて||||こんぴゅーた||あっしゅく|ぽいんと||しこう|さくご||じぶん||がくしゅう|||| The computer learns by trial and error which compression points will not affect the results (output) if they are treated together, and which points will produce very different results (output) if they are treated together.

つまり 、「 復元 エラー 」 が 最小 に なる ような 、 適切な 特徴 表現 を 探す わけである 。 |ふくげん|えらー||さいしょう||||てきせつな|とくちょう|ひょうげん||さがす| That is, "Restore Error". The search for the appropriate feature expression minimizes the

前 章 で 登場 した 28 ピクセル ×28 ピクセル =784 ピクセル の 画像 の 例 で は 、 入力 層 が 784 次元 、 出力 層 も 784 次元 あって 、 真ん中 の 隠れ 層 が たとえば 100 次元 ある ような イメージ だ 。 ぜん|しょう||とうじょう||||||がぞう||れい|||にゅうりょく|そう||じげん|しゅつりょく|そう||じげん||まんなか||かくれ|そう|||じげん|||いめーじ| In the example of the 28 pixel × 28 pixel = 784 pixel image that appeared in the previous chapter, the input layer has 784 dimensions, the output layer also has 784 dimensions, and the hidden layer in the middle has, for example, 100 dimensions.

784 次元 を 100 次元 に 圧縮 する ため に 、 たとえば 、「 左 下 の この 位置 が 黒く なって いれば 、 その 周辺 の 10 ピクセル は まとめて 黒く して も 結果 ( 出力 ) に 影響 し ない 」 と わかれば 、10 ピクセル の 情報 を 1 ピクセル で 代用 できる 。 じげん||じげん||あっしゅく|||||ひだり|した|||いち||くろく||||しゅうへん|||||くろく|||けっか|しゅつりょく||えいきょう|||||||じょうほう||||だいよう| To compress 784 dimensions into 100 dimensions, for example, "If this position in the lower left is blacked out, the surrounding 10 pixels can be blacked out together without affecting the result (output). If we know that the information in 10 pixels can be substituted with 1 pixel, then we can use the information in 1 pixel.

ただ ひたすら 同じ 画像 の エンコーディング ( 圧縮 ) と デコーディング ( 復元 ・ 再 構築 ) を 繰り返す うち に 、 いかに 効率 的に 少ない 情報 量 を 経由 して もと に 戻せる か を 学習 して いく 。 ||おなじ|がぞう|||あっしゅく|||ふくげん|さい|こうちく||くりかえす||||こうりつ|てきに|すくない|じょうほう|りょう||けいゆ||||もどせる|||がくしゅう|| As they continue to encode (compress) and decode (restore and reconstruct) the same image over and over again, they learn how to efficiently restore the original image using a smaller amount of information.

そして 、 答え 合わせ の 成績 が よい とき に 、 隠れ 層 に できて いる もの が 、 よい 特徴 表現 な のだ 。 |こたえ|あわせ||せいせき|||||かくれ|そう|||||||とくちょう|ひょうげん|| And when the answer grades are good, the hidden layers are the good feature expressions.

数学 や 統計 に くわしい 人 であれば ピンと くる かも しれ ない が 、 自己 符号 化 器 で やって いる こと は 、 アンケート 結果 の 分析 など で おなじみ の 「 主 成分 分析 」 と 同じである 。 すうがく||とうけい|||じん||ぴんと||||||じこ|ふごう|か|うつわ||||||あんけーと|けっか||ぶんせき|||||おも|せいぶん|ぶんせき||おなじである As those who are familiar with mathematics and statistics may know, what the self-coder is doing is called "principal component analysis," which is familiar to those who analyze survey results. The same is true as for

主 成分 分析 と は 、 たくさんの 変数 を 、 少数 個 の 無 相関 な 合成 変数 に 縮 約する 方法 で 、 マーケティング の 世界 で よく 使わ れる 。 おも|せいぶん|ぶんせき||||へんすう||しょうすう|こ||む|そうかん||ごうせい|へんすう||ちぢ|やくする|ほうほう||||せかい|||つかわ| Principal Component Analysis is a method of reducing a large number of variables to a small number of uncorrelated composite variables, often used in the marketing world.

実際 、 線形 な 重み の 関数 を 用い 、 最小 二 乗 誤差 を 復元 エラー の 関数 と すれば 、 主 成分 分析 と 一致 する (* 注 42)。 じっさい|せんけい||おもみ||かんすう||もちい|さいしょう|ふた|じょう|ごさ||ふくげん|えらー||かんすう|||おも|せいぶん|ぶんせき||いっち||そそ In fact, using a linear weight function and the least-squares error as a function of the restoration error is consistent with principal component analysis (*Note 42).

自己 符号 化 器 の 場合 は 、 後 述 する ように さまざまな 形 で ノイズ を 与え 、 それ に よって 非常に 頑健 に 主 成分 を 取り出す こと が できる 。 じこ|ふごう|か|うつわ||ばあい||あと|じゅつ||||かた||||あたえ||||ひじょうに|がんけん||おも|せいぶん||とりだす||| In the case of a self-coder, as described below, various forms of noise can be applied, and thus the main components can be extracted in a very robust manner.

その こと が 「 ディープ に 」、 つまり 多 階層 に する こと を 可能に し 、 その 結果 、 主 成分 分析 で は 取り出せ ない ような 高次 の 特徴 量 を 取り出す こと が できる 。 ||||||おお|かいそう|||||かのうに|||けっか|おも|せいぶん|ぶんせき|||とりだせ|||こうじ||とくちょう|りょう||とりだす||| That's what I mean by "deep." This allows for multilevel analysis, and as a result, it is possible to extract higher-order features that cannot be extracted using principal component analysis.

1 段 目 の 隠れ 層 を 2 段 目 の 入力 ( および 正解 データ ) と して 、 コンピュータ に 学習 さ せる のだ 。 だん|め||かくれ|そう||だん|め||にゅうりょく||せいかい|でーた|||こんぴゅーた||がくしゅう||| The hidden layer of the first stage is used as the input (and correct data) for the second stage, which is learned by the computer.

図 22 が それ に 当たる 。 ず||||あたる Figure 22 is a case in point.

この 100 次元 の データ を 同じ ように 入力 と する 。 |じげん||でーた||おなじ||にゅうりょく|| This 100-dimensional data is input in the same way.

その ため 、 隠れ 層 を 仮に 20 個 と する と 、 入力 層 の 100 次元 の データ を いったん 20 個 に まで 圧縮 し 、 もう 一 度 100 次元 の ノード に 復元 する わけである 。 ||かくれ|そう||かりに|こ||||にゅうりょく|そう||じげん||でーた|||こ|||あっしゅく|||ひと|たび|じげん||||ふくげん|| Therefore, assuming 20 hidden layers, the 100-dimensional data in the input layer is compressed to 20 at first, and then restored to 100-dimensional nodes once more.

2 段 目 の 隠れ 層 に は 、1 段 目 の 隠れ 層 で 得られた もの を さらに 組み合わせた もの が 出て くる から 、 さらに 高次 の 特徴 量 が 得られる ( もと の 入力 の 画像 の 次元 に 戻す と 、 さらに 抽象 化 さ れた 画像 が 出て くる こと に なる )。 だん|め||かくれ|そう|||だん|め||かくれ|そう||え られた||||くみあわせた|||でて||||こうじ||とくちょう|りょう||え られる|||にゅうりょく||がぞう||じげん||もどす|||ちゅうしょう|か|||がぞう||でて|||| The second hidden layer is a combination of those obtained in the first hidden layer, so higher-order features appear. これ を 、 さらに 3 段 目 の 入力 ( および 正解 データ ) と して 用い 、 得られた 隠れ 層 を 、 さらに 4 段 目 の 入力 と する 。 |||だん|め||にゅうりょく||せいかい|でーた|||もちい|え られた|かくれ|そう|||だん|め||にゅうりょく|| This is used as the third-stage input (and correct solution data), and the resulting hidden layer is used as the fourth-stage input. そうして 次々 と 繰り返して 、 多 階層 に して いく わけである 。 |つぎつぎ||くりかえして|おお|かいそう|||| The process is repeated one after the other to create multiple layers.

この 多 階層 の ディープラーニング の 仕組み を 図 に した の が 図 23 だ 。 |おお|かいそう||||しくみ||ず|||||ず| Figure 23 illustrates how this multilevel deep learning works.

真ん中 の 隠れ 層 を 上 に 引っ張り出し (②)、 入力 層 と 出力 層 は 同じだ から 便宜 的に 重ねて (③)、 これ を 何 層 に も わたって 重ねる と 、④ の タワー の ように なる 。 まんなか||かくれ|そう||うえ||ひっぱりだし|にゅうりょく|そう||しゅつりょく|そう||おなじだ||べんぎ|てきに|かさねて|||なん|そう||||かさねる|||たわー||| The hidden layer in the middle is pulled up (②), and since the input and output layers are the same, they are conveniently superimposed (③).

一 番 下 から 入力 した 画像 は 、 上 に 上がる に つれて 抽象 度 を 増し 、 高次 の 特徴 量 が 生成 さ れる 。 ひと|ばん|した||にゅうりょく||がぞう||うえ||あがる|||ちゅうしょう|たび||まし|こうじ||とくちょう|りょう||せいせい|| The lowest input image becomes more abstract as it moves up, and higher-order features are generated.

そして 「3」 なら 「3」 と いう 数字 そのもの の 概念 に 近く なる 。 ||||すうじ|その もの||がいねん||ちかく| And "3." Then "3." This is similar to the concept of the number itself.

個別 ・ 具体 的な 、 さまざまな 「 手書き の 3」 を 読み 込み 、4、5 回 抽象 化 を 繰り返す と 、 現れる の は 「 典型 的な 3」 だ 。 こべつ|ぐたい|てきな||てがき|||よみ|こみ|かい|ちゅうしょう|か||くりかえす||あらわれる|||てんけい|てきな| Individual, specific, and various "handwritten 3s and after 4 or 5 iterations of abstraction, a "typical 3" appears. It is.

これ こそ 「3 の 概念 」 に ほかなら ない 。 |||がいねん||| This is the "3 concept." The "one" is no other than the "one".

教師 あり 学習 は 非常に 少ない サンプル 数 で 可能に なる 。 きょうし||がくしゅう||ひじょうに|すくない|さんぷる|すう||かのうに| Supervised learning is possible with a very small sample size.

相関 の ある もの を ひと まとまり に する こと で 特徴 量 を 取り出し 、 さらに それ を 用いて 高次 の 特徴 量 を 取り出す 。 そうかん|||||||||||とくちょう|りょう||とりだし||||もちいて|こうじ||とくちょう|りょう||とりだす By grouping correlated items together, feature quantities can be extracted, which can then be used to extract higher-order feature quantities.

そうした 高次 の 特徴 量 を 使って 表さ れる 概念 を 取り出す 。 |こうじ||とくちょう|りょう||つかって|あらわさ||がいねん||とりだす The concepts represented by such higher-order quantities of features are extracted.

人間 が ぼ ーっと 景色 を 見て いる とき に も 、 実は こんな 壮大な 処理 が 脳 の 中 で 行われて いる のである 。 にんげん|||- っと|けしき||みて|||||じつは||そうだいな|しょり||のう||なか||おこなわ れて|| Even when we are looking at a landscape in a daze, our brains are actually performing this kind of spectacular processing. おそらく 、 生後 すぐ の 赤ちゃん は 、 目 や 耳 から 入って くる 情報 の 洪水 の 中 から 、 何と 何 が 相関 し 、 何 が 独立 な 成分 か と いう 「 演算 」 を すごい スピード で 行って いる はずである 。 |せいご|||あかちゃん||め||みみ||はいって||じょうほう||こうずい||なか||なんと|なん||そうかん||なん||どくりつ||せいぶん||||えんざん|||すぴーど||おこなって|| Babies are probably still "operating" on the flood of information coming in through their eyes and ears, trying to figure out what correlates with what and what is an independent component. The company should be doing this at a very high speed.

情報 の 洪水 の 中 から 、 予測 して は 答え 合わせ を 繰り返す こと で さまざまな 特徴 量 を 発見 し 、 やがて 「 お母さん 」 と いう 概念 を 発見 し 、 まわり に ある 「 もの 」 を 見つけ 、 それ ら の 関係 を 学ぶ 。 じょうほう||こうずい||なか||よそく|||こたえ|あわせ||くりかえす||||とくちょう|りょう||はっけん|||お かあさん|||がいねん||はっけん|||||||みつけ||||かんけい||まなぶ By repeatedly making predictions and matching answers in the flood of information, we discover various quantities of characteristics that eventually lead us to "mom. The concept of "things" is a new way of thinking about the "things" around us. and learn how they relate to each other. そうして 少しずつ 世界 を 学習 して いく 。 |すこしずつ|せかい||がくしゅう|| And so, little by little, we learn about the world.

一般 的な 画像 を 扱う ので 、 当然 、 手書き 文字 の 場合 より 大変だ 。 いっぱん|てきな|がぞう||あつかう||とうぜん|てがき|もじ||ばあい||たいへんだ Since we are dealing with common images, this is naturally more difficult than with handwritten text.

用いる ニューラルネットワーク は 、 より 巨大に なる 。 もちいる||||きょだいに| The neural networks used will be much larger.

下 の ほう の 層 で は 、 点 や エッジ など の 画像 に よく ある 「 模様 」 を 認識 する だけ だ が 、 上 に いく と 、 丸 や 三角 など の 形 が 認識 できる ように なる 。 した||||そう|||てん|||||がぞう||||もよう||にんしき|||||うえ||||まる||さんかく|||かた||にんしき||| In the lower layers, there are "patterns" that are common in images, such as dots or edges. But as you move up, you can recognize circles, triangles, and other shapes.

そして それ ら の 組み合わせ と して 、 丸い 形 ( 顔 ) の 中 に 2 個 の 点 ( 目 ) が あって 、 その 真ん中 に 縦 に 一筋 線 が 入って ( 鼻 ) と いった ように 、 複雑な パーツ を 組み合わせた 特徴 量 が 得られて いる 。 ||||くみあわせ|||まるい|かた|かお||なか||こ||てん|め||||まんなか||たて||ひとすじ|せん||はいって|はな||||ふくざつな|||くみあわせた|とくちょう|りょう||え られて| The combination of these features results in a complex combination of parts, such as a round shape (face) with two dots (eyes) and a vertical line in the middle of the dots (nose). その 結果 、 上 の ほう の 層 で は 、「 人間 の 顔 」 らしき もの や 、「 ネコ の 顔 」 らしき もの が 出て くる 。 |けっか|うえ||||そう|||にんげん||かお||||ねこ||かお||||でて| As a result, in the upper stratum, the "human face" or what appears to be a "cat face." The first thing that comes out is something that looks like a

つまり 、 ユー チューブ から 取り出した 画像 を 大量に 見せて ディープラーニング に かける と 、 コンピュータ が 特徴 量 を 取り出し 、 自動 的に 「 人間 の 顔 」 や 「 ネコ の 顔 」 と いった 概念 を 獲得 する のだ 。 |ゆー|ちゅーぶ||とりだした|がぞう||たいりょうに|みせて|||||こんぴゅーた||とくちょう|りょう||とりだし|じどう|てきに|にんげん||かお||ねこ||かお|||がいねん||かくとく|| In other words, if you show a large number of images taken from YouTube and apply them to deep learning, the computer will take out the features and automatically acquire the concepts such as "human face" and "cat face".

コンピュータ が 概念 ( シニフィエ 、 意味 さ れる もの ) を 自力 で つくり 出せれば 、 その 段階 で 「 これ は 人間 だ 」「 これ は ネコ だ 」 と いう 記号 表現 ( シニフィアン 、 意味 する もの ) を 当てはめて やる だけ で 、 コンピュータ は シニフィアン と シニフィエ が 組み合わさった もの と して の 記号 を 習得 する 。 こんぴゅーた||がいねん||いみ|||||じりき|||だせれば||だんかい||||にんげん||||ねこ||||きごう|ひょうげん||いみ||||あてはめて||||こんぴゅーた||||||くみあわさった|||||きごう||しゅうとく| If a computer can create concepts (signifiers, things that make sense) on its own, at that stage it can say, "This is a human being. "This is a cat." The computer learns the symbols as a combination of the signifier and signified by simply applying the symbolic representation (signifier, what it means) as "signifier".

ここ まで くれば 、 次 から は 、 人間 や ネコ の 画像 を 見た だけ で 、「 これ は 人間 だ 」「 これ は ネコ だ 」 と 判断 できる こと に なる 。 |||つぎ|||にんげん||ねこ||がぞう||みた|||||にんげん||||ねこ|||はんだん|||| Once you've reached this point, the next time you see an image of a human or a cat, you'll think, "This is a human. "This is a cat." This means that the company can determine that the company's business is in good shape.

ただし 、 この 研究 で は 、1000万 枚 の 画像 を 扱う ため に 、 ニューロン 同士 の つながり の 数 が 100億 個 と いう 巨大な ニューラルネットワーク を 使い 、1000 台 の コンピュータ (1万6000 個 の プロセッサ ) を 3 日間 走ら せて いる 。 ||けんきゅう|||よろず|まい||がぞう||あつかう||||どうし||||すう||おく|こ|||きょだいな|||つかい|だい||こんぴゅーた|よろず|こ||||にち かん|はしら|| However, in order to handle 10 million images, this research used a huge neural network with 10 billion interconnections among neurons, running 1,000 computers (16,000 processors) for three days.

膨大な 計算 量 である 。 ぼうだいな|けいさん|りょう| It is a huge amount of calculation.

ディープラーニング の 場合 、 この 教師 なし 学習 を 、 教師 あり 学習 的な アプローチ で やって いる 。 ||ばあい||きょうし||がくしゅう||きょうし||がくしゅう|てきな|あぷろーち||| In the case of deep learning, this unsupervised learning is done with a supervised learning approach.

自己 符号 化 器 は 、 本来 なら 教師 が 与える 正解 に 当たる 部分 に もと の データ を 入れる こと に よって 、 入力 した データ 自身 を 予測 する 。 じこ|ふごう|か|うつわ||ほんらい||きょうし||あたえる|せいかい||あたる|ぶぶん||||でーた||いれる||||にゅうりょく||でーた|じしん||よそく| The self-coder predicts the input data itself by inserting the original data into the part that would normally be the correct answer given by the teacher.

そして 、 さまざまな 特徴 量 を 生成 する 。 ||とくちょう|りょう||せいせい| The system then generates a variety of feature quantities.

それ が 、 教師 あり 学習 で 教師 なし 学習 を やって いる と いう こと である 。 ||きょうし||がくしゅう||きょうし||がくしゅう||||||| That is, we are doing unsupervised learning with supervised learning.

ところが 、 少し 理解 が 難しい の が 、 そうして 得られた 特徴 量 を 使って 、 最後に 分類 する とき 、 つまり 、「 その 特徴 量 を 有する の は ネコ だ 」 と か 「 それ は イヌ だ 」 と いう 正解 ラベル を 与える とき は 、「 教師 あり 学習 」 に なる こと だ 。 |すこし|りかい||むずかしい||||え られた|とくちょう|りょう||つかって|さいごに|ぶんるい|||||とくちょう|りょう||ゆうする|||ねこ||||||いぬ||||せいかい|らべる||あたえる|||きょうし||がくしゅう|||| What is a little more difficult to understand, however, is that when we finally classify using the feature values obtained in this way, we are told that the cat is the one with the feature value. Or, "That's a dog." When the correct answer label is given as "unsupervised learning," it is called "supervised learning. The first is to be a "good" person. 「 教師 あり 学習 的な 方法 に よる 教師 なし 学習 」 で 特徴 量 を つくり 、 最後に 何 か 分類 さ せたい とき は 「 教師 あり 学習 」 に なる のである 。 きょうし||がくしゅう|てきな|ほうほう|||きょうし||がくしゅう||とくちょう|りょう|||さいごに|なん||ぶんるい|||||きょうし||がくしゅう||| "unsupervised learning using a supervised learning approach" We build the features using the "supervised learning" method, and at the end, we want to classify them. The result is that the "new" is not a "new" but a "new". 結局 、 教師 あり 学習 を する の なら 、 ディープラーニング を やって も あまり 意味 が ない ように 思う かも しれ ない が 、 この 違い は きわめて 大きい 。 けっきょく|きょうし||がくしゅう||||||||||いみ||||おもう||||||ちがい|||おおきい In the end, if you are doing supervised learning, you may think that deep learning does not make much sense, but the difference is huge.

たとえば 、 ディープラーニング に よって 、 天気 の 情報 から 、「 日本 海 側 」 の 概念 が すでに できて いる のであれば 、「 島根 、 鳥取 、 福井 、 石川 、 富山 、 新潟 、 山形 、 秋田 など の 県 の こと を 日本 海 側 と 言います 」 と 教える だけ で 、「 ああ 、 これら の かたまり は 『 日本 海 側 』 と 呼べば いい の ね 」 と すぐに わかる 。 ||||てんき||じょうほう||にっぽん|うみ|がわ||がいねん||||||しまね|とっとり|ふくい|いしかわ|とみやま|にいがた|やまがた|あきた|||けん||||にっぽん|うみ|がわ||いい ます||おしえる||||これ ら||||にっぽん|うみ|がわ||よべば|||||| For example, deep learning can be used to determine the weather on the "Sea of Japan side" from weather information. If the concept of "Sea of Japan side" has already been established, then prefectures such as Shimane, Tottori, Fukui, Ishikawa, Toyama, Niigata, Yamagata, and Akita are called "Sea of Japan side. I just tell them, "Ah, so we can call this grouping 'the Sea of Japan side. I can tell right away. ところが 、 こうした 概念 が できて い なければ 、「 島根 、 鳥取 ……、 あれ ? ||がいねん|||||しまね|とっとり| However, without such a concept, it would be difficult to say, "Shimane, Tottori ......, what is it?

兵庫 は 入る んだっけ ? ひょうご||はいる|んだ っけ Will Hyogo be included? 」 など と 覚える の が 大変である 。 ||おぼえる|||たいへんである " It is hard to remember that the

「 山陰 と いう の は 、 島根 、 鳥取 、 あるいは 山口 県 北部 や 京都 北部 も 含ま れ こと が ある 」 と 聞く と 、「 ああ そう です よ ね 、 だって そこら へん 、 天気 似て います から ね 」 と すぐに 理解 する こと が できる 。 さんいん|||||しまね|とっとり||やまぐち|けん|ほくぶ||みやこ|ほくぶ||ふくま||||||きく||||||||||てんき|にて|い ます|||||りかい|||| "San-in" can include Shimane and Tottori, as well as northern Yamaguchi and northern Kyoto. I asked him, "Oh, yes, that's right, because the weather is similar there. The first thing you need to understand is that the first thing you need to do is to understand the first thing you need to do. コンピュータ に とって は 、「 教師 データ 」 を 必要 と する 度合い が まったく 違う のだ 。 こんぴゅーた||||きょうし|でーた||ひつよう|||どあい|||ちがう| For computers, it is "teacher data. The degree of need for the "one" is completely different.

世の中 の 「 相関 する 事象 」 の 相関 を あらかじめ とらえて おく こと に よって 、 現実 的な 問題 の 学習 は 早く なる 。 よのなか||そうかん||じしょう||そうかん||||||||げんじつ|てきな|もんだい||がくしゅう||はやく| The "correlating events" of the world. By noting the correlations between the two, realistic problems can be learned more quickly.

なぜなら 、 相関 が ある と いう こと は 、 その 背景 に 何らか の 現実 の 構造 が 隠れて いる はずだ から である 。 |そうかん||||||||はいけい||なんらか||げんじつ||こうぞう||かくれて|||| This is because the existence of a correlation implies that some structure of reality should be hidden in the background.

ところが 、 その実 、 ディープラーニング で やって いる こと は 、 主 成分 分析 を 非 線形 に し 、 多 段 に した だけ である 。 |そのじつ|||||||おも|せいぶん|ぶんせき||ひ|せんけい|||おお|だん|||| In reality, however, what deep learning does is simply make principal component analysis nonlinear and multistage.

つまり 、 データ の 中 から 特徴 量 や 概念 を 見つけ 、 その かたまり を 使って 、 もっと 大きな かたまり を 見つける だけ である 。 |でーた||なか||とくちょう|りょう||がいねん||みつけ||||つかって||おおきな|||みつける|| In other words, we find a feature or concept in the data, and then use that chunk to find a larger chunk.