×

Nous utilisons des cookies pour rendre LingQ meilleur. En visitant le site vous acceptez nos Politique des cookies.


image

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 05 (1)

人工 知能 は 人間 を 超える か Chapter 05 (1)

ディープラーニング が 新 時代 を 切り開く

2012 年 、 人工 知能 研究 の 世界 に 衝撃 が 走った 。

世界 的な 画像 認識 の コンペティション 「 ILSVRC ( Imagenet Large Scale Visual Recognition Challenge )」 で 、 東京 大学 、 オックスフォード 大学 、 独 イェーナ 大学 、 ゼロックス など 名だたる 研究 機関 が 開発 した 人工 知能 を 抑えて 、 初 参加 の カナダ の トロント 大学 が 開発 した SuperVision が 圧倒 的な 勝利 を 飾った のだ 。

この コンペ で は 、 ある 画像 に 写って いる の が ヨット な の か 、 花 な の か 、 動物 な の か 、 ネコ な の か を コンピュータ が 自動 で 当てる タスク が 課さ れ 、 その 正解 率 の 高 さ ( 実際 は エラー 率 の 低 さ ) を 競い 合う 。

1000万 枚 の 画像 データ から 機械 学習 で 学習 し 、15万 枚 の 画像 を 使って テスト を して 、 正解 率 を 測定 する 。

それ まで 、 画像 認識 と いう タスク で 機械 学習 を 用いる こと は 常識 であった が 、 機械 学習 の 際 に 用いる 特徴 量 の 設計 は 、 人間 の 仕事 であった 。

各 大学 ・ 研究 機関 は コンマ 何 % の 精度 で エラー 率 を 下げる ため に しのぎ を 削り 、 その ため に 、 画像 の 中 の こういう 特徴 に 注目 する と エラー 率 が 下がる ので は ない か と 試行 錯誤 を 重ねて きた 。

機械 学習 と いって も 、 特徴 量 の 設計 は 、 長年 の 知識 と 経験 が もの を いう 職人 技 である 。

職人 技 に より 、 機械 学習 の アルゴリズム と 特徴 量 の 設計 が 少しずつ 進み 、1 年 かけて ようやく 1% エラー 率 が 下がる と いう 世界 だ 。 その 年 も エラー 率 26% 台 の 攻防 の はずだった ( 図 20 を 見る と 、1 位 、2 位 を 独占 した SuperVision を 除けば 、 エラー 率 26% 台 で いく つ も の チーム が 並んで いる の が わかる )。

ちなみに 、 自然 言語 処理 でも 検索 でも 、 人工 知能 技術 を 用いて 最後に コンマ 何 % と いう 性能 の 勝負 の 段階 に なる と 、 必ず この 職人 技 ( あるいは ヒューリスティック と 呼ば れる ) の かたまり に なって くる 。

研究 と して は あまり 面白く ない ところ だ 。 実は 、 Siri の ような 「 音声 対話 システム 」 も 、 ワトソン の ような 「 質問 応答 システム 」 も 、 ほとんど この 段階 に 入って いて 、 研究 者 から する と 、「 やって も いい けど 大変な わりに あまり 未来 が ない 」 ように 思える 世界 である 。 その 世界 で 少しずつ 性能 を 上げて いく に は 、 気 の 遠く なる ような 努力 が 要求 さ れる 。 文字通り 「 桁違い 」 の 勝利 だ 。 これ に は 長年 、 画像 認識 の 研究 を 進めて きた ほか の 研究 者 も 度肝 を 抜か れた 。

何 が トロント 大学 に 勝利 を もたらした の か 。

その 勝因 は 同 大学 教授 ジェフリー ・ ヒントン 氏 が 中心 に なって 開発 した 新しい 機械 学習 の 方法 「 ディープラーニング ( 深層 学習 )」 だった 。

ディープラーニング の 研究 自体 は 2006 年 ごろ から 始まって いる が 、 それ まで 画像 認識 の 各 研究 者 が 培って きた ノウハウ と は まったく 別の ところ から 参入 して 、 いきなり トップ に 躍り出た のだ から 、 その 衝撃 たる や 、 大変な もの だった 。

画像 認識 の 研究 者 の 中 に は 、「 もう 研究 者 と して やって いけ ない ので は ない か 」 と 危機 感 を 覚えた 人 も 少なく ない と 聞いて いる 。

ディープラーニング は 、 データ を もと に 、 コンピュータ が 自ら 特徴 量 を つくり 出す 。

人間 が 特徴 量 を 設計 する ので は なく 、 コンピュータ が 自ら 高次 の 特徴 量 を 獲得 し 、 それ を もと に 画像 を 分類 できる ように なる (* 注 35)。 ディープラーニング に よって 、 これ まで 人間 が 介在 し なければ なら なかった 領域 に 、 ついに 人工 知能 が 一 歩 踏み込んだ のだ 。

私 は 、 ディープラーニング を 「 人工 知能 研究 に おける 50 年 来 の ブレーク スルー 」 と 言って いる 。

もう 少し 正確 を 期す なら 、 第 2、 第 3、 そして 第 4 章 で 見て きた ような 、 人工 知能 の 主要な 成果 は ほとんど 人工 知能 の 黎明 期 、 すなわち 1956 年 から の 最初の 10 年 ないしは 20 年 の 間 に できて いる 。 その後 いく つ か の 大きな 発明 は あった もの の 、 どちら か と いえば 、「 マイナー チェンジ 」 であった 。

しかし 、 ディープラーニング に 代表 さ れる 「 特徴 表現 学習 」 は 、 黎明 期 の 革新 的な 発明 ・ 発見 に 匹敵 する ような 大 発明 だ 。

特徴 表現 を コンピュータ が 自ら つくり 出す こと は 、 それ くらい 大きな 飛躍 な のである 。 なお 、 通常 、 ディープラーニング は 「 表現 学習 ( representation learning )」 の ひと つ と さ れる が 、 本書 で は 「 表現 」 と いう 言葉 を わかり やすく する ため 、「 特徴 表現 学習 」 と いう 呼び 方 を する (* 注 36)。

と は いえ 、 ディープラーニング に よって 人工 知能 が 実現 する と いう の は 短絡 的 すぎる し 、 いま の ディープラーニング は 足り ない ところ だらけ だ 。

しかし 、 ディープラーニング が 「 単なる 一 手法 」 だ と 考える の は 、 これ また 技術 の 可能 性 を 見 誤って いる 。 ディープラーニング は 、 人工 知能 の 分野 で これ まで 解け なかった 「 特徴 表現 を コンピュータ 自ら が 獲得 する 」 と いう 問題 に ひと つ の 解 を 提示 した 。 つまり 、 大きな 壁 に ひと つ の 穴 を 穿った と いう こと である 。 これ が アリ の 一 穴 と なり 、 ここ から 連鎖 的に ブレーク スルー が 起こって いく か どう か が 、 今後 注目 す べき 点 である 。

2012 年 の 衝撃 的な コンペティション 以来 、 ディープラーニング に 関する トピック は ちょっと した バブル 状態 に なって いる こと は 序章 で 述べた 。

巨額の キャッシュ フロー を 抱えた ネット 界 の 巨人 たち が こぞって 人工 知能 に 巨額の 投資 を 開始 して いる 。 世界 中 の 熱い 視線 が 注が れる ディープラーニング と は 何 か 。 この 章 で は 、 それ を くわしく 紹介 し たい 。 前 章 で 3 層 の ニューラルネットワーク を 紹介 した が 、 それ を さらに 何 層 に も 深く ( ディープ に ) 重ねて いく 。

人間 の 脳 は 何 層 に も 重なった 構造 を して おり 、 ニューラルネットワーク の 研究 の 初期 の ころ から 、 深い 層 の ニューラルネットワーク を つくる こと は 当然の 試み と して 行わ れて きた 。

ところが 、 どう やって も うまく いか なかった 。

3 層 の ニューラルネットワーク だ と うまく いく のである から 、4 層 、5 層 と すれば もっと よく なる はずである ( 実際 、 隠れ 層 の ニューロン の 数 を 一定 と すれば 、 層 を 重ねる ほど 自由 度 は 上がり 、 ニューラルネットワーク で 表現 できる 関数 の 種類 は 、 層 を 重ねれば 重ねる ほど 増える )。

ところが 、 やって みる と そう なら なかった 。 精度 が 上がら ない のだ 。

なぜ か と いう と 、 深い 層 だ と 誤差 逆 伝播 が 、 下 の ほう まで 届か ない から だ (* 注 37)。

上司 の 判断 が よかった か どう か で 、 部下 と の 関係 を 強める か 弱める かして 修正 する 、 これ を 階層 を 順番 に 下って やって いけば よい と いう の が 誤差 逆 伝播 だった が 、 組織 の 階層 が 深く なり すぎる と 、 一 番 上 の 上司 の 判断 が よかった か 悪かった か と いう こと が 、 末端 の 従業 員 まで 到達 する ころ に は 、 ほとんど 影響 が ゼロ に なって しまう のだ 。

ディープラーニング は 、 その 多層 の ニューラルネットワーク を 実現 した 。

どう やって 実現 して いる のだろう か 。

ディープラーニング が 従来 の 機械 学習 と は 大きく 異なる 点 が 2 点 ある 。

1 つ は 、1 層 ずつ 階層 ごと に 学習 して いく 点 、 もう 1 つ は 、 自己 符号 化 器 ( オートエンコーダー ) と いう 「 情報 圧縮 器 」 を 用いる こと だ (* 注 38)。

自己 符号 化 器 で は 、 少し 変わった 処理 を 行う 。

ニューラルネットワーク を つくる に は 、 正解 を 与えて 学習 さ せる 学習 フェーズ が 必要だった 。 その 場合 、 たとえば 、 手書き の 「3」 と いう 画像 を 見せれば 、 正解 データ と して 「3」 を 与える 。 ところが 、 自己 符号 化 器 で は 「 出力 」 と 「 入力 」 を 同じに する 。 どういう こと か と いう と 、 図 21 に ある ように 、「 手書き の 3」 の 画像 を 入力 して 、 正解 も 同じ 「 手書き の 3」 の 画像 と して 、 答え 合わせ を する のだ 。

「 手書き の 3」 の 画像 を 入力 して 、 これ が 3 です よ と 教える ので は なく 、「 手書き の 3」 の 画像 を 入力 して 、 答え は 同じ 「 手書き の 3」 の 画像 と 教える のだ 。

普通 に 考えれば 意味 は ない 。 わかり やすく 説明 する ため に 、 ちょっと 画像 の 話 を 離れて 、 日本 全国 の 天気 を 例 に しよう 。 「 今日 の 天気 は 、 北海道 は 晴れ 、 青森 は くもり 、……、 鹿児島 は 雨 、 沖縄 は 雨 」 と いった 具合 に 、 全国 47 都道府県 の 天気 の 情報 が ある と する 。 この とき 、 次の ゲーム を 考えて みる 。 チーム の 中 で 、1 人 に だけ 、 ある 1 日 の 日本 全国 47 都道府県 の 天気 ( 晴れ かくも りか 雨 か ) が 知ら さ れて い ます 。 これ を もう 1 人 の チーム メンバー に 伝え 、 その 人 が 47 都道府県 の 天気 の うち 、 何 個 を 正確に 答え られた か を 競い ます 。 この とき 、 手紙 を 渡して メッセージ を 伝え ます が 、 日本 全国 の うち 10 カ所 の 天気 だけ を 伝える こと が でき ます 。 その 10 カ所 の 天気 を もと に 、 もう 1 人 は 47 カ所 の 天気 を 予想 し ます 。 まず 、 単純に 北 から 順番 に 10 カ所 を 選んで みよう 。 数字 に する ため に 、 晴れ は 2 点 、 くもり は 1 点 、 雨 は 0 点 と しよう 。 すると 、

特徴 表現 ①:( 北海道 、 青森 、 岩手 、 宮城 、 秋田 、 山形 、 福島 、 茨城 、 栃木 、 群馬 )

=(2, 2, 2, 2, 2, 2, 1, 0, 1, 1)

と 手紙 に 書いて 渡せば よい こと に なる 。

この 手紙 を 受け取った 人 は 、 受け取った 地点 の 天気 から 、 そこ に 書か れて い ない 地点 の 天気 も 予想 して 、 結果 的に 全国 47 都道府県 の 天気 を 答える こと に なる 。 おそらく 、 この 「 特徴 表現 ①」 の 場合 、 北 日本 の 天気 は よく 再現 できて も 、 中部 や 西 日本 の 天気 は ハズレ まくる だろう 。

もっと いい 方法 は ない だろう か 。

基本 的な 考え 方 は こう だ 。 ある 県 が 晴れて いたら その 隣 の 県 は 晴れ だろう し 、 ある 県 が 雨 だったら その 隣 の 県 は 雨 の 確率 が 高い 。 東京 が 晴れ だったら 、 おそらく 千葉 も 晴れ だ 。 秋田 が 雨 なら おそらく 山形 も 雨 だ 。 したがって 、 これ を 2 つ と も 伝える の は 無駄 が 大きい 。

つまり 、 ある 地点 と 地点 の 間 に は 、「 どの くらい 天気 が 似て いる か 」 と いう 傾向 が ある はずだ 。

これ を うまく 使って 10 カ所 を 選んだ ほう が よい 。 つまり 、 日本 全国 の 天気 を 表す とき は 、「 特徴 表現 ①」 より も 「 特徴 表現 ②」 の ほう が よい 特徴 表現 と いえる 。 天気 の 情報 が 「 より 効果 的に 圧縮 して 詰め 込ま れて いる 」 と いう こと である 。

もう 少し よい 伝え 方 が ない か 、 考えて みよう 。

10 都道府県 を 選ぶ ので は なく 、 自分 で 勝手に エリア を つくって みて は どう だろう か 。

たとえば 、 東京 と 神奈川 、 埼玉 、 茨城 など を 集めて 、 その 天気 の 平均 を とって 、 関東 地方 の 天気 と いう こと に して 1 カ所 と 考えれば 、 もっと 正しく 伝わる ので は ない だろう か 。 そう する と 、 こういう 特徴 表現 の しかた も あり そうだ 。


人工 知能 は 人間 を 超える か Chapter 05 (1) じんこう|ちのう||にんげん||こえる||chapter Will Artificial Intelligence Surpass Humans Chapter 05 (1) L'intelligence artificielle dépassera-t-elle l'homme ? Chapitre 05 (1) A inteligência artificial ultrapassará o ser humano Capítulo 05 (1)

ディープラーニング が 新 時代 を 切り開く ||しん|じだい||きりひらく Deep Learning Opens a New Era

2012 年 、 人工 知能 研究 の 世界 に 衝撃 が 走った 。 とし|じんこう|ちのう|けんきゅう||せかい||しょうげき||はしった In 2012, the world of artificial intelligence research shocked.

世界 的な 画像 認識 の コンペティション 「 ILSVRC ( Imagenet Large Scale Visual Recognition Challenge )」 で 、 東京 大学 、 オックスフォード 大学 、 独 イェーナ 大学 、 ゼロックス など 名だたる 研究 機関 が 開発 した 人工 知能 を 抑えて 、 初 参加 の カナダ の トロント 大学 が 開発 した SuperVision が 圧倒 的な 勝利 を 飾った のだ 。 せかい|てきな|がぞう|にんしき|||ilsvrc|imagenet|large|scale|visual|recognition|challenge||とうきょう|だいがく|おっくすふぉーど|だいがく|どく||だいがく|||なだたる|けんきゅう|きかん||かいはつ||じんこう|ちのう||おさえて|はつ|さんか||かなだ||とろんと|だいがく||かいはつ||supervision||あっとう|てきな|しょうり||かざった| ILSVRC (Imagenet Large Scale Visual Recognition Challenge), a global image recognition competition SuperVision, developed by the University of Toronto, Canada, was the overwhelming winner, beating out artificial intelligence developed by such renowned research institutions as the University of Tokyo, Oxford University, the University of Jena, and Xerox Corporation.

この コンペ で は 、 ある 画像 に 写って いる の が ヨット な の か 、 花 な の か 、 動物 な の か 、 ネコ な の か を コンピュータ が 自動 で 当てる タスク が 課さ れ 、 その 正解 率 の 高 さ ( 実際 は エラー 率 の 低 さ ) を 競い 合う 。 |こんぺ||||がぞう||うつって||||よっと||||か||||どうぶつ||||ねこ|||||こんぴゅーた||じどう||あてる|||かさ|||せいかい|りつ||たか||じっさい||えらー|りつ||てい|||きそい|あう In this competition, a computer task is automatically applied to determine whether a certain image is a yacht, a flower, an animal or a cat, and the accuracy rate is high ( In fact, it competes for low error rates).

1000万 枚 の 画像 データ から 機械 学習 で 学習 し 、15万 枚 の 画像 を 使って テスト を して 、 正解 率 を 測定 する 。 よろず|まい||がぞう|でーた||きかい|がくしゅう||がくしゅう||よろず|まい||がぞう||つかって|てすと|||せいかい|りつ||そくてい| The system uses machine learning to learn from 10 million images, and tests 150,000 images to measure the rate of correct answers.

それ まで 、 画像 認識 と いう タスク で 機械 学習 を 用いる こと は 常識 であった が 、 機械 学習 の 際 に 用いる 特徴 量 の 設計 は 、 人間 の 仕事 であった 。 ||がぞう|にんしき|||||きかい|がくしゅう||もちいる|||じょうしき|||きかい|がくしゅう||さい||もちいる|とくちょう|りょう||せっけい||にんげん||しごと| Until then, it was common sense to use machine learning in the task of image recognition, but designing the features used in machine learning was a human task.

各 大学 ・ 研究 機関 は コンマ 何 % の 精度 で エラー 率 を 下げる ため に しのぎ を 削り 、 その ため に 、 画像 の 中 の こういう 特徴 に 注目 する と エラー 率 が 下がる ので は ない か と 試行 錯誤 を 重ねて きた 。 かく|だいがく|けんきゅう|きかん|||なん||せいど||えらー|りつ||さげる|||||けずり||||がぞう||なか|||とくちょう||ちゅうもく|||えらー|りつ||さがる||||||しこう|さくご||かさねて| Universities and research institutes are competing to reduce the error rate with a comma percentage accuracy, and for that reason, focusing on these features in the image may reduce the error rate through trial and error. Came .

機械 学習 と いって も 、 特徴 量 の 設計 は 、 長年 の 知識 と 経験 が もの を いう 職人 技 である 。 きかい|がくしゅう||||とくちょう|りょう||せっけい||ながねん||ちしき||けいけん|||||しょくにん|わざ| Even in machine learning, feature design is a craftsmanship that requires many years of knowledge and experience.

職人 技 に より 、 機械 学習 の アルゴリズム と 特徴 量 の 設計 が 少しずつ 進み 、1 年 かけて ようやく 1% エラー 率 が 下がる と いう 世界 だ 。 しょくにん|わざ|||きかい|がくしゅう||||とくちょう|りょう||せっけい||すこしずつ|すすみ|とし|||えらー|りつ||さがる|||せかい| It took a year of craftsmanship to gradually design machine learning algorithms and features, and finally the error rate was reduced by 1%. その 年 も エラー 率 26% 台 の 攻防 の はずだった ( 図 20 を 見る と 、1 位 、2 位 を 独占 した SuperVision を 除けば 、 エラー 率 26% 台 で いく つ も の チーム が 並んで いる の が わかる )。 |とし||えらー|りつ|だい||こうぼう|||ず||みる||くらい|くらい||どくせん||supervision||のぞけば|えらー|りつ|だい||||||ちーむ||ならんで|||| (Figure 20 shows that except for SuperVision, which finished in first and second place, there were several teams with error rates in the 26% range.)

ちなみに 、 自然 言語 処理 でも 検索 でも 、 人工 知能 技術 を 用いて 最後に コンマ 何 % と いう 性能 の 勝負 の 段階 に なる と 、 必ず この 職人 技 ( あるいは ヒューリスティック と 呼ば れる ) の かたまり に なって くる 。 |しぜん|げんご|しょり||けんさく||じんこう|ちのう|ぎじゅつ||もちいて|さいごに||なん|||せいのう||しょうぶ||だんかい||||かならず||しょくにん|わざ||||よば|||||| By the way, in both natural language processing and search, when it comes to the final stage of performance competition, which is a comma percentage, using artificial intelligence technology, it always becomes a mass of this craftsmanship (or heuristic).

研究 と して は あまり 面白く ない ところ だ 。 けんきゅう|||||おもしろく||| This is not a very interesting area for research. 実は 、 Siri の ような 「 音声 対話 システム 」 も 、 ワトソン の ような 「 質問 応答 システム 」 も 、 ほとんど この 段階 に 入って いて 、 研究 者 から する と 、「 やって も いい けど 大変な わりに あまり 未来 が ない 」 ように 思える 世界 である 。 じつは|siri|||おんせい|たいわ|しすてむ||わとそん|||しつもん|おうとう|しすてむ||||だんかい||はいって||けんきゅう|もの||||||||たいへんな|||みらい||||おもえる|せかい| In fact, "speech dialogue systems" like Siri and "question answering systems" like Watson are almost at this stage, and researchers say, "It's okay to do it, but the future is too much. It's a world that seems like "no." その 世界 で 少しずつ 性能 を 上げて いく に は 、 気 の 遠く なる ような 努力 が 要求 さ れる 。 |せかい||すこしずつ|せいのう||あげて||||き||とおく|||どりょく||ようきゅう|| In order to improve the performance little by little in the world, it is necessary to make a daunting effort. 文字通り 「 桁違い 」 の 勝利 だ 。 もじどおり|けたちがい||しょうり| It's literally an "order of magnitude" victory. これ に は 長年 、 画像 認識 の 研究 を 進めて きた ほか の 研究 者 も 度肝 を 抜か れた 。 |||ながねん|がぞう|にんしき||けんきゅう||すすめて||||けんきゅう|もの||どぎも||ぬか| Other researchers who have been conducting research on image recognition for many years were also surprised at this.

何 が トロント 大学 に 勝利 を もたらした の か 。 なん||とろんと|だいがく||しょうり|||| What brought the University of Toronto to victory?

その 勝因 は 同 大学 教授 ジェフリー ・ ヒントン 氏 が 中心 に なって 開発 した 新しい 機械 学習 の 方法 「 ディープラーニング ( 深層 学習 )」 だった 。 |しょういん||どう|だいがく|きょうじゅ|||うじ||ちゅうしん|||かいはつ||あたらしい|きかい|がくしゅう||ほうほう||しんそう|がくしゅう| The reason for the victory was "deep learning," a new machine learning method developed mainly by Professor Geoffrey Hinton of the same university. El motivo de la victoria fue el "aprendizaje profundo", un nuevo método de aprendizaje automático desarrollado principalmente por el profesor Geoffrey Hinton de la misma universidad.

ディープラーニング の 研究 自体 は 2006 年 ごろ から 始まって いる が 、 それ まで 画像 認識 の 各 研究 者 が 培って きた ノウハウ と は まったく 別の ところ から 参入 して 、 いきなり トップ に 躍り出た のだ から 、 その 衝撃 たる や 、 大変な もの だった 。 ||けんきゅう|じたい||とし|||はじまって|||||がぞう|にんしき||かく|けんきゅう|もの||つちかって||のうはう||||べつの|||さんにゅう|||とっぷ||おどりでた||||しょうげき|||たいへんな|| Deep learning research itself began around 2006, but it was shocking to see that it suddenly jumped to the top when it entered from a place completely different from the know-how cultivated by each researcher in image recognition. It was a tough one.

画像 認識 の 研究 者 の 中 に は 、「 もう 研究 者 と して やって いけ ない ので は ない か 」 と 危機 感 を 覚えた 人 も 少なく ない と 聞いて いる 。 がぞう|にんしき||けんきゅう|もの||なか||||けんきゅう|もの|||||||||||きき|かん||おぼえた|じん||すくなく|||きいて| Some image recognition researchers wonder if they will never be able to work as researchers again. I have heard that not a few people have felt a sense of crisis.

ディープラーニング は 、 データ を もと に 、 コンピュータ が 自ら 特徴 量 を つくり 出す 。 ||でーた||||こんぴゅーた||おのずから|とくちょう|りょう|||だす Deep learning uses data as the basis for the computer to create features on its own.

人間 が 特徴 量 を 設計 する ので は なく 、 コンピュータ が 自ら 高次 の 特徴 量 を 獲得 し 、 それ を もと に 画像 を 分類 できる ように なる (* 注 35)。 にんげん||とくちょう|りょう||せっけい|||||こんぴゅーた||おのずから|こうじ||とくちょう|りょう||かくとく||||||がぞう||ぶんるい||||そそ Rather than humans designing features, computers will be able to acquire higher-order features and classify images based on them (* Note 35). ディープラーニング に よって 、 これ まで 人間 が 介在 し なければ なら なかった 領域 に 、 ついに 人工 知能 が 一 歩 踏み込んだ のだ 。 |||||にんげん||かいざい|||||りょういき|||じんこう|ちのう||ひと|ふ|ふみこんだ| With deep learning, artificial intelligence has finally taken a step into the realm that humans had to intervene in the past.

私 は 、 ディープラーニング を 「 人工 知能 研究 に おける 50 年 来 の ブレーク スルー 」 と 言って いる 。 わたくし||||じんこう|ちのう|けんきゅう|||とし|らい|||するー||いって| I see deep learning as "a 50-year breakthrough in artificial intelligence research. The "I" in "I" is the same as the "I" in "I".

もう 少し 正確 を 期す なら 、 第 2、 第 3、 そして 第 4 章 で 見て きた ような 、 人工 知能 の 主要な 成果 は ほとんど 人工 知能 の 黎明 期 、 すなわち 1956 年 から の 最初の 10 年 ないしは 20 年 の 間 に できて いる 。 |すこし|せいかく||きす||だい|だい||だい|しょう||みて|||じんこう|ちのう||しゅような|せいか|||じんこう|ちのう||れいめい|き||とし|||さいしょの|とし||とし||あいだ||| To be a little more accurate, as we have seen in Chapters 2, 3, and 4, most of the major achievements of artificial intelligence are in the early days of artificial intelligence, the first 10 or 20 years from 1956. It is made between. その後 いく つ か の 大きな 発明 は あった もの の 、 どちら か と いえば 、「 マイナー チェンジ 」 であった 。 そのご|||||おおきな|はつめい|||||||||まいなー|ちぇんじ| There have been some major inventions since then, but they have been more like "minor changes. The first time the company was in the U.S., it was in the U.S.

しかし 、 ディープラーニング に 代表 さ れる 「 特徴 表現 学習 」 は 、 黎明 期 の 革新 的な 発明 ・ 発見 に 匹敵 する ような 大 発明 だ 。 |||だいひょう|||とくちょう|ひょうげん|がくしゅう||れいめい|き||かくしん|てきな|はつめい|はっけん||ひってき|||だい|はつめい| However, "feature expression learning" represented by deep learning is a great invention that is comparable to the innovative inventions and discoveries of the early days.

特徴 表現 を コンピュータ が 自ら つくり 出す こと は 、 それ くらい 大きな 飛躍 な のである 。 とくちょう|ひょうげん||こんぴゅーた||おのずから||だす|||||おおきな|ひやく|| It is such a big leap for a computer to create its own characteristic expressions. なお 、 通常 、 ディープラーニング は 「 表現 学習 ( representation learning )」 の ひと つ と さ れる が 、 本書 で は 「 表現 」 と いう 言葉 を わかり やすく する ため 、「 特徴 表現 学習 」 と いう 呼び 方 を する (* 注 36)。 |つうじょう|||ひょうげん|がくしゅう||||||||||ほんしょ|||ひょうげん|||ことば||||||とくちょう|ひょうげん|がくしゅう|||よび|かた|||そそ Deep learning is usually referred to as "representation learning. In this document, "expression" is used as one of To help you better understand the term "feature expression learning," we have created the "Feature Expression Learning" series. (*Note 36).

と は いえ 、 ディープラーニング に よって 人工 知能 が 実現 する と いう の は 短絡 的 すぎる し 、 いま の ディープラーニング は 足り ない ところ だらけ だ 。 ||||||じんこう|ちのう||じつげん||||||たんらく|てき|||||||たり|||| However, the realization of artificial intelligence by deep learning is too short-circuited, and the current deep learning is full of shortages.

しかし 、 ディープラーニング が 「 単なる 一 手法 」 だ と 考える の は 、 これ また 技術 の 可能 性 を 見 誤って いる 。 |||たんなる|ひと|しゅほう|||かんがえる|||||ぎじゅつ||かのう|せい||み|あやまって| However, thinking that deep learning is "just a method" is also a misunderstanding of the potential of the technique. ディープラーニング は 、 人工 知能 の 分野 で これ まで 解け なかった 「 特徴 表現 を コンピュータ 自ら が 獲得 する 」 と いう 問題 に ひと つ の 解 を 提示 した 。 ||じんこう|ちのう||ぶんや||||とけ||とくちょう|ひょうげん||こんぴゅーた|おのずから||かくとく||||もんだい|||||かい||ていじ| Deep learning is a field of artificial intelligence in which the computer itself acquires previously unsolvable "feature representations." The first is a solution to the question, "What is the best way to make the world a better place? つまり 、 大きな 壁 に ひと つ の 穴 を 穿った と いう こと である 。 |おおきな|かべ|||||あな||うがった|||| In other words, it was a hole in a great wall. これ が アリ の 一 穴 と なり 、 ここ から 連鎖 的に ブレーク スルー が 起こって いく か どう か が 、 今後 注目 す べき 点 である 。 ||あり||ひと|あな|||||れんさ|てきに||するー||おこって||||||こんご|ちゅうもく|||てん| Whether or not this will be the ant's hole from which a chain of breakthroughs will emerge is an issue to watch for in the future.

2012 年 の 衝撃 的な コンペティション 以来 、 ディープラーニング に 関する トピック は ちょっと した バブル 状態 に なって いる こと は 序章 で 述べた 。 とし||しょうげき|てきな||いらい|||かんする|||||ばぶる|じょうたい||||||じょしょう||のべた We noted in the introduction that the topic of deep learning has been in a bit of a bubble since the shock competition in 2012.

巨額の キャッシュ フロー を 抱えた ネット 界 の 巨人 たち が こぞって 人工 知能 に 巨額の 投資 を 開始 して いる 。 きょがくの|きゃっしゅ|ふろー||かかえた|ねっと|かい||きょじん||||じんこう|ちのう||きょがくの|とうし||かいし|| Internet giants with huge cash flows are all starting to invest huge amounts in artificial intelligence. 世界 中 の 熱い 視線 が 注が れる ディープラーニング と は 何 か 。 せかい|なか||あつい|しせん||そそが|||||なん| What is deep learning that draws a lot of attention from all over the world? この 章 で は 、 それ を くわしく 紹介 し たい 。 |しょう||||||しょうかい|| More on this in this chapter. 前 章 で 3 層 の ニューラルネットワーク を 紹介 した が 、 それ を さらに 何 層 に も 深く ( ディープ に ) 重ねて いく 。 ぜん|しょう||そう||||しょうかい||||||なん|そう|||ふかく|||かさねて| In the previous chapter, we introduced a three-layer neural network, but we will layer it deeper (deeper) in multiple layers.

人間 の 脳 は 何 層 に も 重なった 構造 を して おり 、 ニューラルネットワーク の 研究 の 初期 の ころ から 、 深い 層 の ニューラルネットワーク を つくる こと は 当然の 試み と して 行わ れて きた 。 にんげん||のう||なん|そう|||かさなった|こうぞう||||||けんきゅう||しょき||||ふかい|そう|||||||とうぜんの|こころみ|||おこなわ|| The human brain has many layers of structure, and since the early days of neural network research, it has been a natural experiment to create deep neural networks.

ところが 、 どう やって も うまく いか なかった 。 However, no matter what I did, it didn't work.

3 層 の ニューラルネットワーク だ と うまく いく のである から 、4 層 、5 層 と すれば もっと よく なる はずである ( 実際 、 隠れ 層 の ニューロン の 数 を 一定 と すれば 、 層 を 重ねる ほど 自由 度 は 上がり 、 ニューラルネットワーク で 表現 できる 関数 の 種類 は 、 層 を 重ねれば 重ねる ほど 増える )。 そう|||||||||そう|そう|||||||じっさい|かくれ|そう||||すう||いってい|||そう||かさねる||じゆう|たび||あがり|||ひょうげん||かんすう||しゅるい||そう||かさねれば|かさねる||ふえる A three-layer neural network works well, so a four-layer, five-layer should be even better (in fact, if the number of neurons in the hidden layer is constant, the more layers you have, the more freedom you have. , The types of functions that can be represented by a neural network increase as the layers are layered).

ところが 、 やって みる と そう なら なかった 。 However, when I tried it, it didn't happen. 精度 が 上がら ない のだ 。 せいど||あがら|| The accuracy is not improved.

なぜ か と いう と 、 深い 層 だ と 誤差 逆 伝播 が 、 下 の ほう まで 届か ない から だ (* 注 37)。 |||||ふかい|そう|||ごさ|ぎゃく|でんぱ||した||||とどか||||そそ The reason is that the error back propagation does not reach the lower part in the deep layer (* Note 37).

上司 の 判断 が よかった か どう か で 、 部下 と の 関係 を 強める か 弱める かして 修正 する 、 これ を 階層 を 順番 に 下って やって いけば よい と いう の が 誤差 逆 伝播 だった が 、 組織 の 階層 が 深く なり すぎる と 、 一 番 上 の 上司 の 判断 が よかった か 悪かった か と いう こと が 、 末端 の 従業 員 まで 到達 する ころ に は 、 ほとんど 影響 が ゼロ に なって しまう のだ 。 じょうし||はんだん|||||||ぶか|||かんけい||つよめる||よわめる||しゅうせい||||かいそう||じゅんばん||くだって||||||||ごさ|ぎゃく|でんぱ|||そしき||かいそう||ふかく||||ひと|ばん|うえ||じょうし||はんだん||||わるかった||||||まったん||じゅうぎょう|いん||とうたつ||||||えいきょう|||||| Depending on whether the boss's judgment was good or not, the relationship with the subordinates should be strengthened or weakened to correct it, and this should be done in order down the hierarchy. If the hierarchy gets too deep, the judgment of the top boss is good or bad, and by the time it reaches the end employees, the impact is almost zero.

ディープラーニング は 、 その 多層 の ニューラルネットワーク を 実現 した 。 |||たそう||||じつげん| Deep learning has realized that multi-layered neural network.

どう やって 実現 して いる のだろう か 。 ||じつげん|||| I wonder how they achieve this.

ディープラーニング が 従来 の 機械 学習 と は 大きく 異なる 点 が 2 点 ある 。 ||じゅうらい||きかい|がくしゅう|||おおきく|ことなる|てん||てん| Deep learning differs from conventional machine learning in two significant ways.

1 つ は 、1 層 ずつ 階層 ごと に 学習 して いく 点 、 もう 1 つ は 、 自己 符号 化 器 ( オートエンコーダー ) と いう 「 情報 圧縮 器 」 を 用いる こと だ (* 注 38)。 ||そう||かいそう|||がくしゅう|||てん||||じこ|ふごう|か|うつわ||||じょうほう|あっしゅく|うつわ||もちいる|||そそ One is to learn one layer at a time, and the other is to use an "information compressor" called an autoencoder (* Note 38).

自己 符号 化 器 で は 、 少し 変わった 処理 を 行う 。 じこ|ふごう|か|うつわ|||すこし|かわった|しょり||おこなう The self-coder performs a slightly different processing.

ニューラルネットワーク を つくる に は 、 正解 を 与えて 学習 さ せる 学習 フェーズ が 必要だった 。 |||||せいかい||あたえて|がくしゅう|||がくしゅう|||ひつようだった To create a neural network, a learning phase was necessary in which the correct solution is given and the neural network is learned. その 場合 、 たとえば 、 手書き の 「3」 と いう 画像 を 見せれば 、 正解 データ と して 「3」 を 与える 。 |ばあい||てがき||||がぞう||みせれば|せいかい|でーた||||あたえる In that case, for example, if you show a handwritten image of "3", you will be given "3" as the correct answer data. ところが 、 自己 符号 化 器 で は 「 出力 」 と 「 入力 」 を 同じに する 。 |じこ|ふごう|か|うつわ|||しゅつりょく||にゅうりょく||どうじに| However, in the self-encoder, the "output" and "input" are the same. どういう こと か と いう と 、 図 21 に ある ように 、「 手書き の 3」 の 画像 を 入力 して 、 正解 も 同じ 「 手書き の 3」 の 画像 と して 、 答え 合わせ を する のだ 。 ||||||ず||||てがき|||がぞう||にゅうりょく||せいかい||おなじ|てがき|||がぞう|||こたえ|あわせ||| As shown in Figure 21, this means that the "handwritten 3" Enter the image of "3" and the correct answer will be the same "3" in handwriting. The answer is to use the image as the image of the "real" world, and then match the answer to the question.

「 手書き の 3」 の 画像 を 入力 して 、 これ が 3 です よ と 教える ので は なく 、「 手書き の 3」 の 画像 を 入力 して 、 答え は 同じ 「 手書き の 3」 の 画像 と 教える のだ 。 てがき|||がぞう||にゅうりょく|||||||おしえる||||てがき|||がぞう||にゅうりょく||こたえ||おなじ|てがき|||がぞう||おしえる| Instead of entering an image of "handwritten 3" and telling it that this is a 3, enter an image of "handwritten 3" and telling it that the answer is the same "handwritten 3" image.

普通 に 考えれば 意味 は ない 。 ふつう||かんがえれば|いみ|| It makes no sense in the normal sense of the word. わかり やすく 説明 する ため に 、 ちょっと 画像 の 話 を 離れて 、 日本 全国 の 天気 を 例 に しよう 。 ||せつめい|||||がぞう||はなし||はなれて|にっぽん|ぜんこく||てんき||れい|| To explain it in an easy-to-understand manner, let's take a break from the image and take the example of the weather in Japan. 「 今日 の 天気 は 、 北海道 は 晴れ 、 青森 は くもり 、……、 鹿児島 は 雨 、 沖縄 は 雨 」 と いった 具合 に 、 全国 47 都道府県 の 天気 の 情報 が ある と する 。 きょう||てんき||ほっかいどう||はれ|あおもり|||かごしま||あめ|おきなわ||あめ|||ぐあい||ぜんこく|とどうふけん||てんき||じょうほう|||| It is said that there is information on the weather in 47 prefectures nationwide, such as "Today's weather is sunny in Hokkaido, cloudy in Aomori, ..., rain in Kagoshima, and rain in Okinawa." この とき 、 次の ゲーム を 考えて みる 。 ||つぎの|げーむ||かんがえて| At this point, let's consider the next game. チーム の 中 で 、1 人 に だけ 、 ある 1 日 の 日本 全国 47 都道府県 の 天気 ( 晴れ かくも りか 雨 か ) が 知ら さ れて い ます 。 ちーむ||なか||じん||||ひ||にっぽん|ぜんこく|とどうふけん||てんき|はれ|||あめ|||しら|||| You have to tell the weather conditions (sunny or rainy) of 47 prefectures in Japan for a certain day to one person in your team. これ を もう 1 人 の チーム メンバー に 伝え 、 その 人 が 47 都道府県 の 天気 の うち 、 何 個 を 正確に 答え られた か を 競い ます 。 |||じん||ちーむ|めんばー||つたえ||じん||とどうふけん||てんき|||なん|こ||せいかくに|こたえ||||きそい| Tell this to another team member and compete for how many of the 47 prefectures' weather they answered correctly. この とき 、 手紙 を 渡して メッセージ を 伝え ます が 、 日本 全国 の うち 10 カ所 の 天気 だけ を 伝える こと が でき ます 。 ||てがみ||わたして|めっせーじ||つたえ|||にっぽん|ぜんこく|||かしょ||てんき|||つたえる|||| You can give them a letter to send a message, but you can only give them the weather for 10 locations in Japan. その 10 カ所 の 天気 を もと に 、 もう 1 人 は 47 カ所 の 天気 を 予想 し ます 。 |かしょ||てんき|||||じん||かしょ||てんき||よそう|| Based on the weather in those 10 places, the other predicts the weather in 47 places. まず 、 単純に 北 から 順番 に 10 カ所 を 選んで みよう 。 |たんじゅんに|きた||じゅんばん||かしょ||えらんで| First, let's simply select 10 locations in order from the north. 数字 に する ため に 、 晴れ は 2 点 、 くもり は 1 点 、 雨 は 0 点 と しよう 。 すうじ|||||はれ||てん|||てん|あめ||てん|| To make it numeric, let 2 points be given for sunny, 1 point for cloudy, and 0 point for rainy. すると 、 Then ,

特徴 表現 ①:( 北海道 、 青森 、 岩手 、 宮城 、 秋田 、 山形 、 福島 、 茨城 、 栃木 、 群馬 ) とくちょう|ひょうげん|ほっかいどう|あおもり|いわて|みやぎ|あきた|やまがた|ふくしま|いばらき|とちぎ|ぐんま Characteristics (1): (Hokkaido, Aomori, Iwate, Miyagi, Akita, Yamagata, Fukushima, Ibaraki, Tochigi, Gunma)

=(2, 2, 2, 2, 2, 2, 1, 0, 1, 1) = (2, 2, 2, 2, 2, 2, 1, 0, 1, 1)

と 手紙 に 書いて 渡せば よい こと に なる 。 |てがみ||かいて|わたせば|||| All you have to do is write it in a letter and hand it over.

この 手紙 を 受け取った 人 は 、 受け取った 地点 の 天気 から 、 そこ に 書か れて い ない 地点 の 天気 も 予想 して 、 結果 的に 全国 47 都道府県 の 天気 を 答える こと に なる 。 |てがみ||うけとった|じん||うけとった|ちてん||てんき||||かか||||ちてん||てんき||よそう||けっか|てきに|ぜんこく|とどうふけん||てんき||こたえる||| The person who receives this letter predicts the weather at the point where it is not written from the weather at the point where it was received, and as a result, answers the weather at 47 prefectures nationwide. おそらく 、 この 「 特徴 表現 ①」 の 場合 、 北 日本 の 天気 は よく 再現 できて も 、 中部 や 西 日本 の 天気 は ハズレ まくる だろう 。 ||とくちょう|ひょうげん||ばあい|きた|にっぽん||てんき|||さいげん|||ちゅうぶ||にし|にっぽん||てんき|||| Probably, in the case of this "characteristic expression (1)", even if the weather in northern Japan can be reproduced well, the weather in central and western Japan will be lost.

もっと いい 方法 は ない だろう か 。 ||ほうほう|||| Is there a better way?

基本 的な 考え 方 は こう だ 。 きほん|てきな|かんがえ|かた||| The basic idea is this. ある 県 が 晴れて いたら その 隣 の 県 は 晴れ だろう し 、 ある 県 が 雨 だったら その 隣 の 県 は 雨 の 確率 が 高い 。 |けん||はれて|||となり||けん||はれ||||けん||あめ|||となり||けん||あめ||かくりつ||たかい If it rains in one prefecture, there is a high probability that it will rain in the next prefecture. 東京 が 晴れ だったら 、 おそらく 千葉 も 晴れ だ 。 とうきょう||はれ|||ちば||はれ| If Tokyo is fine, Chiba is probably fine, too. 秋田 が 雨 なら おそらく 山形 も 雨 だ 。 あきた||あめ|||やまがた||あめ| If it rains in Akita, it probably rains in Yamagata. したがって 、 これ を 2 つ と も 伝える の は 無駄 が 大きい 。 ||||||つたえる|||むだ||おおきい Therefore, it is wasteful to convey both of them.

つまり 、 ある 地点 と 地点 の 間 に は 、「 どの くらい 天気 が 似て いる か 」 と いう 傾向 が ある はずだ 。 ||ちてん||ちてん||あいだ|||||てんき||にて|||||けいこう||| In other words, there should be a tendency to say, "How similar is the weather?" Between points.

これ を うまく 使って 10 カ所 を 選んだ ほう が よい 。 |||つかって|かしょ||えらんだ||| You should use this to your advantage to select 10 locations. つまり 、 日本 全国 の 天気 を 表す とき は 、「 特徴 表現 ①」 より も 「 特徴 表現 ②」 の ほう が よい 特徴 表現 と いえる 。 |にっぽん|ぜんこく||てんき||あらわす|||とくちょう|ひょうげん|||とくちょう|ひょうげん|||||とくちょう|ひょうげん|| In other words, to describe the weather throughout Japan, use "Feature Expression 1". Characteristic Expression (2)" than "Characteristic Expression (3)". is a better characterization. 天気 の 情報 が 「 より 効果 的に 圧縮 して 詰め 込ま れて いる 」 と いう こと である 。 てんき||じょうほう|||こうか|てきに|あっしゅく||つめ|こま|||||| Weather information is "compressed and packed more effectively." This means that the company is a "good" company.

もう 少し よい 伝え 方 が ない か 、 考えて みよう 。 |すこし||つたえ|かた||||かんがえて| Let's see if there is a better way to communicate.

10 都道府県 を 選ぶ ので は なく 、 自分 で 勝手に エリア を つくって みて は どう だろう か 。 とどうふけん||えらぶ||||じぶん||かってに|えりあ||||||| Instead of selecting 10 prefectures, why don't you create your own area?

たとえば 、 東京 と 神奈川 、 埼玉 、 茨城 など を 集めて 、 その 天気 の 平均 を とって 、 関東 地方 の 天気 と いう こと に して 1 カ所 と 考えれば 、 もっと 正しく 伝わる ので は ない だろう か 。 |とうきょう||かながわ|さいたま|いばらき|||あつめて||てんき||へいきん|||かんとう|ちほう||てんき||||||かしょ||かんがえれば||まさしく|つたわる||||| For example, it would be more accurate to consider Tokyo, Kanagawa, Saitama, Ibaraki, etc. as one location and average the weather for the Kanto region. そう する と 、 こういう 特徴 表現 の しかた も あり そうだ 。 ||||とくちょう|ひょうげん|||||そう だ Then, there may be a way to express these characteristics.