人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 05 (2)

人工知能は人間を超えるか Chapter 05 (2)

日本全国の天気は、47 都道府県の天気の「平均」をとったものである。

東北の天気は、東北地方の県の天気の平均、九州は九州の平均だ。

晴れを２点、くもりを１点、雨を０点としたので、各地点の点数の平均を計算すればよい。

その結果、たとえば、ある日の天気は次のように表される。

たとえば、香川県であれば、全国と四国に当てはまるので、全国１・８と四国０・８を足し合わせて平均をとり、１・３となる。

四捨五入して１だから、くもりと予想する。

実は、「特徴表現 ③」のように表すほうが、「特徴表現 ②」より正確に日本全体の天気を伝えることができる。

コンピュータは、データ間の相関関係を分析することで、「特徴表現 ③」のようなものを自動的に見つけることができる。

つまり、「東北」とか「関東」といった分け方は知らなくても、天気の関連が高いということから、地理的なまとまりを勝手に見つけることができるのである（＊注 40）。

そして、その中でも、最も適した特徴表現を自動的に見つけ出すことができる。

もう少し専門的な用語で言うと、各県の天気の間に「情報量」があるときに、これを利用する、ということだ。

ある県の天気が晴れであることが、ほかの県の天気に何らかの影響があるとき、「情報量がある」という。

コンピュータは、全国 47 都道府県の天気データを見ることで、勝手に「東北地方」や「日本海側」という概念を生成することができる。

そのときにカギとなるのが「天気をいかに少ない情報で伝え、正確に再現することができるか」ということなのである。

入力と出力を同じにすると、隠れ層のところに、その画像の特徴を表すものが自然に生成される。

「東北地方」や「日本海側」が自然に生成されるのと同じように、適切な特徴表現がつくられる。

１５０ページの図 21〔＊〕のように、入力層と出力層に比べて、真ん中の隠れ層が細くくびれているので（＊注 41）、入力はいったん「細いところを通って」出力される。

そのときに、出力が、もとの入力とできるだけ近いものになるように（専門的な言い方をすると「復元エラー」が最小になるように）重みづけが修正されることになる。

天気の例で、もともとの 47 カ所の天気の情報から、10 カ所だけの天気の情報を伝えることで、47 カ所の天気の正解率を上げたいのと同じだ。出力がもとの入力とできるだけ近くになるようにするには、どうしたらよいだろうか。

「情報量」を使えばよいのである。

たとえば、ある画素が黒のとき、その隣の画素も必ず黒なのだとしたら、その２つの画素はまとめて扱ってしまえばよい。

つまり、その２つの画素を別々の数字として隠れ層に渡すのではなく、「その２つの数字がまとめて黒か白か」を隠れ層に渡せばよいのだ。

関東地方の天気は似ているからまとめて扱ってしまえ、というのと同じである。

どこをまとめて扱ったら結果（出力）に影響しないのか、逆にどこをまとめて扱うと大きく異なる結果（出力）が出てしまうのか、コンピュータは圧縮ポイントを試行錯誤して、自分で学習することになる。

つまり、「復元エラー」が最小になるような、適切な特徴表現を探すわけである。

前章で登場した 28 ピクセル ×28 ピクセル＝７８４ピクセルの画像の例では、入力層が７８４次元、出力層も７８４次元あって、真ん中の隠れ層がたとえば１００次元あるようなイメージだ。

７８４次元を１００次元に圧縮するために、たとえば、「左下のこの位置が黒くなっていれば、その周辺の 10 ピクセルはまとめて黒くしても結果（出力）に影響しない」とわかれば、10 ピクセルの情報を１ピクセルで代用できる。

ただひたすら同じ画像のエンコーディング（圧縮）とデコーディング（復元・再構築）を繰り返すうちに、いかに効率的に少ない情報量を経由してもとに戻せるかを学習していく。

そして、答え合わせの成績がよいときに、隠れ層にできているものが、よい特徴表現なのだ。

数学や統計にくわしい人であればピンとくるかもしれないが、自己符号化器でやっていることは、アンケート結果の分析などでおなじみの「主成分分析」と同じである。

主成分分析とは、たくさんの変数を、少数個の無相関な合成変数に縮約する方法で、マーケティングの世界でよく使われる。

実際、線形な重みの関数を用い、最小二乗誤差を復元エラーの関数とすれば、主成分分析と一致する（＊注 42）。

自己符号化器の場合は、後述するようにさまざまな形でノイズを与え、それによって非常に頑健に主成分を取り出すことができる。

そのことが「ディープに」、つまり多階層にすることを可能にし、その結果、主成分分析では取り出せないような高次の特徴量を取り出すことができる。

１段目の隠れ層を２段目の入力（および正解データ）として、コンピュータに学習させるのだ。

図 22 がそれに当たる。

この１００次元のデータを同じように入力とする。

そのため、隠れ層を仮に 20 個とすると、入力層の１００次元のデータをいったん 20 個にまで圧縮し、もう一度１００次元のノードに復元するわけである。

２段目の隠れ層には、１段目の隠れ層で得られたものをさらに組み合わせたものが出てくるから、さらに高次の特徴量が得られる（もとの入力の画像の次元に戻すと、さらに抽象化された画像が出てくることになる）。これを、さらに３段目の入力（および正解データ）として用い、得られた隠れ層を、さらに４段目の入力とする。そうして次々と繰り返して、多階層にしていくわけである。

この多階層のディープラーニングの仕組みを図にしたのが図 23 だ。

真ん中の隠れ層を上に引っ張り出し（②）、入力層と出力層は同じだから便宜的に重ねて（③）、これを何層にもわたって重ねると、④ のタワーのようになる。

一番下から入力した画像は、上に上がるにつれて抽象度を増し、高次の特徴量が生成される。

そして「３」なら「３」という数字そのものの概念に近くなる。

個別・具体的な、さまざまな「手書きの３」を読み込み、４、５回抽象化を繰り返すと、現れるのは「典型的な３」だ。

これこそ「３の概念」にほかならない。

教師あり学習は非常に少ないサンプル数で可能になる。

相関のあるものをひとまとまりにすることで特徴量を取り出し、さらにそれを用いて高次の特徴量を取り出す。

そうした高次の特徴量を使って表される概念を取り出す。

人間がぼーっと景色を見ているときにも、実はこんな壮大な処理が脳の中で行われているのである。おそらく、生後すぐの赤ちゃんは、目や耳から入ってくる情報の洪水の中から、何と何が相関し、何が独立な成分かという「演算」をすごいスピードで行っているはずである。

情報の洪水の中から、予測しては答え合わせを繰り返すことでさまざまな特徴量を発見し、やがて「お母さん」という概念を発見し、まわりにある「もの」を見つけ、それらの関係を学ぶ。そうして少しずつ世界を学習していく。

一般的な画像を扱うので、当然、手書き文字の場合より大変だ。

用いるニューラルネットワークは、より巨大になる。

下のほうの層では、点やエッジなどの画像によくある「模様」を認識するだけだが、上にいくと、丸や三角などの形が認識できるようになる。

そしてそれらの組み合わせとして、丸い形（顔）の中に２個の点（目）があって、その真ん中に縦に一筋線が入って（鼻）といったように、複雑なパーツを組み合わせた特徴量が得られている。その結果、上のほうの層では、「人間の顔」らしきものや、「ネコの顔」らしきものが出てくる。

つまり、ユーチューブから取り出した画像を大量に見せてディープラーニングにかけると、コンピュータが特徴量を取り出し、自動的に「人間の顔」や「ネコの顔」といった概念を獲得するのだ。

コンピュータが概念（シニフィエ、意味されるもの）を自力でつくり出せれば、その段階で「これは人間だ」「これはネコだ」という記号表現（シニフィアン、意味するもの）を当てはめてやるだけで、コンピュータはシニフィアンとシニフィエが組み合わさったものとしての記号を習得する。

ここまでくれば、次からは、人間やネコの画像を見ただけで、「これは人間だ」「これはネコだ」と判断できることになる。

ただし、この研究では、１０００万枚の画像を扱うために、ニューロン同士のつながりの数が１００億個という巨大なニューラルネットワークを使い、１０００台のコンピュータ（１万６０００個のプロセッサ）を３日間走らせている。

膨大な計算量である。

ディープラーニングの場合、この教師なし学習を、教師あり学習的なアプローチでやっている。

自己符号化器は、本来なら教師が与える正解に当たる部分にもとのデータを入れることによって、入力したデータ自身を予測する。

そして、さまざまな特徴量を生成する。

それが、教師あり学習で教師なし学習をやっているということである。

ところが、少し理解が難しいのが、そうして得られた特徴量を使って、最後に分類するとき、つまり、「その特徴量を有するのはネコだ」とか「それはイヌだ」という正解ラベルを与えるときは、「教師あり学習」になることだ。「教師あり学習的な方法による教師なし学習」で特徴量をつくり、最後に何か分類させたいときは「教師あり学習」になるのである。結局、教師あり学習をするのなら、ディープラーニングをやってもあまり意味がないように思うかもしれないが、この違いはきわめて大きい。

たとえば、ディープラーニングによって、天気の情報から、「日本海側」の概念がすでにできているのであれば、「島根、鳥取、福井、石川、富山、新潟、山形、秋田などの県のことを日本海側と言います」と教えるだけで、「ああ、これらのかたまりは『日本海側』と呼べばいいのね」とすぐにわかる。ところが、こうした概念ができていなければ、「島根、鳥取 ……、あれ？

兵庫は入るんだっけ？」などと覚えるのが大変である。

「山陰というのは、島根、鳥取、あるいは山口県北部や京都北部も含まれことがある」と聞くと、「ああそうですよね、だってそこらへん、天気似ていますからね」とすぐに理解することができる。コンピュータにとっては、「教師データ」を必要とする度合いがまったく違うのだ。

世の中の「相関する事象」の相関をあらかじめとらえておくことによって、現実的な問題の学習は早くなる。

なぜなら、相関があるということは、その背景に何らかの現実の構造が隠れているはずだからである。

ところが、その実、ディープラーニングでやっていることは、主成分分析を非線形にし、多段にしただけである。

つまり、データの中から特徴量や概念を見つけ、そのかたまりを使って、もっと大きなかたまりを見つけるだけである。

Try LingQ and learn from Netflix shows, Youtube videos, news articles and more.

人工知能は人間を超えるか Chapter 05 (2) じんこう|ちのう||にんげん||こえる||chapter Will Artificial Intelligence Surpass Humans Chapter 05 (2) L'intelligence artificielle dépassera-t-elle l'homme ? Chapitre 05 (2) A inteligência artificial ultrapassará o ser humano Capítulo 05 (2)

日本全国の天気は、47 都道府県の天気の「平均」をとったものである。にっぽん|ぜんこく||てんき||とどうふけん||てんき||へいきん|||| The weather throughout Japan is the “average” of the weather in 47 prefectures.

東北の天気は、東北地方の県の天気の平均、九州は九州の平均だ。とうほく||てんき||とうほく|ちほう||けん||てんき||へいきん|きゅうしゅう||きゅうしゅう||へいきん| The weather in Tohoku is the average of the weather in the prefectures of Tohoku, and Kyushu is the average of Kyushu.

晴れを２点、くもりを１点、雨を０点としたので、各地点の点数の平均を計算すればよい。はれ||てん|||てん|あめ||てん||||かく|ちてん||てんすう||へいきん||けいさん|| Since it was 2 points for clear weather, 1 point for cloudiness, and 0 point for rain, it is sufficient to calculate the average score for each point.

その結果、たとえば、ある日の天気は次のように表される。 |けっか|||ひ||てんき||つぎ|||あらわさ| As a result, for example, the weather of a certain day is expressed as follows.

たとえば、香川県であれば、全国と四国に当てはまるので、全国１・８と四国０・８を足し合わせて平均をとり、１・３となる。 |かがわ|けん||ぜんこく||しこく||あてはまる||ぜんこく||しこく||たし|あわせて|へいきん|||| For example, in Kagawa Prefecture, this applies to the whole country and Shikoku.

四捨五入して１だから、くもりと予想する。ししゃごにゅう||||||よそう| Since it is 1 after rounding off, I expect it to be cloudy.

実は、「特徴表現 ③」のように表すほうが、「特徴表現 ②」より正確に日本全体の天気を伝えることができる。じつは|とくちょう|ひょうげん|||あらわす|||とくちょう|ひょうげん||せいかくに|にっぽん|ぜんたい||てんき||つたえる||| In fact, "Characteristic Expression (3)" It is better to express it in the form of "Feature expression 2. More accurate weather information for the whole of Japan.

コンピュータは、データ間の相関関係を分析することで、「特徴表現 ③」のようなものを自動的に見つけることができる。こんぴゅーた||でーた|あいだ||そうかん|かんけい||ぶんせき||||とくちょう|ひょうげん|||||じどう|てきに|みつける||| By analyzing correlations between data, computers can create "feature expressions (3). The system can automatically find things like

つまり、「東北」とか「関東」といった分け方は知らなくても、天気の関連が高いということから、地理的なまとまりを勝手に見つけることができるのである（＊注 40）。 |とうほく|||かんとう|||わけ|かた||しら|||てんき||かんれん||たかい|||||ちり|てきな|||かってに|みつける|||||そそ In other words, "Northeast." and "Kanto Even if we do not know how to divide the weather, we can find a geographical grouping on our own because of the high degree of weather association (*Note 40).

そして、その中でも、最も適した特徴表現を自動的に見つけ出すことができる。 ||なか||もっとも|てきした|とくちょう|ひょうげん||じどう|てきに|みつけだす||| It can then automatically find the most suitable feature expression among them.

もう少し専門的な用語で言うと、各県の天気の間に「情報量」があるときに、これを利用する、ということだ。 |すこし|せんもん|てきな|ようご||いう||かく|けん||てんき||あいだ||じょうほう|りょう|||||||りよう||||| In more technical terms, the "amount of information" between each prefecture's weather. The idea is to use it when there is a

ある県の天気が晴れであることが、ほかの県の天気に何らかの影響があるとき、「情報量がある」という。 |けん||てんき||はれ||||||けん||てんき||なんらか||えいきょう||||じょうほう|りょう|||| When the fact that the weather is fine in one prefecture has some influence on the weather in other prefectures, it is "informative. The following is a brief description of the process

コンピュータは、全国 47 都道府県の天気データを見ることで、勝手に「東北地方」や「日本海側」という概念を生成することができる。こんぴゅーた||ぜんこく|とどうふけん||てんき|でーた||みる|||かってに|とうほく|ちほう||にっぽん|うみ|がわ|||がいねん||せいせい|||| By looking at weather data for 47 prefectures across the country, the computer will automatically calculate the "Touhoku Region" and "Tohoku Region". and "Sea of Japan side The concept of "a" can be generated.

そのときにカギとなるのが「天気をいかに少ない情報で伝え、正確に再現することができるか」ということなのである。 |||かぎ|||||てんき|||すくない|じょうほう||つたえ|せいかくに|さいげん|||||||||| The key is to be able to accurately reproduce the weather with the least amount of information. This is what we are trying to do.

入力と出力を同じにすると、隠れ層のところに、その画像の特徴を表すものが自然に生成される。にゅうりょく||しゅつりょく||どうじに|||かくれ|そう|||||がぞう||とくちょう||あらわす|||しぜんに|せいせい|| When the input and output are the same, something representing the image's features is naturally generated in the hidden layer.

「東北地方」や「日本海側」が自然に生成されるのと同じように、適切な特徴表現がつくられる。とうほく|ちほう||にっぽん|うみ|がわ||しぜんに|せいせい|||||おなじ||てきせつな|とくちょう|ひょうげん||| "Northeast Region" and "Sea of Japan side The appropriate feature representation is created in the same way that the

１５０ページの図 21〔＊〕のように、入力層と出力層に比べて、真ん中の隠れ層が細くくびれているので（＊注 41）、入力はいったん「細いところを通って」出力される。ぺーじ||ず|||にゅうりょく|そう||しゅつりょく|そう||くらべて|まんなか||かくれ|そう||ほそく||||そそ|にゅうりょく|||ほそい|||かよって|しゅつりょく|| As shown in Figure 21 [*] on page 150, the hidden layer in the middle is narrower than the input and output layers (*Note 41), so that the input once "passes through the thin layer." The output is

そのときに、出力が、もとの入力とできるだけ近いものになるように（専門的な言い方をすると「復元エラー」が最小になるように）重みづけが修正されることになる。 |||しゅつりょく||||にゅうりょく||||ちかい|||||せんもん|てきな|いい|かた||||ふくげん|えらー||さいしょう||||おもみ|||しゅうせい||||| The output should then be as close as possible to the original input (in technical terms, a "restoration error"). The weighting will be modified to minimize

天気の例で、もともとの 47 カ所の天気の情報から、10 カ所だけの天気の情報を伝えることで、47 カ所の天気の正解率を上げたいのと同じだ。てんき||れい||||かしょ||てんき||じょうほう||かしょ|||てんき||じょうほう||つたえる|||かしょ||てんき||せいかい|りつ||あげたい|||おなじだ In the weather example, you want to increase the percentage of correct answers for the 47 weather stations by giving information for only 10 stations from the original 47 stations. 出力がもとの入力とできるだけ近くになるようにするには、どうしたらよいだろうか。しゅつりょく||||にゅうりょく||||ちかく||||||||||| How can we make the output as close as possible to the original input?

「情報量」を使えばよいのである。じょうほう|りょう||つかえば|| "Volume of information" The same is true for the "M" and "H".

たとえば、ある画素が黒のとき、その隣の画素も必ず黒なのだとしたら、その２つの画素はまとめて扱ってしまえばよい。 ||がそ||くろ||||となり||がそ||かならず|くろ||||||||がそ|||あつかって|| For example, if a pixel is black and its neighbor is also necessarily black, then the two pixels should be treated together.

つまり、その２つの画素を別々の数字として隠れ層に渡すのではなく、「その２つの数字がまとめて黒か白か」を隠れ層に渡せばよいのだ。 ||||がそ||べつべつの|すうじ|||かくれ|そう||わたす|||||||すうじ|||くろ||しろ|||かくれ|そう||わたせば|| In other words, instead of passing the two pixels as separate numbers to the hidden layer, "the two numbers are black or white together. The only way to do this is to give the hidden layer of the

関東地方の天気は似ているからまとめて扱ってしまえ、というのと同じである。かんとう|ちほう||てんき||にて||||あつかって||||||おなじである The weather in the Kanto region is similar enough that it should be treated as one.

どこをまとめて扱ったら結果（出力）に影響しないのか、逆にどこをまとめて扱うと大きく異なる結果（出力）が出てしまうのか、コンピュータは圧縮ポイントを試行錯誤して、自分で学習することになる。 |||あつかったら|けっか|しゅつりょく||えいきょう|||||ぎゃくに||||あつかう||おおきく|ことなる|けっか|しゅつりょく||でて||||こんぴゅーた||あっしゅく|ぽいんと||しこう|さくご||じぶん||がくしゅう|||| The computer learns by trial and error which compression points will not affect the results (output) if they are treated together, and which points will produce very different results (output) if they are treated together.

つまり、「復元エラー」が最小になるような、適切な特徴表現を探すわけである。 |ふくげん|えらー||さいしょう||||てきせつな|とくちょう|ひょうげん||さがす| That is, "Restore Error". The search for the appropriate feature expression minimizes the

前章で登場した 28 ピクセル ×28 ピクセル＝７８４ピクセルの画像の例では、入力層が７８４次元、出力層も７８４次元あって、真ん中の隠れ層がたとえば１００次元あるようなイメージだ。ぜん|しょう||とうじょう||||||がぞう||れい|||にゅうりょく|そう||じげん|しゅつりょく|そう||じげん||まんなか||かくれ|そう|||じげん|||いめーじ| In the example of the 28 pixel × 28 pixel = 784 pixel image that appeared in the previous chapter, the input layer has 784 dimensions, the output layer also has 784 dimensions, and the hidden layer in the middle has, for example, 100 dimensions.

７８４次元を１００次元に圧縮するために、たとえば、「左下のこの位置が黒くなっていれば、その周辺の 10 ピクセルはまとめて黒くしても結果（出力）に影響しない」とわかれば、10 ピクセルの情報を１ピクセルで代用できる。じげん||じげん||あっしゅく|||||ひだり|した|||いち||くろく||||しゅうへん|||||くろく|||けっか|しゅつりょく||えいきょう|||||||じょうほう||||だいよう| To compress 784 dimensions into 100 dimensions, for example, "If this position in the lower left is blacked out, the surrounding 10 pixels can be blacked out together without affecting the result (output). If we know that the information in 10 pixels can be substituted with 1 pixel, then we can use the information in 1 pixel.

ただひたすら同じ画像のエンコーディング（圧縮）とデコーディング（復元・再構築）を繰り返すうちに、いかに効率的に少ない情報量を経由してもとに戻せるかを学習していく。 ||おなじ|がぞう|||あっしゅく|||ふくげん|さい|こうちく||くりかえす||||こうりつ|てきに|すくない|じょうほう|りょう||けいゆ||||もどせる|||がくしゅう|| As they continue to encode (compress) and decode (restore and reconstruct) the same image over and over again, they learn how to efficiently restore the original image using a smaller amount of information.

そして、答え合わせの成績がよいときに、隠れ層にできているものが、よい特徴表現なのだ。 |こたえ|あわせ||せいせき|||||かくれ|そう|||||||とくちょう|ひょうげん|| And when the answer grades are good, the hidden layers are the good feature expressions.

数学や統計にくわしい人であればピンとくるかもしれないが、自己符号化器でやっていることは、アンケート結果の分析などでおなじみの「主成分分析」と同じである。すうがく||とうけい|||じん||ぴんと||||||じこ|ふごう|か|うつわ||||||あんけーと|けっか||ぶんせき|||||おも|せいぶん|ぶんせき||おなじである As those who are familiar with mathematics and statistics may know, what the self-coder is doing is called "principal component analysis," which is familiar to those who analyze survey results. The same is true as for

主成分分析とは、たくさんの変数を、少数個の無相関な合成変数に縮約する方法で、マーケティングの世界でよく使われる。おも|せいぶん|ぶんせき||||へんすう||しょうすう|こ||む|そうかん||ごうせい|へんすう||ちぢ|やくする|ほうほう||||せかい|||つかわ| Principal Component Analysis is a method of reducing a large number of variables to a small number of uncorrelated composite variables, often used in the marketing world.

実際、線形な重みの関数を用い、最小二乗誤差を復元エラーの関数とすれば、主成分分析と一致する（＊注 42）。じっさい|せんけい||おもみ||かんすう||もちい|さいしょう|ふた|じょう|ごさ||ふくげん|えらー||かんすう|||おも|せいぶん|ぶんせき||いっち||そそ In fact, using a linear weight function and the least-squares error as a function of the restoration error is consistent with principal component analysis (*Note 42).

自己符号化器の場合は、後述するようにさまざまな形でノイズを与え、それによって非常に頑健に主成分を取り出すことができる。じこ|ふごう|か|うつわ||ばあい||あと|じゅつ||||かた||||あたえ||||ひじょうに|がんけん||おも|せいぶん||とりだす||| In the case of a self-coder, as described below, various forms of noise can be applied, and thus the main components can be extracted in a very robust manner.

そのことが「ディープに」、つまり多階層にすることを可能にし、その結果、主成分分析では取り出せないような高次の特徴量を取り出すことができる。 ||||||おお|かいそう|||||かのうに|||けっか|おも|せいぶん|ぶんせき|||とりだせ|||こうじ||とくちょう|りょう||とりだす||| That's what I mean by "deep." This allows for multilevel analysis, and as a result, it is possible to extract higher-order features that cannot be extracted using principal component analysis.

１段目の隠れ層を２段目の入力（および正解データ）として、コンピュータに学習させるのだ。だん|め||かくれ|そう||だん|め||にゅうりょく||せいかい|でーた|||こんぴゅーた||がくしゅう||| The hidden layer of the first stage is used as the input (and correct data) for the second stage, which is learned by the computer.

図 22 がそれに当たる。ず||||あたる Figure 22 is a case in point.

この１００次元のデータを同じように入力とする。 |じげん||でーた||おなじ||にゅうりょく|| This 100-dimensional data is input in the same way.

そのため、隠れ層を仮に 20 個とすると、入力層の１００次元のデータをいったん 20 個にまで圧縮し、もう一度１００次元のノードに復元するわけである。 ||かくれ|そう||かりに|こ||||にゅうりょく|そう||じげん||でーた|||こ|||あっしゅく|||ひと|たび|じげん||||ふくげん|| Therefore, assuming 20 hidden layers, the 100-dimensional data in the input layer is compressed to 20 at first, and then restored to 100-dimensional nodes once more.

２段目の隠れ層には、１段目の隠れ層で得られたものをさらに組み合わせたものが出てくるから、さらに高次の特徴量が得られる（もとの入力の画像の次元に戻すと、さらに抽象化された画像が出てくることになる）。だん|め||かくれ|そう|||だん|め||かくれ|そう||えられた||||くみあわせた|||でて||||こうじ||とくちょう|りょう||えられる|||にゅうりょく||がぞう||じげん||もどす|||ちゅうしょう|か|||がぞう||でて|||| The second hidden layer is a combination of those obtained in the first hidden layer, so higher-order features appear. これを、さらに３段目の入力（および正解データ）として用い、得られた隠れ層を、さらに４段目の入力とする。 |||だん|め||にゅうりょく||せいかい|でーた|||もちい|えられた|かくれ|そう|||だん|め||にゅうりょく|| This is used as the third-stage input (and correct solution data), and the resulting hidden layer is used as the fourth-stage input. そうして次々と繰り返して、多階層にしていくわけである。 |つぎつぎ||くりかえして|おお|かいそう|||| The process is repeated one after the other to create multiple layers.

この多階層のディープラーニングの仕組みを図にしたのが図 23 だ。 |おお|かいそう||||しくみ||ず|||||ず| Figure 23 illustrates how this multilevel deep learning works.

真ん中の隠れ層を上に引っ張り出し（②）、入力層と出力層は同じだから便宜的に重ねて（③）、これを何層にもわたって重ねると、④ のタワーのようになる。まんなか||かくれ|そう||うえ||ひっぱりだし|にゅうりょく|そう||しゅつりょく|そう||おなじだ||べんぎ|てきに|かさねて|||なん|そう||||かさねる|||たわー||| The hidden layer in the middle is pulled up (②), and since the input and output layers are the same, they are conveniently superimposed (③).

一番下から入力した画像は、上に上がるにつれて抽象度を増し、高次の特徴量が生成される。ひと|ばん|した||にゅうりょく||がぞう||うえ||あがる|||ちゅうしょう|たび||まし|こうじ||とくちょう|りょう||せいせい|| The lowest input image becomes more abstract as it moves up, and higher-order features are generated.

そして「３」なら「３」という数字そのものの概念に近くなる。 ||||すうじ|そのもの||がいねん||ちかく| And "3." Then "3." This is similar to the concept of the number itself.

個別・具体的な、さまざまな「手書きの３」を読み込み、４、５回抽象化を繰り返すと、現れるのは「典型的な３」だ。こべつ|ぐたい|てきな||てがき|||よみ|こみ|かい|ちゅうしょう|か||くりかえす||あらわれる|||てんけい|てきな| Individual, specific, and various "handwritten 3s and after 4 or 5 iterations of abstraction, a "typical 3" appears. It is.

これこそ「３の概念」にほかならない。 |||がいねん||| This is the "3 concept." The "one" is no other than the "one".

教師あり学習は非常に少ないサンプル数で可能になる。きょうし||がくしゅう||ひじょうに|すくない|さんぷる|すう||かのうに| Supervised learning is possible with a very small sample size.

相関のあるものをひとまとまりにすることで特徴量を取り出し、さらにそれを用いて高次の特徴量を取り出す。そうかん|||||||||||とくちょう|りょう||とりだし||||もちいて|こうじ||とくちょう|りょう||とりだす By grouping correlated items together, feature quantities can be extracted, which can then be used to extract higher-order feature quantities.

そうした高次の特徴量を使って表される概念を取り出す。 |こうじ||とくちょう|りょう||つかって|あらわさ||がいねん||とりだす The concepts represented by such higher-order quantities of features are extracted.

人間がぼーっと景色を見ているときにも、実はこんな壮大な処理が脳の中で行われているのである。にんげん|||- っと|けしき||みて|||||じつは||そうだいな|しょり||のう||なか||おこなわれて|| Even when we are looking at a landscape in a daze, our brains are actually performing this kind of spectacular processing. おそらく、生後すぐの赤ちゃんは、目や耳から入ってくる情報の洪水の中から、何と何が相関し、何が独立な成分かという「演算」をすごいスピードで行っているはずである。 |せいご|||あかちゃん||め||みみ||はいって||じょうほう||こうずい||なか||なんと|なん||そうかん||なん||どくりつ||せいぶん||||えんざん|||すぴーど||おこなって|| Babies are probably still "operating" on the flood of information coming in through their eyes and ears, trying to figure out what correlates with what and what is an independent component. The company should be doing this at a very high speed.

情報の洪水の中から、予測しては答え合わせを繰り返すことでさまざまな特徴量を発見し、やがて「お母さん」という概念を発見し、まわりにある「もの」を見つけ、それらの関係を学ぶ。じょうほう||こうずい||なか||よそく|||こたえ|あわせ||くりかえす||||とくちょう|りょう||はっけん|||おかあさん|||がいねん||はっけん|||||||みつけ||||かんけい||まなぶ By repeatedly making predictions and matching answers in the flood of information, we discover various quantities of characteristics that eventually lead us to "mom. The concept of "things" is a new way of thinking about the "things" around us. and learn how they relate to each other. そうして少しずつ世界を学習していく。 |すこしずつ|せかい||がくしゅう|| And so, little by little, we learn about the world.

一般的な画像を扱うので、当然、手書き文字の場合より大変だ。いっぱん|てきな|がぞう||あつかう||とうぜん|てがき|もじ||ばあい||たいへんだ Since we are dealing with common images, this is naturally more difficult than with handwritten text.

用いるニューラルネットワークは、より巨大になる。もちいる||||きょだいに| The neural networks used will be much larger.

下のほうの層では、点やエッジなどの画像によくある「模様」を認識するだけだが、上にいくと、丸や三角などの形が認識できるようになる。した||||そう|||てん|||||がぞう||||もよう||にんしき|||||うえ||||まる||さんかく|||かた||にんしき||| In the lower layers, there are "patterns" that are common in images, such as dots or edges. But as you move up, you can recognize circles, triangles, and other shapes.

そしてそれらの組み合わせとして、丸い形（顔）の中に２個の点（目）があって、その真ん中に縦に一筋線が入って（鼻）といったように、複雑なパーツを組み合わせた特徴量が得られている。 ||||くみあわせ|||まるい|かた|かお||なか||こ||てん|め||||まんなか||たて||ひとすじ|せん||はいって|はな||||ふくざつな|||くみあわせた|とくちょう|りょう||えられて| The combination of these features results in a complex combination of parts, such as a round shape (face) with two dots (eyes) and a vertical line in the middle of the dots (nose). その結果、上のほうの層では、「人間の顔」らしきものや、「ネコの顔」らしきものが出てくる。 |けっか|うえ||||そう|||にんげん||かお||||ねこ||かお||||でて| As a result, in the upper stratum, the "human face" or what appears to be a "cat face." The first thing that comes out is something that looks like a

つまり、ユーチューブから取り出した画像を大量に見せてディープラーニングにかけると、コンピュータが特徴量を取り出し、自動的に「人間の顔」や「ネコの顔」といった概念を獲得するのだ。 |ゆー|ちゅーぶ||とりだした|がぞう||たいりょうに|みせて|||||こんぴゅーた||とくちょう|りょう||とりだし|じどう|てきに|にんげん||かお||ねこ||かお|||がいねん||かくとく|| In other words, if you show a large number of images taken from YouTube and apply them to deep learning, the computer will take out the features and automatically acquire the concepts such as "human face" and "cat face".

コンピュータが概念（シニフィエ、意味されるもの）を自力でつくり出せれば、その段階で「これは人間だ」「これはネコだ」という記号表現（シニフィアン、意味するもの）を当てはめてやるだけで、コンピュータはシニフィアンとシニフィエが組み合わさったものとしての記号を習得する。こんぴゅーた||がいねん||いみ|||||じりき|||だせれば||だんかい||||にんげん||||ねこ||||きごう|ひょうげん||いみ||||あてはめて||||こんぴゅーた||||||くみあわさった|||||きごう||しゅうとく| If a computer can create concepts (signifiers, things that make sense) on its own, at that stage it can say, "This is a human being. "This is a cat." The computer learns the symbols as a combination of the signifier and signified by simply applying the symbolic representation (signifier, what it means) as "signifier".

ここまでくれば、次からは、人間やネコの画像を見ただけで、「これは人間だ」「これはネコだ」と判断できることになる。 |||つぎ|||にんげん||ねこ||がぞう||みた|||||にんげん||||ねこ|||はんだん|||| Once you've reached this point, the next time you see an image of a human or a cat, you'll think, "This is a human. "This is a cat." This means that the company can determine that the company's business is in good shape.

ただし、この研究では、１０００万枚の画像を扱うために、ニューロン同士のつながりの数が１００億個という巨大なニューラルネットワークを使い、１０００台のコンピュータ（１万６０００個のプロセッサ）を３日間走らせている。 ||けんきゅう|||よろず|まい||がぞう||あつかう||||どうし||||すう||おく|こ|||きょだいな|||つかい|だい||こんぴゅーた|よろず|こ||||にちかん|はしら|| However, in order to handle 10 million images, this research used a huge neural network with 10 billion interconnections among neurons, running 1,000 computers (16,000 processors) for three days.

膨大な計算量である。ぼうだいな|けいさん|りょう| It is a huge amount of calculation.

ディープラーニングの場合、この教師なし学習を、教師あり学習的なアプローチでやっている。 ||ばあい||きょうし||がくしゅう||きょうし||がくしゅう|てきな|あぷろーち||| In the case of deep learning, this unsupervised learning is done with a supervised learning approach.

自己符号化器は、本来なら教師が与える正解に当たる部分にもとのデータを入れることによって、入力したデータ自身を予測する。じこ|ふごう|か|うつわ||ほんらい||きょうし||あたえる|せいかい||あたる|ぶぶん||||でーた||いれる||||にゅうりょく||でーた|じしん||よそく| The self-coder predicts the input data itself by inserting the original data into the part that would normally be the correct answer given by the teacher.

そして、さまざまな特徴量を生成する。 ||とくちょう|りょう||せいせい| The system then generates a variety of feature quantities.

それが、教師あり学習で教師なし学習をやっているということである。 ||きょうし||がくしゅう||きょうし||がくしゅう||||||| That is, we are doing unsupervised learning with supervised learning.

ところが、少し理解が難しいのが、そうして得られた特徴量を使って、最後に分類するとき、つまり、「その特徴量を有するのはネコだ」とか「それはイヌだ」という正解ラベルを与えるときは、「教師あり学習」になることだ。 |すこし|りかい||むずかしい||||えられた|とくちょう|りょう||つかって|さいごに|ぶんるい|||||とくちょう|りょう||ゆうする|||ねこ||||||いぬ||||せいかい|らべる||あたえる|||きょうし||がくしゅう|||| What is a little more difficult to understand, however, is that when we finally classify using the feature values obtained in this way, we are told that the cat is the one with the feature value. Or, "That's a dog." When the correct answer label is given as "unsupervised learning," it is called "supervised learning. The first is to be a "good" person. 「教師あり学習的な方法による教師なし学習」で特徴量をつくり、最後に何か分類させたいときは「教師あり学習」になるのである。きょうし||がくしゅう|てきな|ほうほう|||きょうし||がくしゅう||とくちょう|りょう|||さいごに|なん||ぶんるい|||||きょうし||がくしゅう||| "unsupervised learning using a supervised learning approach" We build the features using the "supervised learning" method, and at the end, we want to classify them. The result is that the "new" is not a "new" but a "new". 結局、教師あり学習をするのなら、ディープラーニングをやってもあまり意味がないように思うかもしれないが、この違いはきわめて大きい。けっきょく|きょうし||がくしゅう||||||||||いみ||||おもう||||||ちがい|||おおきい In the end, if you are doing supervised learning, you may think that deep learning does not make much sense, but the difference is huge.

たとえば、ディープラーニングによって、天気の情報から、「日本海側」の概念がすでにできているのであれば、「島根、鳥取、福井、石川、富山、新潟、山形、秋田などの県のことを日本海側と言います」と教えるだけで、「ああ、これらのかたまりは『日本海側』と呼べばいいのね」とすぐにわかる。 ||||てんき||じょうほう||にっぽん|うみ|がわ||がいねん||||||しまね|とっとり|ふくい|いしかわ|とみやま|にいがた|やまがた|あきた|||けん||||にっぽん|うみ|がわ||いいます||おしえる||||これら||||にっぽん|うみ|がわ||よべば|||||| For example, deep learning can be used to determine the weather on the "Sea of Japan side" from weather information. If the concept of "Sea of Japan side" has already been established, then prefectures such as Shimane, Tottori, Fukui, Ishikawa, Toyama, Niigata, Yamagata, and Akita are called "Sea of Japan side. I just tell them, "Ah, so we can call this grouping 'the Sea of Japan side. I can tell right away. ところが、こうした概念ができていなければ、「島根、鳥取 ……、あれ？ ||がいねん|||||しまね|とっとり| However, without such a concept, it would be difficult to say, "Shimane, Tottori ......, what is it?

兵庫は入るんだっけ？ひょうご||はいる|んだっけ Will Hyogo be included? 」などと覚えるのが大変である。 ||おぼえる|||たいへんである " It is hard to remember that the

「山陰というのは、島根、鳥取、あるいは山口県北部や京都北部も含まれことがある」と聞くと、「ああそうですよね、だってそこらへん、天気似ていますからね」とすぐに理解することができる。さんいん|||||しまね|とっとり||やまぐち|けん|ほくぶ||みやこ|ほくぶ||ふくま||||||きく||||||||||てんき|にて|います|||||りかい|||| "San-in" can include Shimane and Tottori, as well as northern Yamaguchi and northern Kyoto. I asked him, "Oh, yes, that's right, because the weather is similar there. The first thing you need to understand is that the first thing you need to do is to understand the first thing you need to do. コンピュータにとっては、「教師データ」を必要とする度合いがまったく違うのだ。こんぴゅーた||||きょうし|でーた||ひつよう|||どあい|||ちがう| For computers, it is "teacher data. The degree of need for the "one" is completely different.

世の中の「相関する事象」の相関をあらかじめとらえておくことによって、現実的な問題の学習は早くなる。よのなか||そうかん||じしょう||そうかん||||||||げんじつ|てきな|もんだい||がくしゅう||はやく| The "correlating events" of the world. By noting the correlations between the two, realistic problems can be learned more quickly.

なぜなら、相関があるということは、その背景に何らかの現実の構造が隠れているはずだからである。 |そうかん||||||||はいけい||なんらか||げんじつ||こうぞう||かくれて|||| This is because the existence of a correlation implies that some structure of reality should be hidden in the background.

ところが、その実、ディープラーニングでやっていることは、主成分分析を非線形にし、多段にしただけである。 |そのじつ|||||||おも|せいぶん|ぶんせき||ひ|せんけい|||おお|だん|||| In reality, however, what deep learning does is simply make principal component analysis nonlinear and multistage.

つまり、データの中から特徴量や概念を見つけ、そのかたまりを使って、もっと大きなかたまりを見つけるだけである。 |でーた||なか||とくちょう|りょう||がいねん||みつけ||||つかって||おおきな|||みつける|| In other words, we find a feature or concept in the data, and then use that chunk to find a larger chunk.

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 05 (2)

人工 知能 は 人間 を 超える か Chapter 05 (2)

Want to learn Japonais? Start now!

人工知能は人間を超えるか Chapter 05 (2)

Want to learn Japonais?
Start now!