人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 04 (2)

人工知能は人間を超えるか Chapter 04 (2)

実際にサポートベクターマシンの精度は高く、よく用いられてきた。ただし、大きなデータを対象としたときは、計算に時間がかかってしまうという欠点もある。いままでの方法が、純粋に機械学習の分けるという「機能」をエレガントな方法で実現しようとしているのに対し、ニューラルネットワークは、人間の脳神経回路をまねすることによって分けようというものである。人間の脳はニューロン（神経細胞）のネットワークで構成されていて、あるニューロンはほかのニューロンとつながったシナプスから電気刺激を受け取り、その電気が一定以上たまると発火して、次のニューロンに電気刺激を伝える。これを数学的に表現すると、あるニューロンがほかのニューロンから０か１の値を受け取り、その値に何らかの重みをかけて足し合わせる。それがある一定の閾値を超えると１になり、超えなければ０になる。それがまた次のニューロンに受け渡されるという具合である。ニューラルネットワークをモデル化したのが次ページの図 15 で、各ノードがシナプスを模している。下の層のニューロンから受け取った値をかけ合わせ、その和をシグモイド関数にかけて出力する。シグモイド関数は「オン・オフ」を数学的に扱いやすいようにするための関数で、この場合は０・１なので、ほとんど発火していない（オフ）状態である。つまり、次のニューロンへの影響は小さい。一連の流れの中で肝となるのは重みづけで、人間のニューロンが学習によってシナプスの結合強度を変化させるように、学習する過程で重みづけを変化させ、最適な値を出力するように調整することで、精度を高めていく。たとえば、こんな問題だ。自分の出身地の飲食店の良し悪しを学習するプログラムをつくる人もいれば、自分が好きなアイドルの画像を判定させようとする人までさまざまだ。これまで、機械学習の分野は、自然言語処理、構造化されたデータ、画像や音声などのマルチメディア、ロボットなどの領域で研究されてきた。中でも、ウェブの登場以降は、自然言語処理と機械学習ががっちりタッグを組んで進んできた印象がある。ところが、最近のブレークスルーは、画像認識の分野から起こった。したがって、ここでは画像における機械学習を例にとってみよう。よく使われる例が手書き文字認識である。手書き文字認識とは何かというと、郵便局の郵便番号の自動読み取りで使われるようなものだ。図 16 の左下の図のように、同じ「３」でもゆがんだり曲がったり、伸びたり縮んだりしているが、人間ならこの程度の表記のゆらぎは難なく「３」だと判別できるだろう。ところが、これがコンピュータには難しい。どういう画像なら「３」で、どういう画像なら「８」なのか、あるいは「５」なのか、ということを明示的にルールとして与えることは難しいからである。手書き文字を正しく認識できるようになるための訓練用データとして、０から９までの 10 個の数字をいろいろな手書き文字で表現したＭＮＩＳＴというデータセットがある。画像認識の世界ではよく使われる標準的なものだ。このデータセットでは、一つひとつの手書き数字は 28 ピクセル ×28 ピクセル＝７８４ピクセルの画像となっている（画像のデータとしてはとても小さい）。この画像が７万枚あって、それぞれどの数字に該当するのかという正解ラベルがつけられている。この画像をピクセル単位に分解してニューラルネットワークに読み込ませる。入力層と出力層の間にあるのが隠れ層であり、入力されたデータは、入力層から隠れ層、隠れ層から出力層へと出力される。ニューラルネットワークの出力層では、０から９までに対応する 10 個のニューロンがあり、それぞれ値が出力される。図の場合は、「３」である確率が「０・40」となって一番高いので、この手書き文字は「３」であると判定することになる。なぜなら別々のデータを使っていると、よいアルゴリズムができたのか、たまたまデータがよかっただけなのか、わからないからだ。そして、学習をする方法、テストをする方法についても、標準的なやり方がある。エムニストのデータを使って学習する際は、たとえば「３」の画像を入力し、もし間違って「８」と判定した場合は、「入力層」と「隠れ層」をつなぐ部分の重みの、「隠れ層」と「出力層」をつなぐ部分の重みのの値を変えて、正しい答えが出るように調整を加える。要するに、１つ前の図 15 の重みづけの数字（図中で楕円で示した数字）を少しずつ変化させて、正しい答えになるように調整するのだ。この重みづけは、いってみれば、ニューロン同士をつなぐ線の太さである。この線の数はとても多く、隠れ層が仮に１００個だとすると、７８４×１００＋１００×10 で合計約８万個ある。この膨大な数の重みづけを変えれば、切り取られる空間の形が変わる。そのうちの、ある切り取り方が、数字の「３」を表すことになる。つまり、約８万個ある重みづけをうまく調整しないと、画像の「３」を見て、正しく「３」と認識できないのだ。答え合わせをして間違えるたびに重みづけの調整を繰り返して、認識の精度を上げていく学習法の代表的なものを「誤差逆伝播（ Back Propagation ）」という。どう調整するかというと、全体の誤差（間違う確率）が少なくなるように微分をとる。微分をとるというのは、つまり、あるひとつの重みづけを大きくすると誤差が減るのか、小さくすると誤差が減るのかを計算するということである。そして、誤差が小さくなる方向に、８万個の重みづけのそれぞれに微調整を加えていく。別なたとえで説明すると、ある組織において上司が判断を下さないといけない場面を考えよう。上司は部下からの情報をもとに判断を下す。自分の判断が正しかったときは、その判断の根拠となった情報を上げてきた部下との関係を強め、判断が間違ったときは、間違いの原因となった情報を上げてきた部下との関係を弱める。これを何度も繰り返せば、組織として正しい判断を下す確率が上がっていくはずだ。つまり、正しい判断材料が下（部下）から上（上司）へ上がっていく。一方、修正を加えるときは、先ほどとは逆に、上（上司）の誤差（判断の誤り）から出発して下（部下）との関係の強さに修正を加えていくから、誤差逆伝播というわけだ。学習フェーズは、１０００件から１００万件ほどの大量のデータを入力し、答え合わせをして、間違うたびにとを適切な値に修正するという作業をひたすら繰り返す。８万個の重みづけを修正するために、７万枚の画像をひたすら入力し続けるわけで、この作業にはとても時間がかかる。通常は数秒から、長いときは数日間かかることもある。しかし、いったんできてしまえば、使うときは簡単で、できあがった重みづけを使って、これまでの訓練用データとは違う新しいデータを入力して、出力を計算する。この作業は一瞬で終わる。１枚の画像に対して、隠れ層を計算するための簡単な足し算と、出力層を計算するための簡単な足し算をするだけなので、１秒もかからない。この手書きの文字が「３」を表すとわかるようになるまで、生まれてから数年かかるが、いったんわかってしまえば、次からは見た瞬間「これは３だ」とわかる。それと同じだ。余談になるが、日本は高齢化社会になってきており、高齢の方の学習能力は、残念ながら若者に劣る。したがって、新しいことを学習するのは大変だ。一方で、判断・識別する能力は、長い年月をかけてつくられており、しかも使う際には簡単に早く使うことができる。高齢者の判断・識別能力をうまく役立てていくことは、昔で言えば老人の知恵を活かすということだろうが、高齢化社会において重要なことかもしれない。「こういうやつは将来伸びる」とか、「組織がこうなると悪い傾向だ」などの、人間や組織などの時代を経ても変わらないものを見る役割として、高齢の方が企業の会長や相談役にいるのはよくわかる。判断・識別能力で勝負できるからである。この技術は、ウェブやビッグデータの領域で広く使われている。しかし、機械学習にも弱点がある。それがフィーチャーエンジニアリング（ Feature engineering ）である。つまり、特徴量（あるいは素性という）の設計であり、ここでは「特徴量設計」と呼ぼう（＊注 33）。特徴量というのは、機械学習の入力に使う変数のことで、その値が対象の特徴を定量的に表す。この特徴量に何を選ぶかで、予測精度が大きく変化する。たとえば、手書き文字認識では、画像の中心と大きさを調整して特徴量を設計する必要がある。先ほどは説明を単純化するために触れなかったが、ただピクセル単位に分けて読み込ませれば精度が上がるわけではないのだ。特徴量を何にするかが予測精度に決定的な意味を持つのは、年収を予測する問題を考えればわかりやすい。どこに住んでいるか、男性か女性か、といった特徴量から年収を予測するというのは、ニューラルネットワークやその他の機械学習の方法を使って学習することができる。このとき、特徴量を何にするか、言い換えると、どんな変数を読み込ませるかが予測精度に大きく寄与することは容易に想像できるだろう。図 18 にあるように、「性別」や「居住地域」は年収と関係がありそうだが、「身長」は疑問符がつくし、「好きな色」はそれほど関係ないはずだ。それよりはむしろ、「年齢」や「職業」「業種」「保有する資格」などのほうが年収に影響する可能性が高い。仮に、データベースに「誕生日」という項目が入っていても、それだけではよい特徴量ではない。誕生日と現在の日付の差、つまり「年齢」という値にして初めて年収予測問題に寄与するような特徴量となる。ただ、こうした判断はコンピュータにはできない。機械学習の精度を上げるのは、「どんな特徴量を入れるか」にかかっているのに、それは人間が頭を使って考えるしかなかった。これが「特徴量設計」で、機械学習の最大の関門だった。

Try LingQ and learn from Netflix shows, Youtube videos, news articles and more.

人工知能は人間を超えるか Chapter 04 (2) じんこう|ちのう||にんげん||こえる||chapter Will Artificial Intelligence Surpass Humans Chapter 04 (2) L'intelligence artificielle dépassera-t-elle l'homme ? Chapitre 04 (2) A inteligência artificial ultrapassará o ser humano Capítulo 04 (2)

実際にサポートベクターマシンの精度は高く、よく用いられてきた。じっさい||||せいど||たかく||もちい|| In fact, the accuracy of the support vector machine has been high and has been widely used. ただし、大きなデータを対象としたときは、計算に時間がかかってしまうという欠点もある。 |おおきな|でーた||たいしょう|||||けいさん||じかん||||||けってん|| However, it also has the disadvantage that it takes a long time to calculate when targeting large data. いままでの方法が、純粋に機械学習の分けるという「機能」をエレガントな方法で実現しようとしているのに対し、ニューラルネットワークは、人間の脳神経回路をまねすることによって分けようというものである。 |||ほうほう||じゅんすいに|きかい|がくしゅう||わける|||きのう||えれがんとな|ほうほう||じつげん|||||||たいし|||にんげん||のう|しんけい|かいろ|||||||わけよう|||| The methods used so far are purely machine learning "functions" of sorting. Neural networks, on the other hand, attempt to divide the brain by mimicking the neural circuits of the human brain. 人間の脳はニューロン（神経細胞）のネットワークで構成されていて、あるニューロンはほかのニューロンとつながったシナプスから電気刺激を受け取り、その電気が一定以上たまると発火して、次のニューロンに電気刺激を伝える。にんげん||のう|||しんけい|さいぼう||ねっとわーく||こうせい||||||||||||||でんき|しげき||うけとり||でんき||いってい|いじょう|||はっか||つぎの|||でんき|しげき||つたえる The human brain is made up of a network of neurons (nerve cells), and one neuron receives an electrical stimulus from a synapse connected to another neuron, and when that electricity builds up above a certain level, it fires and sends electricity to the next neuron. Communicate the stimulus. これを数学的に表現すると、あるニューロンがほかのニューロンから０か１の値を受け取り、その値に何らかの重みをかけて足し合わせる。 ||すうがく|てきに|ひょうげん||||||||||||あたい||うけとり||あたい||なんらか||おもみ|||たし|あわせる Mathematically, one neuron receives a value of 0 or 1 from another neuron, and that value is multiplied by some weight and added together. それがある一定の閾値を超えると１になり、超えなければ０になる。 |||いってい||いきち||こえる||||こえ||| If it exceeds a certain threshold, it becomes 1, and if it does not exceed it, it becomes 0. それがまた次のニューロンに受け渡されるという具合である。 |||つぎの|||うけわたさ||||ぐあい| The next neuron is then passed on to the next one, and so on. ニューラルネットワークをモデル化したのが次ページの図 15 で、各ノードがシナプスを模している。 ||もでる|か||||つぎ|ぺーじ||ず||かく|||||もして| Figure 15 on the next page models a neural network, with each node simulating a synapse. 下の層のニューロンから受け取った値をかけ合わせ、その和をシグモイド関数にかけて出力する。した||そう||||うけとった|あたい||かけあわせ||わ|||かんすう|||しゅつりょく| Multiplies the values received from the neurons in the lower layer and outputs the sum to the sigmoid function. シグモイド関数は「オン・オフ」を数学的に扱いやすいようにするための関数で、この場合は０・１なので、ほとんど発火していない（オフ）状態である。 |かんすう||おん|おふ||すうがく|てきに|あつかい||||||かんすう|||ばあい|||||はっか||||おふ|じょうたい| The sigmoid function is a function to make "on / off" mathematically easy to handle. In this case, it is 0.1, so it is in a state where it hardly fires (off). つまり、次のニューロンへの影響は小さい。 |つぎの||||えいきょう||ちいさい In other words, the effect on the next neuron is small. 一連の流れの中で肝となるのは重みづけで、人間のニューロンが学習によってシナプスの結合強度を変化させるように、学習する過程で重みづけを変化させ、最適な値を出力するように調整することで、精度を高めていく。いちれんの|ながれ||なか||かん|||||おもみ|||にんげん||||がくしゅう|||||けつごう|きょうど||へんか||||がくしゅう||かてい||おもみ|||へんか|||さいてきな|あたい||しゅつりょく|||ちょうせい||||せいど||たかめて| The key to the flow is weighting, and the weighting is changed in the learning process so that human neurons change the synaptic connection strength by learning, and the optimum value is output. By adjusting in this way, the accuracy will be improved. たとえば、こんな問題だ。 ||もんだい| For example, here is the problem. 自分の出身地の飲食店の良し悪しを学習するプログラムをつくる人もいれば、自分が好きなアイドルの画像を判定させようとする人までさまざまだ。じぶん||しゅっしん|ち||いんしょく|てん||よし|わるし||がくしゅう||ぷろぐらむ|||じん|||じぶん||すきな|あいどる||がぞう||はんてい|||||じん|| Some people have programs to learn the good and bad of restaurants in their hometown, while others try to determine the image of an idol they like. これまで、機械学習の分野は、自然言語処理、構造化されたデータ、画像や音声などのマルチメディア、ロボットなどの領域で研究されてきた。 ||きかい|がくしゅう||ぶんや||しぜん|げんご|しょり|こうぞう|か|||でーた|がぞう||おんせい|||まるちめでぃあ|ろぼっと|||りょういき||けんきゅう||| To date, the field of machine learning has been studied in areas such as natural language processing, structured data, multimedia such as images and voice, and robots. 中でも、ウェブの登場以降は、自然言語処理と機械学習ががっちりタッグを組んで進んできた印象がある。なかでも|||とうじょう|いこう||しぜん|げんご|しょり||きかい|がくしゅう|||||くんで|すすんで||いんしょう|| Above all, I have the impression that natural language processing and machine learning have been firmly teamed up since the advent of the Web. ところが、最近のブレークスルーは、画像認識の分野から起こった。 |さいきん||||がぞう|にんしき||ぶんや||おこった However, recent breakthroughs have come from the field of image recognition. したがって、ここでは画像における機械学習を例にとってみよう。 ||||がぞう|||きかい|がくしゅう||れい||| Therefore, let's take machine learning in images as an example. よく使われる例が手書き文字認識である。 |つかわ||れい||てがき|もじ|にんしき| A common example is handwriting recognition. 手書き文字認識とは何かというと、郵便局の郵便番号の自動読み取りで使われるようなものだ。てがき|もじ|にんしき|||なにかと|||ゆうびん|きょく||ゆうびん|ばんごう||じどう|よみとり||つかわ|||| What is handwriting recognition? It's like being used in the automatic reading of postal codes at post offices. 図 16 の左下の図のように、同じ「３」でもゆがんだり曲がったり、伸びたり縮んだりしているが、人間ならこの程度の表記のゆらぎは難なく「３」だと判別できるだろう。ず||ひだり|した||ず|||おなじ|||まがったり|のびたり|ちぢんだり||||にんげん|||ていど||ひょうき||||なんなく|||はんべつ|| As shown in the lower left figure of Fig. 16, the same "3" is distorted, bent, stretched, and shrunk, but humans can easily determine that this degree of fluctuation in the notation is "3". ところが、これがコンピュータには難しい。 |||こんぴゅーた|||むずかしい However, this is difficult for computers. どういう画像なら「３」で、どういう画像なら「８」なのか、あるいは「５」なのか、ということを明示的にルールとして与えることは難しいからである。 |がぞう||||がぞう|||||||||||||めいじ|てきに|るーる|||あたえる|||むずかしい|| This is because it is difficult to explicitly give a rule as to what kind of image is "3" and what kind of image is "8" or "5". 手書き文字を正しく認識できるようになるための訓練用データとして、０から９までの 10 個の数字をいろいろな手書き文字で表現したＭＮＩＳＴというデータセットがある。てがき|もじ||まさしく|にんしき||||||くんれん|よう|でーた||||||こ||すうじ|||てがき|もじ||ひょうげん||ｍｎｉｓｔ|||でーた|せっと|| There is a data set called MNIST that expresses 10 numbers from 0 to 9 in various handwritten characters as training data to enable correct recognition of handwritten characters. 画像認識の世界ではよく使われる標準的なものだ。がぞう|にんしき||せかい||||つかわ||ひょうじゅん|てきな|| It is a standard that is often used in the world of image recognition. このデータセットでは、一つひとつの手書き数字は 28 ピクセル ×28 ピクセル＝７８４ピクセルの画像となっている（画像のデータとしてはとても小さい）。 |でーた|せっと|||ひとつひとつ||てがき|すうじ||||||がぞう||||がぞう||でーた|||||ちいさい In this data set, each handwritten digit is a 28 x 28 = 784 pixel image (very small for image data). この画像が７万枚あって、それぞれどの数字に該当するのかという正解ラベルがつけられている。 |がぞう||よろず|まい||||すうじ||がいとう||||||せいかい|らべる|||| There are 70,000 of these images, each labeled with the correct answer as to which number it corresponds to. この画像をピクセル単位に分解してニューラルネットワークに読み込ませる。 |がぞう|||たんい||ぶんかい||||よみ|こま| This image is decomposed into pixel units and loaded into the neural network. 入力層と出力層の間にあるのが隠れ層であり、入力されたデータは、入力層から隠れ層、隠れ層から出力層へと出力される。にゅうりょく|そう||しゅつりょく|そう||あいだ|||||かくれ|そう||にゅうりょく|||でーた||にゅうりょく|そう||かくれ|そう|かくれ|そう||しゅつりょく|そう|||しゅつりょく|| Between the input and output layers is the hidden layer, and the input data is output from the input layer to the hidden layer and from the hidden layer to the output layer. ニューラルネットワークの出力層では、０から９までに対応する 10 個のニューロンがあり、それぞれ値が出力される。 ||しゅつりょく|そう||||||たいおう||こ||||||あたい||しゅつりょく|| In the output layer of the neural network, there are 10 neurons corresponding to 0 to 9, each of which outputs a value. 図の場合は、「３」である確率が「０・40」となって一番高いので、この手書き文字は「３」であると判定することになる。ず||ばあい|||かくりつ||||ひと|ばん|たかい|||てがき|もじ||||はんてい|||| In the case of the figure, "3. The probability of being "0.40" is The handwritten letter is "3" because it is the highest. The decision will be based on the following criteria. なぜなら別々のデータを使っていると、よいアルゴリズムができたのか、たまたまデータがよかっただけなのか、わからないからだ。 |べつべつの|でーた||つかって||||||||||でーた|||||||||| Because if you use different data, you don't know if you have a good algorithm or if you just happened to have good data. そして、学習をする方法、テストをする方法についても、標準的なやり方がある。 |がくしゅう|||ほうほう|てすと|||ほうほう||||ひょうじゅん|てきな||かた|| There is also a standardized method of learning and testing. エムニストのデータを使って学習する際は、たとえば「３」の画像を入力し、もし間違って「８」と判定した場合は、「入力層」と「隠れ層」をつなぐ部分の重みの、「隠れ層」と「出力層」をつなぐ部分の重みのの値を変えて、正しい答えが出るように調整を加える。 ||でーた||つかって|がくしゅう||さい||||がぞう||にゅうりょく|||まちがって||はんてい||ばあい||にゅうりょく|そう||かくれ|そう|||ぶぶん||おもみ||かくれ|そう||しゅつりょく|そう|||ぶぶん||おもみ|||あたい||かえて|ただしい|こたえ||でる||ちょうせい||くわえる When learning using the data of the emnist, for example, if you enter an image of "3" and mistakenly judge it as "8", the weight of the part connecting the "input layer" and the "hidden layer", " Change the value of the weight of the part that connects the "hidden layer" and the "output layer", and make adjustments so that the correct answer is obtained. 要するに、１つ前の図 15 の重みづけの数字（図中で楕円で示した数字）を少しずつ変化させて、正しい答えになるように調整するのだ。ようするに||ぜん||ず||おもみ|||すうじ|ず|なか||だえん||しめした|すうじ||すこしずつ|へんか|||ただしい|こたえ||||ちょうせい|| In short, the weighted numbers in Figure 15 (the numbers shown by the ellipses in the figure) are changed little by little and adjusted to give the correct answer. この重みづけは、いってみれば、ニューロン同士をつなぐ線の太さである。 |おもみ||||||どうし|||せん||ふと|| This weighting is, so to speak, the thickness of the line connecting the neurons. この線の数はとても多く、隠れ層が仮に１００個だとすると、７８４×１００＋１００×10 で合計約８万個ある。 |せん||すう|||おおく|かくれ|そう||かりに|こ||||||ごうけい|やく|よろず|こ| The number of these lines is very large, and if there are 100 hidden layers, there are 784 × 100 + 100 × 10, for a total of about 80,000. この膨大な数の重みづけを変えれば、切り取られる空間の形が変わる。 |ぼうだいな|すう||おもみ|||かえれば|きりとら||くうかん||かた||かわる Changing the weighting of this enormous number changes the shape of the space to be cut out. そのうちの、ある切り取り方が、数字の「３」を表すことになる。 ||||きりとり|かた||すうじ|||あらわす||| One of the cutouts will represent the number "3". つまり、約８万個ある重みづけをうまく調整しないと、画像の「３」を見て、正しく「３」と認識できないのだ。 |やく|よろず|こ||おもみ||||ちょうせい||||がぞう|||みて|まさしく||にんしき||| In other words, if you don't adjust the approximately 80,000 weightings properly, you will get a "3" in the image. Look at the correct "3." They cannot recognize that they are not. 答え合わせをして間違えるたびに重みづけの調整を繰り返して、認識の精度を上げていく学習法の代表的なものを「誤差逆伝播（ Back Propagation ）」という。こたえ|あわせ|||まちがえる|||おもみ|||ちょうせい||くりかえして|にんしき||せいど||あげて||がくしゅう|ほう||だいひょう|てきな|||ごさ|ぎゃく|でんぱ|back|propagation|| Answers A typical learning method that improves the accuracy of recognition by repeatedly adjusting the weighting each time a mistake is made is called “back propagation”. どう調整するかというと、全体の誤差（間違う確率）が少なくなるように微分をとる。 |ちょうせい||||||ぜんたい||ごさ|まちがう|かくりつ||すくなく|||びぶん|| The way to adjust is to take the derivative so that the overall error (probability of mistake) is reduced. 微分をとるというのは、つまり、あるひとつの重みづけを大きくすると誤差が減るのか、小さくすると誤差が減るのかを計算するということである。びぶん||||||||||||おもみ|||おおきく|||ごさ||へる|||ちいさく|||ごさ||へる||||けいさん||||| Taking the derivative means calculating whether increasing the weighting of a person reduces the error, or decreasing it reduces the error. そして、誤差が小さくなる方向に、８万個の重みづけのそれぞれに微調整を加えていく。 |ごさ||ちいさく||ほうこう||よろず|こ||おもみ|||||び|ちょうせい||くわえて| Then, in the direction of reducing the error, make fine adjustments to each of the 80,000 weights. 別なたとえで説明すると、ある組織において上司が判断を下さないといけない場面を考えよう。べつな|||せつめい||||そしき|||じょうし||はんだん||くださ||||ばめん||かんがえよう To use another analogy, consider a situation in an organization where a boss must make a decision. 上司は部下からの情報をもとに判断を下す。じょうし||ぶか|||じょうほう||||はんだん||くだす The boss makes a decision based on the information from his subordinates. 自分の判断が正しかったときは、その判断の根拠となった情報を上げてきた部下との関係を強め、判断が間違ったときは、間違いの原因となった情報を上げてきた部下との関係を弱める。じぶん||はんだん||ただしかった||||はんだん||こんきょ|||じょうほう||あげて||ぶか|||かんけい||つよめ|はんだん||まちがった|||まちがい||げんいん|||じょうほう||あげて||ぶか|||かんけい||よわめる When your judgment is correct, strengthen the relationship with the subordinate who provided the information that was the basis of the judgment, and when the judgment was incorrect, the relationship with the subordinate who provided the information that caused the mistake. Weaken. これを何度も繰り返せば、組織として正しい判断を下す確率が上がっていくはずだ。 ||なんど||くりかえせば|そしき|||ただしい|はんだん||くだす|かくりつ||あがって|| Repeating this over and over again should increase the probability that the organization will make the right decisions. つまり、正しい判断材料が下（部下）から上（上司）へ上がっていく。 |ただしい|はんだん|ざいりょう||した|ぶか||うえ|じょうし||あがって| In other words, the right materials for making decisions are transferred from the lower (subordinates) to the upper (supervisors). 一方、修正を加えるときは、先ほどとは逆に、上（上司）の誤差（判断の誤り）から出発して下（部下）との関係の強さに修正を加えていくから、誤差逆伝播というわけだ。いっぽう|しゅうせい||くわえる|||さきほど|||ぎゃくに|うえ|じょうし||ごさ|はんだん||あやまり||しゅっぱつ||した|ぶか|||かんけい||つよ|||しゅうせい||くわえて|||ごさ|ぎゃく|でんぱ||| On the other hand, when making corrections, contrary to the previous case, starting from the error (misjudgment) of the upper (boss) and making corrections to the strength of the relationship with the lower (subordinates), the error back propagation That's why. 学習フェーズは、１０００件から１００万件ほどの大量のデータを入力し、答え合わせをして、間違うたびにとを適切な値に修正するという作業をひたすら繰り返す。がくしゅう|||けん||よろず|けん|||たいりょうの|でーた||にゅうりょく||こたえ|あわせ|||まちがう|||||てきせつな|あたい||しゅうせい||||さぎょう|||くりかえす In the learning phase, a large amount of data, from 1000 to 1 million, is input, the answers are matched, and each mistake is corrected to an appropriate value. ８万個の重みづけを修正するために、７万枚の画像をひたすら入力し続けるわけで、この作業にはとても時間がかかる。よろず|こ||おもみ|||しゅうせい||||よろず|まい||がぞう|||にゅうりょく||つづける|||さぎょう||||じかん|| This process is very time consuming, as we keep inputting 70,000 images in order to correct the 80,000 weighting. 通常は数秒から、長いときは数日間かかることもある。つうじょう||すう|びょう||ながい|||すう|にちかん|||| Usually takes from a few seconds to several days in some cases. しかし、いったんできてしまえば、使うときは簡単で、できあがった重みづけを使って、これまでの訓練用データとは違う新しいデータを入力して、出力を計算する。 ||||つかう|||かんたんで||おもみ|||つかって||||くんれん|よう|でーた|||ちがう|あたらしい|でーた||にゅうりょく||しゅつりょく||けいさん| Once it is done, however, it is easy to use it to calculate outputs by using the resulting weighting to input new data that is different from the training data. この作業は一瞬で終わる。 |さぎょう||いっしゅん||おわる This work is done in an instant. １枚の画像に対して、隠れ層を計算するための簡単な足し算と、出力層を計算するための簡単な足し算をするだけなので、１秒もかからない。まい||がぞう||たいして|かくれ|そう||けいさん||||かんたんな|たしざん||しゅつりょく|そう||けいさん||||かんたんな|たしざん||||||びょう||| It takes less than a second to do a simple addition to calculate the hidden layer and a simple addition to calculate the output layer for a single image. この手書きの文字が「３」を表すとわかるようになるまで、生まれてから数年かかるが、いったんわかってしまえば、次からは見た瞬間「これは３だ」とわかる。 |てがき||もじ|||あらわす||||||うまれて||すう|とし||||||つぎ|||みた|しゅんかん||||| It takes several years from birth until we can see that this handwritten letter represents "3", but once we know it, we can see "this is 3" from the next moment. それと同じだ。 ||おなじだ It's the same thing. 余談になるが、日本は高齢化社会になってきており、高齢の方の学習能力は、残念ながら若者に劣る。よだん||||にっぽん||こうれい|か|しゃかい|||||こうれい||かた||がくしゅう|のうりょく||ざんねん||わかもの||おとる As an aside, Japan is becoming an aging society, and the learning ability of the elderly is unfortunately inferior to that of the young. したがって、新しいことを学習するのは大変だ。 |あたらしい|||がくしゅう||||たいへんだ Therefore, learning new things is hard. 一方で、判断・識別する能力は、長い年月をかけてつくられており、しかも使う際には簡単に早く使うことができる。いっぽう||はんだん|しきべつ||のうりょく||ながい|ねんげつ|||||||つかう|さい|||かんたんに|はやく|つかう||| On the other hand, the ability to judge and identify has been cultivated over many years, and when it is used, it can be used easily and quickly. 高齢者の判断・識別能力をうまく役立てていくことは、昔で言えば老人の知恵を活かすということだろうが、高齢化社会において重要なことかもしれない。こうれい|もの||はんだん|しきべつ|のうりょく|||やくだてて||||むかし||いえば|ろうじん||ちえ||かつ|||||||こうれい|か|しゃかい|||じゅうような|||| Judgment of the elderly ・ Making good use of identification ability may be to utilize the wisdom of the elderly in the old days, but it may be important in an aging society. 「こういうやつは将来伸びる」とか、「組織がこうなると悪い傾向だ」などの、人間や組織などの時代を経ても変わらないものを見る役割として、高齢の方が企業の会長や相談役にいるのはよくわかる。 |||しょうらい|のびる|||そしき|||||わるい|けいこう||||にんげん||そしき|||じだい||へて||かわら||||みる|やくわり|||こうれい||かた||きぎょう||かいちょう||そうだん|やく|||||| Elderly people are the chairman of the company and the role of seeing things that have not changed over time, such as "these guys will grow in the future" and "the organization tends to be bad when this happens". I understand that you are a counselor. 判断・識別能力で勝負できるからである。はんだん|しきべつ|のうりょく||しょうぶ||| The reason is that they can compete on the basis of their ability to judge and discriminate. この技術は、ウェブやビッグデータの領域で広く使われている。 |ぎじゅつ||||びっぐ|でーた||りょういき||ひろく|つかわ|| This technology is widely used in the web and big data domains. しかし、機械学習にも弱点がある。 |きかい|がくしゅう|||じゃくてん|| However, machine learning also has its weaknesses. それがフィーチャーエンジニアリング（ Feature engineering ）である。 |||feature|| This is feature engineering. つまり、特徴量（あるいは素性という）の設計であり、ここでは「特徴量設計」と呼ぼう（＊注 33）。 |とくちょう|りょう||すじょう||||せっけい|||||とくちょう|りょう|せっけい||よぼう|そそ In other words, it is the design of features (or features), and here we will call it "feature design" (* Note 33). 特徴量というのは、機械学習の入力に使う変数のことで、その値が対象の特徴を定量的に表す。とくちょう|りょう|||||きかい|がくしゅう||にゅうりょく||つかう|へんすう|||||あたい||たいしょう||とくちょう||ていりょう|てきに|あらわす A feature quantity is a variable used for input in machine learning, and its value quantitatively expresses the feature of the target. この特徴量に何を選ぶかで、予測精度が大きく変化する。 |とくちょう|りょう||なん||えらぶ|||よそく|せいど||おおきく|へんか| Depending on what is selected as the characteristic quantity, the accuracy of forecasting can vary greatly. たとえば、手書き文字認識では、画像の中心と大きさを調整して特徴量を設計する必要がある。 |てがき|もじ|にんしき|||がぞう||ちゅうしん||おおき|||ちょうせい||とくちょう|りょう||せっけい||ひつよう|| For example, in handwriting recognition, you need to adjust the center and size of the image to design the features. 先ほどは説明を単純化するために触れなかったが、ただピクセル単位に分けて読み込ませれば精度が上がるわけではないのだ。さきほど||せつめい||たんじゅん|か||||ふれ|||||たんい||わけて|よみ|こま||せいど||あがる|||| I didn't mention it earlier to simplify the explanation, but it doesn't mean that the accuracy will be improved if it is read in pixel units. 特徴量を何にするかが予測精度に決定的な意味を持つのは、年収を予測する問題を考えればわかりやすい。とくちょう|りょう||なん|||||よそく|せいど||けってい|てきな|いみ||もつ|||ねんしゅう||よそく||もんだい||かんがえれば|| It is easy to understand that what the feature quantity should be has a decisive meaning for the prediction accuracy, considering the problem of predicting the annual income. どこに住んでいるか、男性か女性か、といった特徴量から年収を予測するというのは、ニューラルネットワークやその他の機械学習の方法を使って学習することができる。 ||すんで|||だんせい||じょせい||||とくちょう|りょう||ねんしゅう||よそく||||||||そのほか||きかい|がくしゅう||ほうほう||つかって|がくしゅう|||| Predicting annual income from features such as where you live, male or female, can be learned using neural networks and other machine learning methods. このとき、特徴量を何にするか、言い換えると、どんな変数を読み込ませるかが予測精度に大きく寄与することは容易に想像できるだろう。 ||とくちょう|りょう||なん||||いいかえる|||へんすう||よみ|こま||||よそく|せいど||おおきく|きよ||||よういに|そうぞう|| At this time, it is easy to imagine what the features should be, in other words, what variables should be read, which greatly contributes to the prediction accuracy. 図 18 にあるように、「性別」や「居住地域」は年収と関係がありそうだが、「身長」は疑問符がつくし、「好きな色」はそれほど関係ないはずだ。ず||||せいべつ||きょじゅう|ちいき||ねんしゅう||かんけい|||そうだ||しんちょう||ぎもん|ふ|||すきな|いろ|||かんけいない| As shown in Figure 18, "gender" and "residential area" are likely to be related to annual income, but "height" is questionable and "favorite color" should not be so. それよりはむしろ、「年齢」や「職業」「業種」「保有する資格」などのほうが年収に影響する可能性が高い。 ||||ねんれい||しょくぎょう|ぎょうしゅ|ほゆう||しかく|||||ねんしゅう||えいきょう||かのう|せい||たかい Rather, "age," "occupation," "industry," and "qualifications to hold" are more likely to affect annual income. 仮に、データベースに「誕生日」という項目が入っていても、それだけではよい特徴量ではない。かりに|でーたべーす||たんじょうび|||こうもく||はいって||||||||とくちょう|りょう||| Even if the database contains an item called "birthday", that alone is not a good feature. 誕生日と現在の日付の差、つまり「年齢」という値にして初めて年収予測問題に寄与するような特徴量となる。たんじょうび||げんざい||ひづけ||さ||ねんれい|||あたい|||はじめて|ねんしゅう|よそく|もんだい||きよ|||とくちょう|りょう|| The difference between the birthday and the current date, that is, the value of "age", is the first feature that contributes to the annual income forecasting problem. ただ、こうした判断はコンピュータにはできない。 ||はんだん||こんぴゅーた|||| However, a computer cannot make these decisions. 機械学習の精度を上げるのは、「どんな特徴量を入れるか」にかかっているのに、それは人間が頭を使って考えるしかなかった。きかい|がくしゅう||せいど||あげる||||とくちょう|りょう||いれる||||||||にんげん||あたま||つかって|かんがえる|| The accuracy of machine learning depends on "what features are included", but it can only be thought by humans using their heads. これが「特徴量設計」で、機械学習の最大の関門だった。 ||とくちょう|りょう|せっけい||きかい|がくしゅう||さいだい||かんもん| This is "feature design." This was the biggest hurdle in machine learning.

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 04 (2)

人工 知能 は 人間 を 超える か Chapter 04 (2)

Want to learn Japonais? Start now!

人工知能は人間を超えるか Chapter 04 (2)

Want to learn Japonais?
Start now!