×

Nous utilisons des cookies pour rendre LingQ meilleur. En visitant le site vous acceptez nos Politique des cookies.


image

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 04 (1)

人工 知能 は 人間 を 超える か Chapter 04 (1)

データ の 増加 と 機械 学習

第 2 次 AI ブーム で は 、「 知識 」 を たくさん 入れれば 、 それ らしく 振る舞う こと は できた が 、 基本 的に 入力 した 知識 以上 の こと は でき ない 。

そして 、 入力 する 知識 は 、 より 実用 に 耐える もの 、 例外 に も 対応 できる もの を つくろう と する ほど 膨大に なり 、 いつまでも 書き 終わら ない 。 根本 的に は 、 記号 と それ が 指す 意味 内容 が 結びついて おら ず 、 コンピュータ に とって 「 意味 」 を 扱う こと は きわめて 難しい 。

こうした 閉塞 感 の 中 、 着々 と 力 を 伸ばして きた の が 「 機械 学習 ( MachineLearning )」 と いう 技術 であり 、 その 背景 に ある の が 、 文字 認識 など の パターン 認識 の 分野 で 長年 蓄積 されて きた 基盤 技術 と 、 増加 する データ の 存在 だった 。 ウェブ に 初めて ページ が できた の が 1990 年 、 初期 の 有名な ブラウザ 「 モザイク 」 が できた の が 1993 年 、 グーグル の 検索 エンジン が できた の が 1998 年 、 顧客 の 購買 データ や 医療 データ など の データマイニング の 研究 が 盛んに なり 、 国際 的な 学会 が できた の が 同じ 1998 年 (* 注 28)。 特に 、 ウェブ 上 に ある ウェブページ の 存在 は 強烈で 、 ウェブページ の テキスト を 扱う こと の できる 自然 言語 処理 と 機械 学習 の 研究 が 大きく 発展 した 。

その 結果 、 統計 的 自然 言語 処理 ( S t a t i s t i c a l NaturalLanguageProcessing ) と 呼ば れる 領域 が 急速に 進展 した 。

これ は 、 たとえば 、 翻訳 を 考える とき に 、 文法 構造 や 意味 構造 を 考え ず 、 単に 機械 的に 、 訳さ れる 確率 の 高い もの を 当てはめて いけば いい と いう 考え 方 である 。

従来 の 言語 学 で 研究 されて きた 文法 に 関する 知識 や 、 文 の 伝えよう と する 意味 を きちんと 把握 して 訳す ので は なく 、 対 訳 コーパス と いう 日本 語 と 英語 が 両方 記載 さ れた 大量の テキスト の データ を 使って 、「 英語 で こういう 単語 の 場合 は 日本 語 の この 単語 に 訳さ れる 確率 が 高い 」「 英語 で こういう フレーズ の 場合 は 日本 語 の こういう フレーズ に 訳さ れる 場合 が 多い 」 と 単純に 当てはめて いく のである 。 こうして 、 従来 の 推論 や 知識 表現 と やや 異なる 分野 で 、 既存 の データ を 所 与 の もの と して 、 それ を 活用 する 研究 と して 、 機械 学習 の 研究 が 進んで いた 。

グーグル は 、 まさに この 統計 的 自然 言語 処理 の 権化 の ような 企業 であり 、 創業 から 10 年 ほど で 急 成長 を 遂げた 。 グーグル が 10万 ドル の 資金 を 元手 に 創業 した の が 1998 年 、2004 年 に 上場 した 際 の 時価 総額 は 230億 ドル 、 そして 2014 年 に は 3500億 ドル (42兆 円 ) と なり 、 トヨタ自動車 の 2000億 ドル (24兆 円 ) を 大きく 上回る 。

そもそも 学習 と は 何 か 。

どう なれば 学習 した と いえる の か 。 学習 の 根幹 を なす の は 「 分ける 」 と いう 処理 である 。 ある 事象 に ついて 判断 する 。 それ が 何 か を 認識 する 。 うまく 「 分ける 」 こと が できれば 、 ものごと を 理解 する こと も できる し 、 判断 して 行動 する こと も できる 。 「 分ける 」 作業 は 、 すなわち 「 イエス か ノー で 答える 問題 」 である 。

たとえば 、 ある もの を 見た とき に 、 それ が 食べられる もの か どう か 知りたい 。 これ は 、「 イエス ・ ノー 問題 」 である 。 ある もの が 、 ケーキ な の か 、 お 寿司 な の か 、 うどん な の か 知りたい 。 これ は 、3 つ の 「 イエス ・ ノー 問題 」 が 組み合わさった もの と 考える こと が できる 。 ある 人 に お 金 を 貸して いい の か 、 ある 案件 に ゴーサイン を 出して いい の か 、 ある ユーザー に この 広告 を 出して いい の か 、 こういった 「 判断 」 は 、 すべて 「 イエス ・ ノー 問題 」 に 帰着 する 。

もともと 、 生物 は 生存 の ため に 世界 を 分 節 する 。

食べられる か 食べられ ない か 。 敵 か 味方 か 。 雄 か 雌 か 。 われわれ 人間 は より 高度な 知能 を 持って いる ので 、 非常に 細かく 、 一見 する と 無意味な くらい 、 世界 を 分 節 して いる 。

このように 、 人間 に とって の 「 認識 」 や 「 判断 」 は 、 基本 的に 「 イエス ・ ノー 問題 」 と して とらえる こと が できる 。

この 「 イエス ・ ノー 問題 」 の 精度 、 正解 率 を 上げる こと が 、 学習 する こと である ( ここ で 言って いる の は 「 分類 」 だ が 、 ほか に も 「 回帰 」 など の タスク も ある )。

機械 学習 は 、 コンピュータ が 大量の データ を 処理 し ながら この 「 分け 方 」 を 自動 的に 習得 する 。

いったん 「 分け 方 」 を 習得 すれば 、 それ を 使って 未知の データ を 「 分ける 」 こと が できる 。 いったん 「 ネコ 」 を 見分ける 方法 を 身 に つければ 、 次 から は ネコ の 画像 を 見た 瞬間 、「 これ は ネコ だ 」 と 瞬時 に 見分けられる と いう こと だ 。 「 教師 あり 学習 」 は 、「 入力 」 と 「 正しい 出力 ( 分け 方 )」 が セット に なった 訓練 データ を あらかじめ 用意 して 、 ある 入力 が 与えられた とき に 、 正しい 出力 ( 分け 方 ) が できる ように コンピュータ に 学習 さ せる 。 通常 は 、 人間 が 教師 役 と して 正しい 分け 方 を 与える 。

たとえば 、 文書 分類 であれば 、 与える べき もの は 、 この 文書 は 「 政治 系 」、 この 文書 は 「 経済 系 」 と いった 文書 の カテゴリ に なる 。 画像 認識 であれば 、 この 画像 は 「 ヨット 」、 この 画像 は 「 花 」 と いった 具合 である 。 ロイター 通信 の データ セット (* 注 30) と いう の が 有名で 、2万 個 の 新聞 記事 の データ に 135 個 の カテゴリ が 付与 されて いる もの が 文書 分類 の 研究 で は よく 使わ れる 。 データ の 中 に ある 一定 の パターン や ルール を 抽出 する こと が 目的 である 。

全体 の データ を 、 ある 共通 項 を 持つ クラスタ に 分けたり ( クラスタリング )、 頻出 パターン を 見つけたり する こと が 代表 的な 処理 である 。

たとえば 、 ある スーパー マーケット の 購買 データ から 、 遠く から 来て いて 平均 購買 単価 が 高い グループ と 、 近く から 来て いて 平均 購買 単価 が 低い グループ を 見つける と いった こと が 、 クラスタリング である 。 また 、「 おむつ と ビール が 一緒に 買わ れる こと が 多い 」 と いう こと を 発見 する の が 頻出 パターンマイニング 、 あるいは 相関 ルール 抽出 と 呼ば れる 処理 である 。 図 14 を 見て ほしい 。 まずは コンピュータ に 訓練 用 の データ を 読み 込ま せて 、 記事 に 出て くる 単語 を もと に 、 何らか の 空間 を つくる 。 たとえば 、 記事 に 出て くる 単語 から 最も 頻出 する もの を 100 個 選んで 、 それ で 100 次元 の 空間 を つくる と 、1 つ の 記事 は 、 この 空間 上 の 1 つ の 点 と して 表す こと が できる 。 この 空間 で は 、 同じ 単語 が 出て くる 記事 は 近く に 、 出て こ ない 記事 は 遠く に なる ように マッピング さ れる 。

新聞 記事 に は 、「 政治 」「 科学 」「 文化 」 と いう カテゴリ が つけられて いる と しよう 。 ひと通り マッピング が 終わったら 、 次に 、 新しい テスト データ を 読み 込ま せて 、 どの カテゴリ に 分類 さ れる か を 見る 。

下 の 図 の 真ん中 の ■ が テスト データ だった と して 、 これ が 3 つ の カテゴリ の うち の どこ に 分けられる か 。 図 の ように 線引き されて いれば 、 テスト データ は 「 政治 」 に 分類 さ れる だろう 。 この 線 を どのように 引く か に よって 、 分け 方 が 変わる 。 つまり 、「 分ける 」 と いう こと は 、 分ける ため の 「 線 を 引く 」 こと と 同じな のである (* 注 31)。

最終 的に 、「 国 」「 政府 」「 予算 」「 行政 」「 与党 」 など の 単語 が 出て きたら 「 政治 」、「 宇宙 」「 物理 」「 生命 」「 細胞 」「 コンピュータ 」 など の 単語 が 出て きたら 「 科学 」、「 音楽 」「 美術 」「 絵 」「 彫刻 」「 アニメ 」 など の 単語 が 出て きたら 「 文化 」 と いった 具合 に 、 コンピュータ が 学習 して くれたら OK だ 。

線 の 引き 方 に は いろいろな 方法 が あり 、 それぞれ 異なる 仮説 に 基づいて いる 。 ここ で は 代表 的な 分類 の しかた を 5 つ 紹介 する 。 これ は 、 一 番 近い データ の カテゴリ が 当てはまる 確率 が 高い はずだ と いう 仮説 に 基づいて いる 。

図 14 の 例 で は 「 政治 」 の 文書 が 最も 近い ので 、 テスト データ も 「 政治 」 だろう と 判断 する 。

しかし 、 単純な 分 、 ノイズ に 影響 さ れ やすく 、「 政治 」 の かたまり の 中 に たまたま 「 文化 」 に 分類 さ れる 記事 が 紛れ込んだ と する と 、 その 周辺 は 「 文化 」 に 分類 されて しまう 。 たとえば 、 記事 に 「 与党 」 と いう 単語 が 入って いた と する と 、 カテゴリ の 分類 に どう 役立つ だろう か 。 「 与党 」 と いう 単語 が 入って いる と 、 おそらく 「 政治 」 の 記事 である 強い 証拠 に なる 。 これ は 確率 的に は 次の よう に 考えられる 。 すべて の カテゴリ の 記事 に 「 与党 」 と いう 単語 が 含ま れる 確率 と 、 政治 カテゴリ に 「 与党 」 と いう 単語 が 含ま れる 確率 を 比べる 。

この 確率 の 比 が 、 たとえば 「1:10」 だ と する と 、 政治 カテゴリ に log (10/1)、 つまり 1 ポイント 追加 する 。 この 比 が 極端である ほど 高い 点数 が 入る 。 これ を 、 調べたい 記事 中 に 含ま れる すべて の 単語 で 試し 、 最終 的な 「 政治 」 カテゴリ の 点数 、「 科学 」 カテゴリ の 点数 、「 文化 」 カテゴリ の 点数 を 計算 し 、 最も 高い もの と 判定 する と いう もの である 。 ナイーブベイズ は 企業 の 採用 活動 を 思い浮かべる と わかり やすい 。

志望 して いる 学生 を 、 採用 する か し ない か と いう 2 つ の カテゴリ に 分類 する 。 学歴 や 職歴 、 資格 の 有無 、 TOEIC の 得点 、 所属 サークル など 、 それぞれ の 特徴 に 基づいて 点数 を 積み上げて いく 。 最終 的に それ ら の 総合 得点 で 、「 採用 する か し ない か 」 の どちら に 属する か が 決まる 。 つまり 、 採用 す べき 人 が 持つ 属性 を 考え ながら 、 得点 を つけて いく と いう こと である 。 こうした やり 方 は 、 差別 と みなされて しまう 可能 性 も ある ので 注意 が 必要だ が 、 属性 に 基づいて 評価 する ナイーブベイズ 法 は 、 うまく 使えば 合理 的で わかり やすい 。 たとえば 、 迷惑 メール を 分離 する スパムフィルター でも 、 一つひとつ の キーワード が どの くらい 「 迷惑 メール 度合い を 持つ か 」 だけ を 数値 と して 持って おけば いい ので 、 大規模に 適用 できる 。

その ため 、 さまざまな シーン で 実用 化 されて いる 。 「 与党 」 と いう 単語 が 入って いる 集合 と 入って いない 集合 に 分ける 、「 国会 」 と いう 単語 が 入って いる 集合 と 入って いない 集合 に 分ける 、「 与党 」 も 「 国会 」 も 入って いれば 「 政治 」 カテゴリ と いう ように 、 質問 の ツリー を 自動 的に つくる 。 最初に 来る 質問 は 「 情報 量 が 多い もの 」、 つまり 、 その 単語 が 入って いる か どう か を 聞く こと で 、 どの カテゴリ か が だいたい わかる もの ( つまり カテゴリ ごと の 偏 り が 多い もの ) が 自動 的に 選ば れる (* 注 32)。

これ も 採用 に たとえる と 、 過去 に 採用 した 人 の 傾向 から ◯× に 分かれる ツリー を つくる 。

体育 会 系 の 人 であれば 、 キャプテン や 部長 を して いれば ◯、 そう で なければ 、 ほか に 目立った 活躍 が あれば ◯、 そう で なければ ×、 と いう こと を 繰り返す 。 人間 に とって は わかり やすい が 、 複数 の 属性 を 組み合わせた 条件 を つくる こと が でき ない 、 つまり 空間 を 「 ななめ 」 に 切る こと が でき ない ので 、 精度 は それ ほど 高く ない 。 白 と 黒 の 点 を 分けたい のであれば 、 白 から 見て も 黒 から 見て も 、 最も 距離 が 離れた ちょうど 真ん中 で 領土 を 分けよう と いう こと だ 。 図 14 の 例 で 言う と 、「 政治 」 の 端に ある 点 と 「 科学 」 の 端に ある 点 の ちょうど 真ん中 を つないで 線 を 引いて いく と 、 各 カテゴリ の 境界 に ある 点 から の 距離 は 等しく なり 、 マージン は 最大 に なる 。


人工 知能 は 人間 を 超える か Chapter 04 (1) じんこう|ちのう||にんげん||こえる||chapter Will Artificial Intelligence Surpass Humans Chapter 04 (1) L'intelligence artificielle dépassera-t-elle l'homme ? Chapitre 04 (1) 인공지능은 인간을 넘는가 Chapter 04 (1) A inteligência artificial ultrapassará o ser humano Capítulo 04 (1)

データ の 増加 と 機械 学習 でーた||ぞうか||きかい|がくしゅう More Data and Machine Learning Croissance des données et apprentissage automatique 데이터 의 증가 과 기계 학습

第 2 次 AI ブーム で は 、「 知識 」 を たくさん 入れれば 、 それ らしく 振る舞う こと は できた が 、 基本 的に 入力 した 知識 以上 の こと は でき ない 。 だい|つぎ|ai|ぶーむ|||ちしき|||いれれば|||ふるまう|||||きほん|てきに|にゅうりょく||ちしき|いじょう||||| In the second AI boom, if we put in a lot of "knowledge", we could behave like that, but basically we couldn't do more than the input knowledge. Dans le deuxième boom de l'IA, la "connaissance". Dans le deuxième boom de l'IA, la "connaissance" : si vous introduisez beaucoup de connaissances, elle peut se comporter comme une IA, mais elle ne peut pas faire plus que les connaissances que vous avez introduites. 제 2 차 AI 붐 에서는 , 「 지식 」 을 많이 넣으면 , 그렇게 행동할 수는 있었지만 , 기본적으로 입력한 지식 이상 은 할 수 없다 .

そして 、 入力 する 知識 は 、 より 実用 に 耐える もの 、 例外 に も 対応 できる もの を つくろう と する ほど 膨大に なり 、 いつまでも 書き 終わら ない 。 |にゅうりょく||ちしき|||じつよう||たえる||れいがい|||たいおう||||||||ぼうだいに|||かき|おわら| And the knowledge to be input becomes so enormous that we try to make something that is more practical and can handle exceptions, and we never finish writing it. Et plus l'apport de connaissances devient pratique et exceptionnellement adaptable, plus il s'accroît et plus il faut de temps pour l'écrire. 根本 的に は 、 記号 と それ が 指す 意味 内容 が 結びついて おら ず 、 コンピュータ に とって 「 意味 」 を 扱う こと は きわめて 難しい 。 こんぽん|てきに||きごう||||さす|いみ|ないよう||むすびついて|||こんぴゅーた|||いみ||あつかう||||むずかしい Fundamentally, the sign and the meaning and content it points to are not tied together, and it is extremely difficult for a computer to handle "meaning".

こうした 閉塞 感 の 中 、 着々 と 力 を 伸ばして きた の が 「 機械 学習 ( MachineLearning )」 と いう 技術 であり 、 その 背景 に ある の が 、 文字 認識 など の パターン 認識 の 分野 で 長年 蓄積 されて きた 基盤 技術 と 、 増加 する データ の 存在 だった 。 |へいそく|かん||なか|ちゃくちゃく||ちから||のばして||||きかい|がくしゅう|machinelearning|||ぎじゅつ|||はいけい|||||もじ|にんしき|||ぱたーん|にんしき||ぶんや||ながねん|ちくせき|さ れて||きばん|ぎじゅつ||ぞうか||でーた||そんざい| Amidst this feeling of obstruction, the technology called "Machine Learning" has steadily increased its power, and the background behind this has been accumulated for many years in the field of pattern recognition such as character recognition. There was a foundational technology and an increasing amount of data. Face à ce sentiment de stagnation, l'apprentissage automatique n'a cessé de gagner en puissance. Cette évolution s'explique par la technologie fondamentale accumulée au fil des ans dans le domaine de la reconnaissance des formes, comme la reconnaissance des caractères, et par l'existence de quantités croissantes de données. ウェブ に 初めて ページ が できた の が 1990 年 、 初期 の 有名な ブラウザ 「 モザイク 」 が できた の が 1993 年 、 グーグル の 検索 エンジン が できた の が 1998 年 、 顧客 の 購買 データ や 医療 データ など の データマイニング の 研究 が 盛んに なり 、 国際 的な 学会 が できた の が 同じ 1998 年 (* 注 28)。 ||はじめて|ぺーじ|||||とし|しょき||ゆうめいな||もざいく|||||とし|||けんさく|えんじん|||||とし|こきゃく||こうばい|でーた||いりょう|でーた|||||けんきゅう||さかんに||こくさい|てきな|がっかい|||||おなじ|とし|そそ The first page on the web was created in 1990, the early famous browser "Mosaic" was created in 1993, and Google's search engine was created in 1998, data such as customer purchasing data and medical data. In 1998 (* Note 28), the research on mining became active and an international academic society was established. La première page web est apparue en 1990, avec le célèbre navigateur "Mosaic". La première page web est apparue en 1993, le moteur de recherche Google en 1998, la recherche sur l'exploration des données d'achat des clients et des données médicales est devenue populaire, et une conférence internationale a été fondée en 1998 (*Note 28). 特に 、 ウェブ 上 に ある ウェブページ の 存在 は 強烈で 、 ウェブページ の テキスト を 扱う こと の できる 自然 言語 処理 と 機械 学習 の 研究 が 大きく 発展 した 。 とくに||うえ|||||そんざい||きょうれつで|||てきすと||あつかう||||しぜん|げんご|しょり||きかい|がくしゅう||けんきゅう||おおきく|はってん| In particular, the existence of web pages on the web has been intense, and research on natural language processing and machine learning that can handle the text of web pages has made great progress.

その 結果 、 統計 的 自然 言語 処理 ( S t a t i s t i c a l NaturalLanguageProcessing ) と 呼ば れる 領域 が 急速に 進展 した 。 |けっか|とうけい|てき|しぜん|げんご|しょり|s|||||||||||naturallanguageprocessing||よば||りょういき||きゅうそくに|しんてん| As a result, an area called Statistical Natural Language Processing has made rapid progress. En conséquence, le domaine du traitement statistique du langage naturel (STATISTICAL NaturalLanguageProcessing) s'est rapidement développé.

これ は 、 たとえば 、 翻訳 を 考える とき に 、 文法 構造 や 意味 構造 を 考え ず 、 単に 機械 的に 、 訳さ れる 確率 の 高い もの を 当てはめて いけば いい と いう 考え 方 である 。 |||ほんやく||かんがえる|||ぶんぽう|こうぞう||いみ|こうぞう||かんがえ||たんに|きかい|てきに|やくさ||かくりつ||たかい|||あてはめて|||||かんがえ|かた| This is, for example, when thinking about translation, do not think about the grammatical structure or the semantic structure, but simply apply the one that has a high probability of being translated mechanically. Il s'agit d'une façon de penser selon laquelle, par exemple, lors de l'examen d'une traduction, on devrait simplement appliquer mécaniquement la traduction la plus probable, sans tenir compte des structures grammaticales et sémantiques.

従来 の 言語 学 で 研究 されて きた 文法 に 関する 知識 や 、 文 の 伝えよう と する 意味 を きちんと 把握 して 訳す ので は なく 、 対 訳 コーパス と いう 日本 語 と 英語 が 両方 記載 さ れた 大量の テキスト の データ を 使って 、「 英語 で こういう 単語 の 場合 は 日本 語 の この 単語 に 訳さ れる 確率 が 高い 」「 英語 で こういう フレーズ の 場合 は 日本 語 の こういう フレーズ に 訳さ れる 場合 が 多い 」 と 単純に 当てはめて いく のである 。 じゅうらい||げんご|まな||けんきゅう|さ れて||ぶんぽう||かんする|ちしき||ぶん||つたえよう|||いみ|||はあく||やくす||||たい|やく||||にっぽん|ご||えいご||りょうほう|きさい|||たいりょうの|てきすと||でーた||つかって|えいご|||たんご||ばあい||にっぽん|ご|||たんご||やくさ||かくりつ||たかい|えいご|||||ばあい||にっぽん|ご|||||やくさ||ばあい||おおい||たんじゅんに|あてはめて|| It is not a translation that properly grasps the knowledge about grammar that has been studied in conventional linguistics and the meaning that a sentence is trying to convey, but a large amount of text that contains both Japanese and English called a bilingual corpus. Using the data from, "A word like this in English is likely to be translated into this word in Japanese" "A phrase like this in English is often translated into a phrase like this in Japanese" I will go. Au lieu de traduire sur la base d'une connaissance de la grammaire et d'une compréhension claire du sens de la phrase, comme c'est le cas dans la recherche linguistique traditionnelle, un corpus de traduction est une grande quantité de données textuelles en japonais et en anglais qui peuvent être utilisées pour déterminer si un mot en anglais a une forte probabilité d'être traduit par ce mot en japonais, ou si un mot en anglais a une forte probabilité d'être traduit par ce mot en japonais. Si vous appliquez simplement une phrase comme celle-ci en anglais, il est probable qu'elle sera traduite par cette phrase en japonais. Il s'agit d'une manière simple d'appliquer la phrase au japonais. こうして 、 従来 の 推論 や 知識 表現 と やや 異なる 分野 で 、 既存 の データ を 所 与 の もの と して 、 それ を 活用 する 研究 と して 、 機械 学習 の 研究 が 進んで いた 。 |じゅうらい||すいろん||ちしき|ひょうげん|||ことなる|ぶんや||きそん||でーた||しょ|あずか|||||||かつよう||けんきゅう|||きかい|がくしゅう||けんきゅう||すすんで| Thus, machine learning research was advancing in fields somewhat different from conventional reasoning and knowledge representation, as research that takes existing data as given and makes use of it. Ainsi, la recherche sur l'apprentissage automatique a été menée dans des domaines quelque peu différents du raisonnement conventionnel et de la représentation des connaissances, en tant que recherche qui prend les données existantes comme données et les utilise.

グーグル は 、 まさに この 統計 的 自然 言語 処理 の 権化 の ような 企業 であり 、 創業 から 10 年 ほど で 急 成長 を 遂げた 。 ||||とうけい|てき|しぜん|げんご|しょり||ごんげ|||きぎょう||そうぎょう||とし|||きゅう|せいちょう||とげた Google is just like the incarnation of this statistical natural language processing, and it has grown rapidly in the 10 years since its inception. Google est une véritable centrale de traitement statistique du langage naturel et a connu une croissance rapide depuis sa création il y a une dizaine d'années. グーグル が 10万 ドル の 資金 を 元手 に 創業 した の が 1998 年 、2004 年 に 上場 した 際 の 時価 総額 は 230億 ドル 、 そして 2014 年 に は 3500億 ドル (42兆 円 ) と なり 、 トヨタ自動車 の 2000億 ドル (24兆 円 ) を 大きく 上回る 。 ||よろず|どる||しきん||もとで||そうぎょう||||とし|とし||じょうじょう||さい||じか|そうがく||おく|どる||とし|||おく|どる|ちょう|えん|||とよたじどうしゃ||おく|どる|ちょう|えん||おおきく|うわまわる Toyota Motor Co., Ltd. was founded in 1998 with a fund of 100,000 dollars and had a market capitalization of 23 billion dollars when it was listed in 2004, and 350 billion dollars (42 trillion yen) in 2014. It greatly exceeds the 200 billion dollars (24 trillion yen). Google a été fondé en 1998 avec un financement de 100 000 dollars. Lors de son entrée en bourse en 2004, sa capitalisation boursière s'élevait à 23 milliards de dollars et, en 2014, elle atteignait 350 milliards de dollars (42 000 milliards de yens), soit bien plus que les 200 milliards de dollars (24 000 milliards de yens) de Toyota.

そもそも 学習 と は 何 か 。 |がくしゅう|||なん| What is learning in the first place? Qu'est-ce que l'apprentissage ?

どう なれば 学習 した と いえる の か 。 ||がくしゅう||||| How can we say we have learned? Comment pouvons-nous dire que nous avons appris ? 学習 の 根幹 を なす の は 「 分ける 」 と いう 処理 である 。 がくしゅう||こんかん|||||わける|||しょり| The basis of learning is "sharing. This is a process called La base de l'apprentissage est le processus de "séparation". Le processus de "séparation" est au cœur de l'apprentissage. ある 事象 に ついて 判断 する 。 |じしょう|||はんだん| Make a decision about a certain event. Prendre une décision concernant un événement. それ が 何 か を 認識 する 。 ||なん|||にんしき| Recognize what it is. Reconnaître ce qu'il est. うまく 「 分ける 」 こと が できれば 、 ものごと を 理解 する こと も できる し 、 判断 して 行動 する こと も できる 。 |わける||||||りかい||||||はんだん||こうどう|||| If you can "divide" well, you will be able to understand things, and you will be able to judge and act. Bien séparer". Si vous y parvenez, vous pourrez comprendre les choses, juger et agir. 「 分ける 」 作業 は 、 すなわち 「 イエス か ノー で 答える 問題 」 である 。 わける|さぎょう|||いえす||のー||こたえる|もんだい| The task of "dividing" is, in other words, "the question of answering yes or no." "Séparé". En d'autres termes, il s'agit d'une question "oui ou non". Il s'agit d'une question de type "oui ou non".

たとえば 、 ある もの を 見た とき に 、 それ が 食べられる もの か どう か 知りたい 。 ||||みた|||||たべ られる|||||しり たい For example, when I see something, I want to know if it is edible. Par exemple, lorsque vous voyez quelque chose, vous voulez savoir si c'est comestible. これ は 、「 イエス ・ ノー 問題 」 である 。 ||いえす|のー|もんだい| This is a yes-no question. The first is ある もの が 、 ケーキ な の か 、 お 寿司 な の か 、 うどん な の か 知りたい 。 |||けーき|||||すし||||||||しり たい I want to know whether something is cake, sushi, or udon. Je veux savoir si quelque chose est un gâteau, des sushis ou des nouilles udon. これ は 、3 つ の 「 イエス ・ ノー 問題 」 が 組み合わさった もの と 考える こと が できる 。 ||||いえす|のー|もんだい||くみあわさった|||かんがえる||| These are the three "yes-no" questions. The combination of the two can be thought of as a combination of the following. On peut considérer qu'il s'agit d'une combinaison des trois questions "oui" et "non". Cela peut être considéré comme une combinaison des trois questions "oui-non". ある 人 に お 金 を 貸して いい の か 、 ある 案件 に ゴーサイン を 出して いい の か 、 ある ユーザー に この 広告 を 出して いい の か 、 こういった 「 判断 」 は 、 すべて 「 イエス ・ ノー 問題 」 に 帰着 する 。 |じん|||きむ||かして|||||あんけん||ごーさいん||だして|||||ゆーざー|||こうこく||だして|||||はんだん|||いえす|のー|もんだい||きちゃく| Whether it's okay to lend money to a person, give a go-ahead to a deal, or give this ad to a user, all these "judgments" are "yes no problems". Return to. Des décisions telles que prêter de l'argent à une certaine personne, donner le feu vert à un certain projet ou faire de la publicité auprès d'un certain utilisateur. Toutes ces "décisions" se résument à une "question oui/non". Toutes ces "décisions" se résument à une "question oui/non".

もともと 、 生物 は 生存 の ため に 世界 を 分 節 する 。 |せいぶつ||せいぞん||||せかい||ぶん|せつ| Originally, organisms segment the world for survival. À l'origine, les organismes vivants ont segmenté le monde pour leur propre survie.

食べられる か 食べられ ない か 。 たべ られる||たべ られ|| To eat or not to eat. 敵 か 味方 か 。 てき||みかた| Friend or foe? 雄 か 雌 か 。 おす||めす| Male or female? Homme ou femme ? われわれ 人間 は より 高度な 知能 を 持って いる ので 、 非常に 細かく 、 一見 する と 無意味な くらい 、 世界 を 分 節 して いる 。 |にんげん|||こうどな|ちのう||もって|||ひじょうに|こまかく|いっけん|||むいみな||せかい||ぶん|せつ|| Because we humans have a higher degree of intelligence, we segment the world in great detail and seemingly meaningless. Nous, les humains, sommes dotés d'une intelligence supérieure qui nous permet de segmenter le monde de manière aussi détaillée et apparemment dénuée de sens.

このように 、 人間 に とって の 「 認識 」 や 「 判断 」 は 、 基本 的に 「 イエス ・ ノー 問題 」 と して とらえる こと が できる 。 |にんげん||||にんしき||はんだん||きほん|てきに|いえす|のー|もんだい|||||| Thus, "recognition" for humans and "judgment." is basically a yes-or-no question. The following is an example of a case in which the use of the term "market" is used in the context of a market. Ainsi, "reconnaissance" et "jugement" pour les humains. et "jugement". Ainsi, les "perceptions" et les "jugements" humains peuvent être fondamentalement considérés comme des "questions oui/non". Ainsi, la "perception" et le "jugement" chez l'homme peuvent être fondamentalement considérés comme un "problème oui/non".

この 「 イエス ・ ノー 問題 」 の 精度 、 正解 率 を 上げる こと が 、 学習 する こと である ( ここ で 言って いる の は 「 分類 」 だ が 、 ほか に も 「 回帰 」 など の タスク も ある )。 |いえす|のー|もんだい||せいど|せいかい|りつ||あげる|||がくしゅう||||||いって||||ぶんるい||||||かいき||||| Increasing the accuracy and accuracy of this "yes-no problem" is to learn (this is "classification", but there are other tasks such as "regression"). Il s'agit d'une question de type "oui-non". L'apprentissage consiste à accroître la précision et l'exactitude des réponses (je parle ici de "classification", mais aussi de "régression"). (Nous parlons ici de "classification", mais il existe d'autres tâches telles que la "régression". (Nous parlons ici de classification, mais il existe également d'autres tâches telles que la régression).

機械 学習 は 、 コンピュータ が 大量の データ を 処理 し ながら この 「 分け 方 」 を 自動 的に 習得 する 。 きかい|がくしゅう||こんぴゅーた||たいりょうの|でーた||しょり||||わけ|かた||じどう|てきに|しゅうとく| In machine learning, a computer automatically learns this "division" while processing a large amount of data. L'apprentissage automatique est le processus par lequel un ordinateur traite de grandes quantités de données tout en apprenant automatiquement à les diviser. L'ordinateur apprend automatiquement cette "division" au fur et à mesure qu'il traite de grandes quantités de données.

いったん 「 分け 方 」 を 習得 すれば 、 それ を 使って 未知の データ を 「 分ける 」 こと が できる 。 |わけ|かた||しゅうとく||||つかって|みちの|でーた||わける||| Once you have mastered "dividing", you can use it to "divide" unknown data. Une fois que vous avez appris à "diviser", vous pouvez l'utiliser pour "diviser" des données inconnues. Une fois que vous avez appris à "diviser", vous pouvez l'utiliser pour "diviser" des données inconnues. Lorsque vous maîtrisez la "méthode de division", vous pouvez l'utiliser pour "diviser" des données inconnues. いったん 「 ネコ 」 を 見分ける 方法 を 身 に つければ 、 次 から は ネコ の 画像 を 見た 瞬間 、「 これ は ネコ だ 」 と 瞬時 に 見分けられる と いう こと だ 。 |ねこ||みわける|ほうほう||み|||つぎ|||ねこ||がぞう||みた|しゅんかん|||ねこ|||しゅんじ||みわけ られる|||| Once you have learned how to identify a "cat", the moment you see the image of the cat, you can instantly identify it as "this is a cat". Une fois que vous savez reconnaître un "chat", la prochaine fois que vous verrez une image de chat, vous saurez qu'il s'agit d'un chat. Une fois que vous aurez appris à reconnaître un chat, la prochaine fois que vous verrez une image de chat, vous reconnaîtrez instantanément qu'il s'agit d'un chat. La prochaine fois que vous verrez l'image d'un chat, vous pourrez le reconnaître instantanément. 「 教師 あり 学習 」 は 、「 入力 」 と 「 正しい 出力 ( 分け 方 )」 が セット に なった 訓練 データ を あらかじめ 用意 して 、 ある 入力 が 与えられた とき に 、 正しい 出力 ( 分け 方 ) が できる ように コンピュータ に 学習 さ せる 。 きょうし||がくしゅう||にゅうりょく||ただしい|しゅつりょく|わけ|かた||せっと|||くんれん|でーた|||ようい|||にゅうりょく||あたえ られた|||ただしい|しゅつりょく|わけ|かた||||こんぴゅーた||がくしゅう|| "Learning with Teachers" Input and "correct output (how to divide)" The training data with a set of input data (e.g., data for the first input) is prepared in advance, and the computer is trained to produce the correct output (division) when given a certain input. Apprentissage supervisé". Inputs" et "Correct outputs (how to divide)". et "sortie correcte (division)". Les données d'apprentissage, qui sont un ensemble d'"entrées" et de "sorties correctes (division)", sont préparées à l'avance et l'ordinateur apprend à produire la sortie correcte (division) lorsqu'une certaine entrée est donnée. 通常 は 、 人間 が 教師 役 と して 正しい 分け 方 を 与える 。 つうじょう||にんげん||きょうし|やく|||ただしい|わけ|かた||あたえる Normally, a human being acts as a teacher and gives the correct division. Normalement, un être humain agit comme un enseignant et donne la division correcte.

たとえば 、 文書 分類 であれば 、 与える べき もの は 、 この 文書 は 「 政治 系 」、 この 文書 は 「 経済 系 」 と いった 文書 の カテゴリ に なる 。 |ぶんしょ|ぶんるい||あたえる|||||ぶんしょ||せいじ|けい||ぶんしょ||けいざい|けい|||ぶんしょ|||| For example, in the document classification, what should be given is that this document is a "political system. This document is called "Economics". The categories of documents will be something like Par exemple, dans la classification des documents, les informations suivantes devraient être fournies : Ce document est un "système politique". Ce document est un document "politique", ce document est un document "économique", etc. Par exemple, dans une classification de document, la catégorie de document à indiquer serait : Ce document est un "document politique". 画像 認識 であれば 、 この 画像 は 「 ヨット 」、 この 画像 は 「 花 」 と いった 具合 である 。 がぞう|にんしき|||がぞう||よっと||がぞう||か|||ぐあい| If it's image recognition, this image is a "yacht." This image is called Flower. The result is a "good" feeling. Pour la reconnaissance d'images, cette image est un "yacht". Cette image est une "fleur". Pour la reconnaissance d'images, cette image est un "yacht", cette image est une "fleur", etc. ロイター 通信 の データ セット (* 注 30) と いう の が 有名で 、2万 個 の 新聞 記事 の データ に 135 個 の カテゴリ が 付与 されて いる もの が 文書 分類 の 研究 で は よく 使わ れる 。 ろいたー|つうしん||でーた|せっと|そそ|||||ゆうめいで|よろず|こ||しんぶん|きじ||でーた||こ||||ふよ|さ れて||||ぶんしょ|ぶんるい||けんきゅう||||つかわ| The Reuters data set (*Note 30), which consists of data from 20,000 newspaper articles with 135 categories, is well known and often used in document classification research. L'ensemble de données Reuters (*Note 30) est bien connu et souvent utilisé dans la recherche sur la classification des documents, où 135 catégories sont attribuées à des données provenant de 20 000 articles de journaux. データ の 中 に ある 一定 の パターン や ルール を 抽出 する こと が 目的 である 。 でーた||なか|||いってい||ぱたーん||るーる||ちゅうしゅつ||||もくてき| The objective is to extract certain patterns or rules from the data. L'objectif est d'extraire certains modèles et règles des données.

全体 の データ を 、 ある 共通 項 を 持つ クラスタ に 分けたり ( クラスタリング )、 頻出 パターン を 見つけたり する こと が 代表 的な 処理 である 。 ぜんたい||でーた|||きょうつう|うなじ||もつ|||わけたり||ひんしゅつ|ぱたーん||みつけたり||||だいひょう|てきな|しょり| Typical processes include dividing the overall data into clusters that have certain commonalities (clustering) and finding frequent patterns.

たとえば 、 ある スーパー マーケット の 購買 データ から 、 遠く から 来て いて 平均 購買 単価 が 高い グループ と 、 近く から 来て いて 平均 購買 単価 が 低い グループ を 見つける と いった こと が 、 クラスタリング である 。 ||すーぱー|まーけっと||こうばい|でーた||とおく||きて||へいきん|こうばい|たんか||たかい|ぐるーぷ||ちかく||きて||へいきん|こうばい|たんか||ひくい|ぐるーぷ||みつける|||||| For example, from the purchase data of a supermarket, it is clustering to find a group that comes from a distance and has a high average purchase price, and a group that comes from a close distance and has a low average purchase price. Par exemple, le regroupement est utilisé pour trouver, dans les données d'achat d'un supermarché, les groupes qui viennent de loin et ont un coût unitaire moyen élevé, et les groupes qui viennent de près et ont un coût unitaire moyen faible. また 、「 おむつ と ビール が 一緒に 買わ れる こと が 多い 」 と いう こと を 発見 する の が 頻出 パターンマイニング 、 あるいは 相関 ルール 抽出 と 呼ば れる 処理 である 。 |||びーる||いっしょに|かわ||||おおい|||||はっけん||||ひんしゅつ|||そうかん|るーる|ちゅうしゅつ||よば||しょり| In addition, it is a process called frequent pattern mining or correlation rule extraction that discovers that "diapers and beer are often bought together". Il découvre également que "les couches et la bière sont souvent achetées ensemble". Le processus appelé "extraction de motifs fréquents" ou "extraction de règles de corrélation" permet de découvrir que "les couches et la bière sont souvent achetées ensemble". 図 14 を 見て ほしい 。 ず||みて| See Figure 14. まずは コンピュータ に 訓練 用 の データ を 読み 込ま せて 、 記事 に 出て くる 単語 を もと に 、 何らか の 空間 を つくる 。 |こんぴゅーた||くんれん|よう||でーた||よみ|こま||きじ||でて||たんご||||なんらか||くうかん|| First, let the computer read the training data, and then create some space based on the words that appear in the article. Tout d'abord, il faut charger les données d'entraînement dans l'ordinateur et créer une sorte d'espace basé sur les mots qui apparaissent dans l'article. たとえば 、 記事 に 出て くる 単語 から 最も 頻出 する もの を 100 個 選んで 、 それ で 100 次元 の 空間 を つくる と 、1 つ の 記事 は 、 この 空間 上 の 1 つ の 点 と して 表す こと が できる 。 |きじ||でて||たんご||もっとも|ひんしゅつ||||こ|えらんで|||じげん||くうかん||||||きじ|||くうかん|うえ||||てん|||あらわす||| For example, if you select 100 of the most frequent words in an article and then create a 100-dimensional space, one article can be represented as a point on this space. .. Par exemple, si vous sélectionnez les 100 mots les plus fréquents dans un article et que vous créez un espace à 100 dimensions à partir de ces mots, un article peut être représenté comme un point dans cet espace. この 空間 で は 、 同じ 単語 が 出て くる 記事 は 近く に 、 出て こ ない 記事 は 遠く に なる ように マッピング さ れる 。 |くうかん|||おなじ|たんご||でて||きじ||ちかく||でて|||きじ||とおく|||||| In this space, articles with the same word are mapped closer together, and articles that do not appear farther away. Dans cet espace, les articles dans lesquels le même mot apparaît sont plus proches les uns des autres et les articles dans lesquels le même mot n'apparaît pas sont plus éloignés les uns des autres.

新聞 記事 に は 、「 政治 」「 科学 」「 文化 」 と いう カテゴリ が つけられて いる と しよう 。 しんぶん|きじ|||せいじ|かがく|ぶんか|||||つけ られて||| In the newspaper article, "Politics Science Culture Let's assume that the category of "A" is assigned. ひと通り マッピング が 終わったら 、 次に 、 新しい テスト データ を 読み 込ま せて 、 どの カテゴリ に 分類 さ れる か を 見る 。 ひととおり|||おわったら|つぎに|あたらしい|てすと|でーた||よみ|こま|||||ぶんるい|||||みる Once the mapping is complete, the next step is to load the new test data and see which category it falls into. Une fois le mappage terminé, vous pouvez charger les nouvelles données de test et voir dans quelle catégorie elles se situent.

下 の 図 の 真ん中 の ■ が テスト データ だった と して 、 これ が 3 つ の カテゴリ の うち の どこ に 分けられる か 。 した||ず||まんなか|||てすと|でーた||||||||||||||わけ られる| If the ■ in the middle of the figure below is the test data, which of the three categories can this be divided into? Si ■ au milieu du diagramme ci-dessous représente les données d'essai, dans laquelle des trois catégories peut-on les classer ? 図 の ように 線引き されて いれば 、 テスト データ は 「 政治 」 に 分類 さ れる だろう 。 ず|||せんびき|さ れて||てすと|でーた||せいじ||ぶんるい||| If the line is drawn as shown in the figure, the test data is "political. The first two are the most likely to be classified as "the most important" and "the most important". Si la ligne est tracée comme indiqué dans le diagramme, les données du test seront classées comme "politiques". Les données du test sont classées comme "politiques". この 線 を どのように 引く か に よって 、 分け 方 が 変わる 。 |せん|||ひく||||わけ|かた||かわる How you divide it depends on how you draw this line. La manière dont cette ligne est tracée influencera la façon dont la division est effectuée. つまり 、「 分ける 」 と いう こと は 、 分ける ため の 「 線 を 引く 」 こと と 同じな のである (* 注 31)。 |わける|||||わける|||せん||ひく|||おなじな||そそ In other words, "divide." This means "drawing a line" to divide. The same is true of the "other" (*Note 31). En d'autres termes, "diviser". En d'autres termes, "séparer" équivaut à "tracer une ligne" pour séparer (*Note 31). (* Note 31).

最終 的に 、「 国 」「 政府 」「 予算 」「 行政 」「 与党 」 など の 単語 が 出て きたら 「 政治 」、「 宇宙 」「 物理 」「 生命 」「 細胞 」「 コンピュータ 」 など の 単語 が 出て きたら 「 科学 」、「 音楽 」「 美術 」「 絵 」「 彫刻 」「 アニメ 」 など の 単語 が 出て きたら 「 文化 」 と いった 具合 に 、 コンピュータ が 学習 して くれたら OK だ 。 さいしゅう|てきに|くに|せいふ|よさん|ぎょうせい|よとう|||たんご||でて||せいじ|うちゅう|ぶつり|せいめい|さいぼう|こんぴゅーた|||たんご||でて||かがく|おんがく|びじゅつ|え|ちょうこく|あにめ|||たんご||でて||ぶんか|||ぐあい||こんぴゅーた||がくしゅう|||ok| Finally, when words such as "country", "government", "budget", "administration", and "ruling party" appear, words such as "politics", "space", "physics", "life", "cells", and "computer" appear. When words such as "science", "music", "art", "picture", "sculpture", and "animation" appear, it's okay if the computer learns "culture". Enfin, "pays". Gouvernement. Budget. Administration. Parti au pouvoir. Si des mots tels que "politique" apparaissent. Espace. Physique. Vie. Cellules. Ordinateurs. Si vous voyez des mots tels que : "science", "musique", "science". Musique. Art. Peinture. Sculpture. Animation. Si un mot tel que "culture" est mentionné, il s'agit de "culture". Si l'ordinateur apprend un mot, c'est bon.

線 の 引き 方 に は いろいろな 方法 が あり 、 それぞれ 異なる 仮説 に 基づいて いる 。 せん||ひき|かた||||ほうほう||||ことなる|かせつ||もとづいて| There are many ways to draw a line, each based on a different hypothesis. Il existe différentes façons de tracer la ligne, chacune basée sur une hypothèse différente. ここ で は 代表 的な 分類 の しかた を 5 つ 紹介 する 。 |||だいひょう|てきな|ぶんるい|||||しょうかい| Here are five typical classification methods. Nous présentons ici cinq méthodes de classification typiques. これ は 、 一 番 近い データ の カテゴリ が 当てはまる 確率 が 高い はずだ と いう 仮説 に 基づいて いる 。 ||ひと|ばん|ちかい|でーた||||あてはまる|かくりつ||たかい||||かせつ||もとづいて| This is based on the hypothesis that the category with the closest data should have a higher probability of fitting. Cette méthode repose sur l'hypothèse selon laquelle la catégorie dont les données sont les plus proches devrait avoir une probabilité plus élevée de correspondre.

図 14 の 例 で は 「 政治 」 の 文書 が 最も 近い ので 、 テスト データ も 「 政治 」 だろう と 判断 する 。 ず||れい|||せいじ||ぶんしょ||もっとも|ちかい||てすと|でーた||せいじ|||はんだん| In the example in Figure 14, the "politics" document is the closest, so we determine that the test data is also "politics." Dans l'exemple de la figure 14, "Politique". Dans l'exemple de la figure 14, le document "Politique" est le plus proche, de sorte que les données de test sont également "Politique". Les données de test seront également "Politique".

しかし 、 単純な 分 、 ノイズ に 影響 さ れ やすく 、「 政治 」 の かたまり の 中 に たまたま 「 文化 」 に 分類 さ れる 記事 が 紛れ込んだ と する と 、 その 周辺 は 「 文化 」 に 分類 されて しまう 。 |たんじゅんな|ぶん|||えいきょう||||せいじ||||なか|||ぶんか||ぶんるい|||きじ||まぎれこんだ|||||しゅうへん||ぶんか||ぶんるい|さ れて| However, because it is simple, it is easily affected by noise, and if an article that happens to be classified as "culture" is mixed in with a mass of "politics", the surrounding area will be classified as "culture". Toutefois, sa simplicité le rend vulnérable au bruit et à la politique. Si un article classé dans la catégorie "culture" se trouve par hasard mélangé à un groupe de "politique", la zone environnante est classée dans la catégorie "culture". Si un article classé comme "culture" est accidentellement mélangé à un groupe de "politique", la zone environnante sera classée comme "culture". Il en va de même pour la catégorie "culture". たとえば 、 記事 に 「 与党 」 と いう 単語 が 入って いた と する と 、 カテゴリ の 分類 に どう 役立つ だろう か 。 |きじ||よとう|||たんご||はいって|||||||ぶんるい|||やくだつ|| For example, if an article contained the word "ruling party," how would it help to categorize it? Par exemple, si un article contient le mot "parti au pouvoir". Comment le mot "parti au pouvoir" aiderait-il à classer l'article ? 「 与党 」 と いう 単語 が 入って いる と 、 おそらく 「 政治 」 の 記事 である 強い 証拠 に なる 。 よとう|||たんご||はいって||||せいじ||きじ||つよい|しょうこ|| "Ruling Party" The word "politics" is probably in there. This is strong evidence that the article is from a company that has been in the business for a long time. Parti au pouvoir. La présence du mot "parti au pouvoir" est probablement un indice fort que l'article est sur le thème "politique". La présence du mot "parti au pouvoir" est une forte indication que l'article est probablement sur le thème "politique". これ は 確率 的に は 次の よう に 考えられる 。 ||かくりつ|てきに||つぎの|||かんがえ られる This can be probabilistically considered as follows. Cette situation peut être considérée comme probabiliste de la manière suivante. すべて の カテゴリ の 記事 に 「 与党 」 と いう 単語 が 含ま れる 確率 と 、 政治 カテゴリ に 「 与党 」 と いう 単語 が 含ま れる 確率 を 比べる 。 ||||きじ||よとう|||たんご||ふくま||かくりつ||せいじ|||よとう|||たんご||ふくま||かくりつ||くらべる Compare the probability that articles in all categories will contain the word "ruling party" with the probability that articles in the political category will contain the word "ruling party". Probabilité qu'un article de toutes les catégories contienne le mot "parti au pouvoir". Comparer la probabilité que le mot "parti au pouvoir" soit inclus dans la catégorie Politique avec la probabilité que le mot "parti au pouvoir" soit inclus dans les articles de toutes les catégories. Comparer la probabilité que le mot "parti au pouvoir" soit présent dans la catégorie Politique avec la probabilité que le mot "parti au pouvoir" soit présent dans les articles de toutes les catégories.

この 確率 の 比 が 、 たとえば 「1:10」 だ と する と 、 政治 カテゴリ に log (10/1)、 つまり 1 ポイント 追加 する 。 |かくりつ||ひ|||||||せいじ|||||ぽいんと|ついか| If the ratio of this probability is, for example, "1:10", log (10/1), that is, 1 point is added to the political category. Le rapport de ces probabilités est, par exemple, de 1:10. Il faut alors ajouter le log (10/1), soit 1 point, à la catégorie politique. この 比 が 極端である ほど 高い 点数 が 入る 。 |ひ||きょくたんである||たかい|てんすう||はいる The more extreme this ratio is, the higher the score will be. Plus ce rapport est extrême, plus le score est élevé. これ を 、 調べたい 記事 中 に 含ま れる すべて の 単語 で 試し 、 最終 的な 「 政治 」 カテゴリ の 点数 、「 科学 」 カテゴリ の 点数 、「 文化 」 カテゴリ の 点数 を 計算 し 、 最も 高い もの と 判定 する と いう もの である 。 ||しらべ たい|きじ|なか||ふくま||||たんご||ためし|さいしゅう|てきな|せいじ|||てんすう|かがく|||てんすう|ぶんか|||てんすう||けいさん||もっとも|たかい|||はんてい||||| Try this on all the words in the article you want to look up, calculate the final score in the "politics" category, the score in the "science" category, and the score in the "culture" category, and determine that it is the highest. That's what it says. Essayez ceci avec tous les mots contenus dans l'article que vous voulez examiner et finalisez "Politique". Score dans la catégorie "Science". Score dans la catégorie "Culture". Les scores des catégories sont calculés et jugés les plus élevés. ナイーブベイズ は 企業 の 採用 活動 を 思い浮かべる と わかり やすい 。 ||きぎょう||さいよう|かつどう||おもいうかべる||| Naive Bayes is easy to understand when you think of corporate recruitment activities.

志望 して いる 学生 を 、 採用 する か し ない か と いう 2 つ の カテゴリ に 分類 する 。 しぼう|||がくせい||さいよう||||||||||||ぶんるい| Classify aspiring students into two categories: whether or not to hire them. 学歴 や 職歴 、 資格 の 有無 、 TOEIC の 得点 、 所属 サークル など 、 それぞれ の 特徴 に 基づいて 点数 を 積み上げて いく 。 がくれき||しょくれき|しかく||うむ|toeic||とくてん|しょぞく|さーくる||||とくちょう||もとづいて|てんすう||つみあげて| Scores will be accumulated based on the characteristics of each, such as educational background, work history, qualifications, TOEIC score, and affiliation circle. 最終 的に それ ら の 総合 得点 で 、「 採用 する か し ない か 」 の どちら に 属する か が 決まる 。 さいしゅう|てきに||||そうごう|とくてん||さいよう|||||||||ぞくする|||きまる Finally, the total score will be used to decide whether or not to "adopt. The first two are determined by the type of the product. つまり 、 採用 す べき 人 が 持つ 属性 を 考え ながら 、 得点 を つけて いく と いう こと である 。 |さいよう|||じん||もつ|ぞくせい||かんがえ||とくてん||||||| In other words, score the person you are hiring based on his or her attributes. こうした やり 方 は 、 差別 と みなされて しまう 可能 性 も ある ので 注意 が 必要だ が 、 属性 に 基づいて 評価 する ナイーブベイズ 法 は 、 うまく 使えば 合理 的で わかり やすい 。 ||かた||さべつ||みなさ れて||かのう|せい||||ちゅうい||ひつようだ||ぞくせい||もとづいて|ひょうか|||ほう|||つかえば|ごうり|てきで|| It is important to note that this approach can be considered discrimination, but the naive Bayesian method of evaluating based on attributes is rational and straightforward when used well. たとえば 、 迷惑 メール を 分離 する スパムフィルター でも 、 一つひとつ の キーワード が どの くらい 「 迷惑 メール 度合い を 持つ か 」 だけ を 数値 と して 持って おけば いい ので 、 大規模に 適用 できる 。 |めいわく|めーる||ぶんり||||ひとつひとつ||きーわーど||||めいわく|めーる|どあい||もつ||||すうち|||もって||||だいきぼに|てきよう| For example, even a spam filter that separates out unsolicited email may not know how "unsolicited" each keyword is. The system can be applied on a large scale since only the values need to be kept in the system.

その ため 、 さまざまな シーン で 実用 化 されて いる 。 |||しーん||じつよう|か|さ れて| Therefore, it has been put to practical use in various scenes. 「 与党 」 と いう 単語 が 入って いる 集合 と 入って いない 集合 に 分ける 、「 国会 」 と いう 単語 が 入って いる 集合 と 入って いない 集合 に 分ける 、「 与党 」 も 「 国会 」 も 入って いれば 「 政治 」 カテゴリ と いう ように 、 質問 の ツリー を 自動 的に つくる 。 よとう|||たんご||はいって||しゅうごう||はいって||しゅうごう||わける|こっかい|||たんご||はいって||しゅうごう||はいって||しゅうごう||わける|よとう||こっかい||はいって||せいじ|||||しつもん||つりー||じどう|てきに| Divide into a set that contains the word "ruling party" and a set that does not contain it, divide it into a set that contains the word "parliament" and a set that does not contain it, if both "ruling party" and "parliament" are included Automatically build a tree of questions, such as the "politics" category. 最初に 来る 質問 は 「 情報 量 が 多い もの 」、 つまり 、 その 単語 が 入って いる か どう か を 聞く こと で 、 どの カテゴリ か が だいたい わかる もの ( つまり カテゴリ ごと の 偏 り が 多い もの ) が 自動 的に 選ば れる (* 注 32)。 さいしょに|くる|しつもん||じょうほう|りょう||おおい||||たんご||はいって||||||きく||||||||||||||へん|||おおい|||じどう|てきに|えらば||そそ The first question that comes to mind is, "What's the most informative?" In other words, by asking whether the word is included or not, the category that can be determined approximately (i.e., the category with the most bias) is automatically selected (*Note 32).

これ も 採用 に たとえる と 、 過去 に 採用 した 人 の 傾向 から ◯× に 分かれる ツリー を つくる 。 ||さいよう||||かこ||さいよう||じん||けいこう|||わかれる|つりー|| If this is also compared to hiring, we will create a tree that is divided into ◯ × based on the tendency of people who have hired in the past.

体育 会 系 の 人 であれば 、 キャプテン や 部長 を して いれば ◯、 そう で なければ 、 ほか に 目立った 活躍 が あれば ◯、 そう で なければ ×、 と いう こと を 繰り返す 。 たいいく|かい|けい||じん||きゃぷてん||ぶちょう|||||||||めだった|かつやく||||||||||くりかえす If you are an athlete, repeat the following: ◯ if you are a captain or a department head, ◯ if you are active in other areas, ◯ if you are not active in other areas. 人間 に とって は わかり やすい が 、 複数 の 属性 を 組み合わせた 条件 を つくる こと が でき ない 、 つまり 空間 を 「 ななめ 」 に 切る こと が でき ない ので 、 精度 は それ ほど 高く ない 。 にんげん|||||||ふくすう||ぞくせい||くみあわせた|じょうけん||||||||くうかん||||きる||||||せいど||||たかく| It is easy for humans to understand, but the accuracy is not so high because it is not possible to create a condition that combines multiple attributes, that is, it is not possible to cut the space into "licks". 白 と 黒 の 点 を 分けたい のであれば 、 白 から 見て も 黒 から 見て も 、 最も 距離 が 離れた ちょうど 真ん中 で 領土 を 分けよう と いう こと だ 。 しろ||くろ||てん||わけ たい||しろ||みて||くろ||みて||もっとも|きょり||はなれた||まんなか||りょうど||わけよう|||| If you want to separate the white and black dots, you should divide the territory exactly in the middle, which is the furthest away, whether viewed from white or black. 図 14 の 例 で 言う と 、「 政治 」 の 端に ある 点 と 「 科学 」 の 端に ある 点 の ちょうど 真ん中 を つないで 線 を 引いて いく と 、 各 カテゴリ の 境界 に ある 点 から の 距離 は 等しく なり 、 マージン は 最大 に なる 。 ず||れい||いう||せいじ||はしたに||てん||かがく||はしたに||てん|||まんなか|||せん||ひいて|||かく|||きょうかい|||てん|||きょり||ひとしく||||さいだい|| In the example shown in Figure 14, if you draw a line connecting the point at the end of "politics" and the point at the end of "science" exactly in the middle, the distance from the point at the boundary of each category is equal. The margin is maximized.