×

우리는 LingQ를 개선하기 위해서 쿠키를 사용합니다. 사이트를 방문함으로써 당신은 동의합니다 쿠키 정책.

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapt... – Text to read

人工知能は人間を超えるか (Will AI surpass human?), 人工知能は人間を超えるか Chapter 04 (1)

고급2 일본어의 lesson to practice reading

지금 본 레슨 학습 시작

人工 知能 は 人間 を 超える か Chapter04(1)

データ の 増加 と 機械 学習

第 2 次 AI ブーム で は 、「知識 」を たくさん 入れれば 、それ らしく 振る舞う こと は できた が 、基本的に 入力した 知識 以上の こと は できない 。

そして 、入力 する 知識 は 、より 実用 に 耐える もの 、例外 にも 対応 できる もの を つくろう と する ほど 膨大に なり 、いつまでも 書き 終わらない 。 根本 的に は 、記号 と それ が 指す 意味 内容 が 結びついて おらず 、コンピュータ に とって 「意味 」を 扱う こと は きわめて 難しい 。

こうした 閉塞 感 の 中 、着々 と 力 を 伸ばして きた のが 「機械 学習 ( MachineLearning )」という 技術 であり 、その 背景 に ある のが 、文字 認識 など の パターン 認識 の 分野 で 長年 蓄積されてきた 基盤 技術 と 、増加する データ の 存在 だった 。 ウェブ に 初めて ページ が できた の が 1990 年 、 初期 の 有名な ブラウザ 「 モザイク 」 が できた の が 1993 年 、 グーグル の 検索 エンジン が できた の が 1998 年 、 顧客 の 購買 データ や 医療 データ など の データマイニング の 研究 が 盛んに なり 、 国際 的 な 学会 が できた の が 同じ 1998 年 (* 注 28)。 特に 、ウェブ 上 に ある ウェブページ の 存在 は 強烈で 、ウェブページ の テキスト を 扱う こと の できる 自然 言語 処理 と 機械 学習 の 研究 が 大きく 発展 した 。

その 結果 、統計的 自然 言語 処理 (StatisticalNaturalLanguageProcessing)と 呼ばれる 領域 が 急速に 進展した 。

これ は 、たとえば 、翻訳 を 考える とき に 、文法 構造 や 意味 構造 を 考え ず 、単に 機械的に 、訳さ れ る 確率 の 高い もの を 当てはめて いけば いい という 考え方 である 。

従来 の 言語 学 で 研究 されてきた 文法 に 関する 知識 や 、文 の 伝えよう と する 意味 を きちんと 把握して 訳す のではなく 、対訳 コーパス という 日本語 と 英語 が 両方 記載された 大量の テキスト の データ を 使って 、「英語 で こういう 単語 の 場合 は 日本語 の この 単語 に 訳される 確率 が 高い 」「英語 で こういう フレーズ の 場合 は 日本語 の こういう フレーズ に 訳される 場合 が 多い 」と 単純に 当てはめていく のである 。 こうして 、従来 の 推論 や 知識 表現 と やや 異なる 分野 で 、既存 の データ を 所与 の もの として 、それ を 活用 する 研究 として 、機械 学習 の 研究 が 進んでいた 。

グーグル は 、まさに この 統計的 自然 言語 処理 の 権化 の ような 企業 であり 、創業 から 10 年 ほど で 急成長 を 遂げた 。 グーグル が 10万 ドル の 資金 を 元手 に 創業 した の が 1998年、2004年に上場した際の時価総額は230億ドル、そして2014年には3500億ドル(42兆円)となり、トヨタ自動車の2000億ドル(24兆円)を大きく上回る。

そもそも 学習 と は 何 か 。

どう なれば 学習 した と いえる の か 。 学習 の 根幹 を なす の は 「分ける 」と いう 処理 である 。 ある 事象 に ついて 判断 する 。 それ が 何 か を 認識 する 。 うまく 「分ける 」こと が できれば 、ものごと を 理解 する こと も できる し 、判断 して 行動 する こと も できる 。 「 分ける 」 作業 は 、 すなわち 「 イエス か ノー で 答える 問題 」 である 。

たとえば 、ある もの を 見た とき に 、それ が 食べられる もの か どう か 知りたい 。 これ は 、「イエス ・ノー 問題 」である 。 ある もの が 、ケーキ な の か 、お寿司 な の か 、うどん な の か 知りたい 。 これ は 、3 つ の 「イエス ・ノー 問題 」が 組み合わさった もの と 考える こと が できる 。 ある 人 に お金 を 貸して いい の か 、ある 案件 に ゴーサイン を 出して いい の か 、ある ユーザー に この 広告 を 出して いい の か 、こういった 「判断 」は 、すべて 「イエス ・ノー 問題 」に 帰着する 。

もともと 、生物 は 生存 の ため に 世界 を 分節 する 。

食べられる か 食べられ ない か 。 敵 か 味方 か 。 雄 か 雌 か 。 われわれ 人間 は より 高度な 知能 を 持って いる ので 、非常に 細かく 、一見する と 無意味な くらい 、世界 を 分節している 。

このように 、人間 に とって の 「認識 」や 「判断 」は 、基本的に 「イエス ・ノー 問題 」として とらえる こと が できる 。

この 「イエス ・ノー 問題 」の 精度 、正解率 を 上げる こと が 、学習する こと である (ここ で 言っている のは 「分類 」だが 、ほか にも 「回帰 」など の タスク も ある )。

機械 学習 は 、コンピュータ が 大量 の データ を 処理 し ながら この 「分け方 」を 自動的に 習得 する 。

いったん 「分け方 」を 習得 すれば 、それ を 使って 未知の データ を 「分ける 」こと が できる 。 いったん 「ネコ 」を 見分ける 方法 を 身に つければ 、次 から は ネコ の 画像 を 見た 瞬間 、「これ は ネコ だ 」と 瞬時 に 見分けられる という こと だ 。 「教師 あり 学習 」は 、「入力 」と 「正しい 出力 (分け方 )」が セット に なった 訓練 データ を あらかじめ 用意 して 、ある 入力 が 与えられた とき に 、正しい 出力 (分け方 )が できる ように コンピュータ に 学習 させる 。 通常 は 、人間 が 教師 役 と して 正しい 分け方 を 与える 。

たとえば 、文書 分類 であれば 、与える べき もの は 、この 文書 は 「政治系 」、この 文書 は 「経済系 」といった 文書 の カテゴリ に なる 。 画像 認識 であれば 、この 画像 は 「ヨット 」、この 画像 は 「花 」といった 具合 である 。 ロイター 通信 の データ セット (*注 30 )という の が 有名 で 、2万個 の 新聞記事 の データ に 135個 の カテゴリ が 付与されている もの が 文書分類 の 研究 では よく 使われる 。 データ の 中 に ある 一定 の パターン や ルール を 抽出する こと が 目的 である 。

全体 の データ を 、ある 共通 項 を 持つ クラスタ に 分けたり (クラスタリング )、頻出 パターン を 見つけたり する こと が 代表的 な 処理 である 。

たとえば 、ある スーパー マーケット の 購買 データ から 、遠く から 来て いて 平均 購買 単価 が 高い グループ と 、近く から 来て いて 平均 購買 単価 が 低い グループ を 見つける といった こと が 、クラスタリング である 。 また 、「おむつ と ビール が 一緒に 買わ れる こと が 多い 」と いう こと を 発見 する のが 頻出 パターンマイニング 、あるいは 相関 ルール 抽出 と 呼ばれる 処理 である 。 図 14 を 見て ほしい 。 まずは コンピュータ に 訓練 用 の データ を 読み込ませて 、記事 に 出てくる 単語 を もとに 、何らかの 空間 を つくる 。 たとえば 、記事 に 出てくる 単語 から 最も 頻出 する もの を 100 個 選んで 、それ で 100次元 の 空間 を つくる と 、1つ の 記事 は 、この 空間 上 の 1つ の 点 として 表す こと が できる 。 この 空間 で は 、同じ 単語 が 出て くる 記事 は 近く に 、出て こない 記事 は 遠く に なる ように マッピング さ れる 。

新聞 記事 に は 、「政治 」「科学 」「文化 」と いう カテゴリ が つけられている と しよう 。 ひと通り マッピング が 終わったら 、次に 、新しい テスト データ を 読み 込ま せて 、どの カテゴリ に 分類 される か を 見る 。

下 の 図 の 真ん中 の ■ が テスト データ だった と して 、これ が 3 つ の カテゴリ の うち の どこ に 分けられる か 。 図 の ように 線引き されて いれば 、テスト データ は 「政治 」に 分類 さ れる だろう 。 この 線 を どのように 引く か に よって 、分け 方 が 変わる 。 つまり 、「分ける 」という こと は 、分ける ため の 「線 を 引く 」こと と 同じ なのである (*注 31 )。

最終 的に 、「国 」「政府 」「予算 」「行政 」「与党 」など の 単語 が 出てきたら 「政治 」、「宇宙 」「物理 」「生命 」「細胞 」「コンピュータ 」など の 単語 が 出てきたら 「科学 」、「音楽 」「美術 」「絵 」「彫刻 」「アニメ 」など の 単語 が 出てきたら 「文化 」といった 具合 に 、コンピュータ が 学習 してくれたら OK だ 。

線 の 引き方 に は いろいろな 方法 が あり 、それぞれ 異なる 仮説 に 基づいて いる 。 ここ で は 代表的な 分類 の しかた を 5 つ 紹介 する 。 これ は 、一番 近い データ の カテゴリ が 当てはまる 確率 が 高い はずだ と いう 仮説 に 基づいている 。

図 14 の 例 で は 「政治 」の 文書 が 最も 近い ので 、テスト データ も 「政治 」だろう と 判断 する 。

しかし 、単純な 分 、ノイズ に 影響 さ れやすく 、「政治 」の かたまり の 中 に たまたま 「文化 」に 分類 される 記事 が 紛れ込んだ と する と 、その 周辺 は 「文化 」に 分類 されて しまう 。 たとえば 、記事 に 「与党 」と いう 単語 が 入って いた と する と 、カテゴリ の 分類 に どう 役立つ だろう か 。 「与党 」という 単語 が 入って いる と 、おそらく 「政治 」の 記事 である 強い 証拠 に なる 。 これ は 確率 的に は 次の ように 考えられる 。 すべて の カテゴリ の 記事 に 「与党 」と いう 単語 が 含まれる 確率 と 、政治 カテゴリ に 「与党 」と いう 単語 が 含まれる 確率 を 比べる 。

この 確率 の 比 が 、たとえば 「1 :10 」だ と する と 、政治 カテゴリ に log (10 /1 )、つまり 1 ポイント 追加 する 。 この 比 が 極端 である ほど 高い 点数 が 入る 。 これ を 、 調べたい 記事 中 に 含ま れる すべて の 単語 で 試し 、 最終 的 な 「 政治 」 カテゴリ の 点数 、「 科学 」 カテゴリ の 点数 、「 文化 」 カテゴリ の 点数 を 計算 し 、 最も 高い もの と 判定 する と いう もの である 。 ナイーブベイズ は 企業 の 採用 活動 を 思い浮かべる と わかりやすい 。

志望 して いる 学生 を 、採用 する か しない か という 2 つ の カテゴリ に 分類 する 。 学歴 や 職歴 、資格 の 有無 、 TOEIC の 得点 、所属 サークル など 、それぞれ の 特徴 に 基づいて 点数 を 積み上げて いく 。 最終 的に それ ら の 総合 得点 で 、「 採用 する か しない か 」 の どちら に 属する か が 決まる 。 つまり 、採用 すべき 人 が 持つ 属性 を 考え ながら 、得点 を つけていく と いう こと である 。 こうした やり方 は 、差別 と みなされて しまう 可能性 も ある ので 注意 が 必要だ が 、属性 に 基づいて 評価する ナイーブベイズ法 は 、うまく 使えば 合理的で わかりやすい 。 たとえば 、迷惑 メール を 分離 する スパムフィルター でも 、一つひとつ の キーワード が どの くらい 「迷惑 メール 度合い を 持つ か 」だけ を 数値 として 持って おけば いい ので 、大規模に 適用 できる 。

その ため 、さまざまな シーン で 実用化 されて いる 。 「与党 」という 単語 が 入って いる 集合 と 入っていない 集合 に 分ける 、「国会 」という 単語 が 入って いる 集合 と 入っていない 集合 に 分ける 、「与党 」も 「国会 」も 入っていれば 「政治 」カテゴリ という ように 、質問 の ツリー を 自動的に つくる 。 最初 に 来る 質問 は 「情報 量 が 多い もの 」、つまり 、その 単語 が 入っている か どうか を 聞く こと で 、どの カテゴリ か が だいたい わかる もの (つまり カテゴリ ごと の 偏り が 多い もの )が 自動的に 選ばれる (*注 32 )。

これ も 採用 に たとえる と 、過去 に 採用 した 人 の 傾向 から ◯× に 分かれる ツリー を つくる 。

体育 会 系 の 人 であれば 、キャプテン や 部長 を して いれば ◯ 、そう で なければ 、ほか に 目立った 活躍 が あれば ◯ 、そう で なければ × 、と いう こと を 繰り返す 。 人間 に とって は わかりやすい が 、複数 の 属性 を 組み合わせた 条件 を つくる こと が できない 、つまり 空間 を 「ななめ 」に 切る こと が できない ので 、精度 は それほど 高く ない 。 白 と 黒 の 点 を 分けたい のであれば 、白 から 見て も 黒 から 見て も 、最も 距離 が 離れた ちょうど 真ん中 で 領土 を 分けよう という こと だ 。 図 14 の 例 で 言う と 、「政治 」の 端 に ある 点 と 「科学 」の 端 に ある 点 の ちょうど 真ん中 を つないで 線 を 引いて いく と 、各 カテゴリ の 境界 に ある 点 から の 距離 は 等しく なり 、マージン は 最大 に なる 。

Learn languages from TV shows, movies, news, articles and more! Try LingQ for FREE