アイディアの問題報告

対象の内容

深層学習型AI(標準日本人UI)訓練用データ収集Web作成

背景 深層学習により、音声認識、音声合成の精度、画像認識、画像合成の精度が飛躍的に向上している。 こうしたAIによるマンマシンインタフェースは、行政のみならずあらゆる産業で利用されるように なると思われる。しかし訓練には膨大なデータが必要であり、これを提供出来るのは一部の企業、 実質外国勢と思われる。標準日本語の範囲であれば、それでもいいかもしれないが、各地方の 方言のレベルまではカバー仕切れない。放置しておくとどうなるか?その地方にしかない言葉、 画像はAIは認識出来ないので、例えば今後役所窓口のスマート化が図られても、人間の頃は 方言理解してくれてたのに、AIになった途端、理解してくれず、利用者はサービス低下を痛感 するだろう。解決には、まず媒介となる標準日本人AI(日本固有の言語、画像を認識する)を、 国民全体が育成する必要がある。次にそのデータ収集基盤を各地域ごとにコピーして、同様に その地域固有の言葉、画像を教え、○○県人UIとして、利用する。 要は国民ボランティアへの訓練用データのアウトソーシング。 具体的構築案 1.国の費用で簡単なWebサイトを作る。人間の育成と同じと思うので、まず幼児教育レベル から始める。絵本に出てくるレベルの言葉をHP上に提示し、国民に読み方を標準日本語で 音声入力してもらったり、関連画像をアップロードしてもらう。たぶん100万件程度集まれば とりあえずの訓練には十分と思うので、「育てよう日本人AI」等と銘打ってゲーミフィケーション 化すれば集まるだろう。所要データ量の充足度は可視化してやる気を喚起する。アップされた データは公開し、相互チェックとし、×印の多いものは、訓練用に使用しない。たまには 不適当なデータも混在するかもしれないが、大勢に影響ないだろう。 訓練は適当な機関の深層学習用のマシンで、逐次学習させ、HP上でだんだん賢くなるAIを公開 する。 2.ある程度の基本概念を学習させたら、大人の人間が分からない言葉に出会ったとき、 辞書を調べて、機知の言葉に分解して理解するように、小学校以上の教育に移る。 3.こうして、ある程度の常識を教えたAIが出来たら地方AIの育成に移る。 これは簡単で、標準日本語を提示し、その地方の訛りで発音してもらう。 地方固有の画像は、言葉

報告/依頼内容