背景
深層学習により、音声認識、音声合成の精度、画像認識、画像合成の精度が飛躍的に向上している。
こうしたAIによるマンマシンインタフェースは、行政のみならずあらゆる産業で利用されるように
なると思われる。しかし訓練には膨大なデータが必要であり、これを提供出来るのは一部の企業、
実質外国勢と思われる。標準日本語の範囲であれば、それでもいいかもしれないが、各地方の
方言のレベルまではカバー仕切れない。放置しておくとどうなるか?その地方にしかない言葉、
画像はAIは認識出来ないので、例えば今後役所窓口のスマート化が図られても、人間の頃は
方言理解してくれてたのに、AIになった途端、理解してくれず、利用者はサービス低下を痛感
するだろう。解決には、まず媒介となる標準日本人AI(日本固有の言語、画像を認識する)を、
国民全体が育成する必要がある。次にそのデータ収集基盤を各地域ごとにコピーして、同様に
その地域固有の言葉、画像を教え、○○県人UIとして、利用する。
要は国民ボランティアへの訓練用データのアウトソーシング。
具体的構築案
1.国の費用で簡単なWebサイトを作る。人間の育成と同じと思うので、まず幼児教育レベル
から始める。絵本に出てくるレベルの言葉をHP上に提示し、国民に読み方を標準日本語で
音声入力してもらったり、関連画像をアップロードしてもらう。たぶん100万件程度集まれば
とりあえずの訓練には十分と思うので、「育てよう日本人AI」等と銘打ってゲーミフィケーション
化すれば集まるだろう。所要データ量の充足度は可視化してやる気を喚起する。アップされた
データは公開し、相互チェックとし、×印の多いものは、訓練用に使用しない。たまには
不適当なデータも混在するかもしれないが、大勢に影響ないだろう。
訓練は適当な機関の深層学習用のマシンで、逐次学習させ、HP上でだんだん賢くなるAIを公開
する。
2.ある程度の基本概念を学習させたら、大人の人間が分からない言葉に出会ったとき、
辞書を調べて、機知の言葉に分解して理解するように、小学校以上の教育に移る。
3.こうして、ある程度の常識を教えたAIが出来たら地方AIの育成に移る。
これは簡単で、標準日本語を提示し、その地方の訛りで発音してもらう。
地方固有の画像は、言葉
あなたの立場を選んで下さい
投票は締め切られました
33% | 67% |
このアイディアに対するコメント(13)
#001深層学習に関しては、この分野の専門家のスタンフォード大のアンドリュー准教授曰く、
AIの賢さは訓練用データの質・量と訓練用マシンパワーで決まるそうです。
だからこそ、各社は、アルゴリズムは公開すれど、訓練用データは決して公開しません。
例え新しいアルゴリズムが出たとしても、データは必要なはずで、再訓練すればいいだけのはず。
マシンは最近理研に導入された深層学習用のを使えばいいでしょう。
国のブランドで推進してこそ、日本国民の底力が発揮され多量の良質な訓練用データが集まると思います。
そういう国民性の強みを生かさない手はないと思います。
国の支出で外国勢に対抗できる量のデータが集められるとは思えません。
また、常用漢字を国が指定しているように、どの範囲の常識を教え込んだAIを育成するかは、まさしく国の役割だと思います。
最終目標は地方文化を理解出来るAIの育成です。「標準日本人AI」の育成はその中間ステップです。
「標準○○県人AI」は、一から育成する必要はなく、「標準日本人AI」にヒモつけさえすればいい事になります。
2017/03/14 08:40投稿
こういった仕組みが必要な事は理解しています。
そのうえでなのですが、目的が手段化しているように思います。
深層学習型AIを使って国民の為にどのような政策が行えるのかが大事なのであって、
政策の為の手段であるシステムが大事だとは思えません。
2017/03/15 03:27投稿
#003 うーん。具体的な改善例で言うと、役所の窓口で市民が必要書類に記入したデータを、
職員がキーボードで入力してますよね?あれがカメラにかざすだけで入力できるようになります。
職員の負荷が減ります。窓口業務の自販機かが進むと思います。10年先を想定して、地道な
準備を始めたほうがいいと思います。訛りは業務が画一化されている行政事務では、そう問題
にはならないかもしれませんが、完全無人化を目指した時、音声認識の精度をあげるには
訛り(イントネーション)をAIが認識出来ることが必要です。目的(行政の効率化)に向けた
1手段を書いたつもりです。
2017/03/15 06:42投稿
#004
とりあえず、目的が理解できたので、中立に変えました。
ただ、AIはこれからの技術なので、研究まで官が手伝うべきなんでしょうか?
個人的には僕は以下のような民間事業者もありますし、
そういった事業者が今後もどんどん産まれてきますので、
産業になりそうなところは、民間に任せて、競争してもらった後で、
生き残ったところの商品を買って、
民間事業者育成を助ける方がいいんじゃないかと思います。
スタートアップが失敗する確率は93%だと言われていますので、
そういったところに税金を突っ込んで、官自らリスクを負うよりも、
補助金なりなんなりで、事業者育成という形で、
民を応援して、結果が出たらサービスを買う方がいいんじゃないかと思います。
AI inside 株式会社|人工知能搭載手書きOCRとAIプラットフォーム
https://inside.ai/
Cogent Labs | Shaping the future with Artificial Intelligence
https://www.cogent.co.jp/
2017/03/16 02:29投稿
#005例に挙げたのは初歩的な例で、民間で出来る量のデータ量なので、ご紹介の
通り、現実に民間事業者が出てきています。しかし人間以上の音声認識能力、画像認識能力
を得ている外国のAIは、膨大なデータで訓練されており、マイクロソフトやグーグルのような
巨大企業でしかなし得ません。これは、私の意見ではなく、既に紹介したスタンフォード大のアンドリュー・ング准教授が、ある講演会で、終わった後の質疑応答で、スタートアップから「今から参入できるか?」という質問に答えて、NOと答え、あるものを(API)利用したほうがいいと助言した時の言葉です。事実アメリカでは、音声認識のアマゾンエコーAPIを組み込んだ製品が多く出てきています。日本も危機感を感じて、こういうプロジェクトを、立ち上げるようですが、膨大なデータ収集はどうしようとしてるのか不思議です。深層学習が実現できるようになったから、ブレークスルー出来たのであり、他の方法で人間の音声認識能力を超えられるとは思えません。http://www.itmedia.co.j...es/1701/10/news055.html
2017/03/16 06:55投稿
AIを作るというのには、リスクもありますので、AIを誰にでも作れるような学習データや教師データの元となるようなオープンデータ、オープンソースを官側で公開できると、いいなぁと思いました。
2017/03/16 07:12投稿
#007そうですね。オープンデータというのは、一般に官→民のアウトバウンドの
仕組みですが、深層学習時代にあっては(民)→官→民というインバウンドのデータ収集プラットフォームの仕組みも必要だと思います。ある程度共通部分のAIは国が提供し、重複の無駄を排す。
国が危機感を抱いてるのも「言葉=文化」なので、日本人と同じように日本語を解する
AIの育成が必須となります。同様の構図で「訛り=地方文化」なので、その地方の言葉を解する
AIの育成が必要となります。これが出来れば、地方AI←→標準日本語AI←→外国語AIという
連携により、その土地の人が、普段のしゃべりかたそのままで訪日外国人と会話できるようになります。標準語を強制されずに済む。その土地の文化が守られるという事です。
この事実に早く地方の人が気づいてくれればと願うばかりです。その土地のAIを育てるには、
その土地の人が育てるしかありません。今回の投稿はその実現のための案です。最後になりましたが、当方の投稿にコメント頂きありがとうございました
2017/03/16 08:06投稿
#008
なるほど。
つまり、海外で製品が出来ているのはAI学習可能なデータセット(API等)が豊富にあり、
日本にはないので、国の中に死蔵されているデータを公開データとして整備することで、
よりAI産業育成を進めるべきという事でしょうか?
機械学習(AI)って特化した目的のデータセットとその解答データの組み合わせから、
特徴となる情報を抜き出して、正解の可能性を上げるというシステムなので、
例えば幼児教育レベルの学習データを用意するなら、
何の画像を用意すべきなのか、ちょっと想像つかないです。
※もしかしたら認識間違ってたらすいません。
例えば、役所の届け出申請情報をスキャンした画像と実際に職員が入力した情報の結果セットとかを
匿名化して公開すれば、文字認識の結果セットとかは作れそうですね。
2017/03/16 10:21投稿
#009必要なのはタグ付けデータです。
手書き文字認識システムもありますが、おそらく古いやりかた(特徴量のプログラミング)
で作っているはずなので、汚い手書きだと読み取れないでしょう。ここで一段と精度を上げるには
深層学習使うしかないのではと思います。
特定分野(記入文字種が限定される)では既に下記のような取り組みが始まってるので、役所の申請書類の場合、
書式は分かっているので、通常のプログラミングで入力欄の位置を特定し、あとはAIが手書き文字を読み取るだけでいいと思います。
http://www.sankei.com/p...9/dly1611090024-n1.html
幼児教育の例は、上記の短期的、現実的なAIの話ではなく、長期的な話で、いわばAIに常識を教えて、
ある程度汎用的な利用に耐えるものを、作る必要がでてくるのではと思ったからです。
単に基本的な概念に関し、対応する文言、読み、画像を大量収集していくという意味です。
高度な推論型AIに移った時、土台となる概念を理解してないと意味不明と思うので。
2017/03/16 12:24投稿
投票したユーザ
- 賛成: forestsunspot
- 中立: ジャイトニオ猪場tigersun2000
- 反対: (投票なし)
そのAIを育成するための費用、計算速度、どのAPIを用いるのか、マイクロソフトでも無しえていない強いAIを国を挙げて作るのか、さらに近年ではニューラルネットワークに変わるアルゴリズムが出現する可能性がある中で、国が主体となってニューラルネットワークを推進するのか。補助金を出すのは良いのではないかと思う。民が主体となり試行錯誤してもる方が良いのではないかと思った。
2017/03/14 01:14投稿