フェイクニュースという言葉があります。
ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することです。それと同等にやばいのが、正しいかどうかわからない状態で報道することです。
問題は、この偽情報や正しいかどうか分からない情報を、多くの人が信じることで「正しい情報」と見なされてしまうことです。
この問題は、人間だけでなく、データサイエンス全般、最近流行りの機械学習やAI(人工知能)にとっても、とても大きなことです。
今回は、「ぐれるAI(人工知能)、オタクになるAI(人工知能)」というお話しです。
Contents
「女性はマルチタスクが得意」という都市伝説
例えば、「女性はマルチタスクが得意」という都市伝説があります。
都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。
この根拠になっているのは、「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)が、女性は男性に比べ厚い」という研究結果です。
この研究のサンプルが20人と少なかったため、100人に増やして研究がなされました。その結果、「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。
100人でも少ないということなのか、その後イスラエルのテルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。
しかし、「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。一部で……
なぜでしょうか。
「女性はマルチタスクが得意」の方が、「マルチタスクの得意不得意に性差なし」よりも、話題性と言うか面白みがあるからでしょうか。
この手の研究は今でも実施されているようで、結論が二転三転しています。よくわからない、というのが本当のところではないでしょうか。
フェイクなデータの存在は由々しき事態
データサイエンスやAIにとって、正しくないフェイクなデータの存在は由々しき事態です。
- そのデータで構築した予測モデルの予測結果は正しいでしょうか
- そのデータで学習したAIはどうなるのでしょうか
あまりよろしくないことだけは分かります。
誤った結論や行動につながる可能性があります。
正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば、問題はないかもしれません。
AIチャットボット
最近何かと話題のAIはどうでしょうか。
身近なAIにチャットボットというものがあります。
文章や音声を通じて会話を自動的に行うプログラムのことです。
身近過ぎて、意識しないで生活している人も多いかもしれません。
ぐれたAI「Tay(テイ)」
マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。
「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。
なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。
人種差別的発言や陰謀論、ヘイトスピーチなどです。
オタクなAI「りんな」
では、マイクロソフト社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。
こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。
2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。
日本のAIチャットボット「りんな」は、「Tay」とは全くの別人に成長しました。オタクになったのです。
「女子高生AI『りんな』はガチの「おそ松さん」腐女子だった!?」
ITmedia(2016年3月12日)
https://www.itmedia.co.jp/mobile/articles/1603/12/news014.html
データ環境によってAIの成長が大きく異なる
このようにデータ環境によって、AIの成長が大きく異なります。
つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。
子どもを教育するかのように、AIを教育する必要があるかもしれません。
正しいデータを使いAIを学習すればいいというわけでもありません。
正しいデータを使ったからと言って、人間が思い描くようなAIになるとは限らないからです。
人間社会にとって脅威となるAIが登場するかもしれません。
「人類を滅亡させる」と発言したAI
ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」(https://nlab.itmedia.co.jp/nl/articles/1603/30/news059.html)という記事(2016年3月30日)が掲載されました。
Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……
「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」
……と問題発言をしました。その後、「冗談よ」とばかりに笑みを浮かべたそうです。
「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。
つまり、AIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。
人間が思うようにできないのは、昔からある問題
この問題は、最近の話しではありません。
昔からある問題です。
予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。
さらに、正しいデータだけでも学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。
試行錯誤しながら、モデルを構築していきます。
実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。
データサイエンス全体の問題
この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。
正しくないデータが混じっている状態で、ドメインと結びつけざるえない状況はいくらでもあります。
データサイエンティストの真価が問われます。しかし、データサイエンティストだけでは荷が重すぎます。データサイエンティストだけでビジネス成果を出すのは大変です。
データリテラシーのあるビジネスパーソンが必要です。
直接的にデータサイエンティストと関わらなくても、データリテラシーのあるビジネスパーソンが多いほど、データサイエンスの実務活用は進みます。
実際、データリテラシーの高い企業の方が、そうでない企業に比べ収益が高いというデータがあるぐらいです。BI(ビジネスインテリジェンス)ツールを提供しているクリックテック社の調査(https://www.qlik.com/ja-jp/company/press-room/press-releases/1105-japan-new-research-uncovers-500-million-enterprise-value-opportunity-with-data-literacy)によると、「データリテラシー・スコアの高い組織は企業価値が最大5パーセント高いことが判明」「日本企業のデータリテラシー指数は54.9スコアで、グローバルで最も低い結果に」などとなっています。
全社的なデータリテラシーが求めらる
データ分析・活用などで成果をあげるためには、データサイエンティストだけでなく、そのサポートとする人財、さらには全社的なデータリテラシーの向上が必要です。
なぜならば、汚いかもしれないデータであればあるほど、「人」が関与する部分が大きくなるからです。
AIや統計モデルなどから出力されたものを、どの程度汚いかを前提に人が扱う必要が出てくるからです。どこまで参考にすべきか、どこが怪しいのか、どの程度割り引いて考えるべきか、などなど。
そのため、統計解析や統計モデル、機械学習、AIなどのユーザであるビジネスパーソン自体に、データリテラシーが備わってくることが重要になってきます。
今回のまとめ
今回は、「ぐれるAI(人工知能)、オタクになるAI(人工知能)」というお話しです。
伝統的な統計解析や統計モデリング、最近流行りの機械学習やAIにとっても、データは命です。命というよりも血液に似ているかもしれません。
どのようなデータ環境(教育環境???)におかれているかが、非常に重要になってきます。
AIチャットボットの例は分かりやすいので紹介しました。データ環境によって人格(正確にはAI格???)が大きく異なりました。
AIチャットボットに限らず、単純な統計モデルでさえ、大きく異なってきます。
このようなAIや統計モデルなどと付き合うには、ユーザであるビジネスパーソン自体のデータリテラシーが重要になってきます。
汚いかもしれないデータであればあるほど、「人」が関与する部分が大きくなるからです。
AIや統計モデルなどから出力されたものを、どこまで参考にすべきか、どこが怪しいのか、どの程度割り引いて考えるべきか、などなどを人間が考え扱う必要があるからです。