ニュース
女子高生AI「りんな」とカメラ画像でコミュニケーション。共感視覚りんな
2018年11月5日 22:04
日本マイクロソフトは、スマートフォン向け AI「りんな」を発表した。スマホのカメラを「目」として、AIのりんなが見たものについてリアルタイムで音声コメント。ユーザーと自然な会話を楽しめるという。
スマホ用りんなは、現在提供中の女子高生設定のソーシャルAIチャットボット「りんな」に、最新の画像認識エンジン「共感視覚モデル」を搭載し、AIが“見た”風景やものなどについて、「認識結果」ではなくて「感想」を述べる。ユーザーとりんなが同じ風景、同じものを見て、それについてコミュニケーションすることができるという。
従来の画像認識技術に「感情と共感」を与えることで、リアルタイムで感情のこもったコメントを生成。ユーザーと音声による自然な会話を行なう。
例えば、従来のAIとスマホ向け「りんな」が、以下の画像にそれぞれコメントした場合、次のような違いとなる。
従来のAI:
人です。子供です。犬です。車です。
共感視覚モデル(りんな):
わぁすてきな家族。お休みかなー。あ、車が動きそう!気を付けて
りんなが、ユーザーと同じ目線で世界を見て、コミュニケーションすることで、「AIと人間がより自然な形でやりとりする世界に近づく」とする。
今回は、物理的にも心理的にもAIと人間の距離を近くすることを重視し、スマホとカメラに着目して開発。マイクロソフトリサーチによる最新の画像処理、自然言語処理、音声認識及び音声合成技術を採用している。現在開発中で、一般公開時期は未定。
- 共感視覚モデル(Empathy Vision Model):AI が「見た」ものに対して認識結果ではなく、リアルタイムで感情のこもったコメントを生成
- 全二重方式(Full duplex):会話している相手が次に何を言うかを予測し、電話のような自然な会話を実現
- 共感チャットモデル(Empathy Chat Model): ユーザーとできるだけコミュニケーションが長く続けられるように、AIが自ら考えるように設計。自然な会話を続けるために最適な回答を選択
スマートフォン向けAI「りんな」に採用されている技術