ニュース

女子高生AI「りんな」とカメラ画像でコミュニケーション。共感視覚りんな

臼田勤哉

2018年11月5日 22:04

日本マイクロソフトは、スマートフォン向け AI「りんな」を発表した。スマホのカメラを「目」として、AIのりんなが見たものについてリアルタイムで音声コメント。ユーザーと自然な会話を楽しめるという。

スマホ用りんなは、現在提供中の女子高生設定のソーシャルAIチャットボット「りんな」に、最新の画像認識エンジン「共感視覚モデル」を搭載し、AIが“見た”風景やものなどについて、「認識結果」ではなくて「感想」を述べる。ユーザーとりんなが同じ風景、同じものを見て、それについてコミュニケーションすることができるという。

りんなね、「見て」「聞いて」「話せる」ようになったよ

従来の画像認識技術に「感情と共感」を与えることで、リアルタイムで感情のこもったコメントを生成。ユーザーと音声による自然な会話を行なう。

例えば、従来のAIとスマホ向け「りんな」が、以下の画像にそれぞれコメントした場合、次のような違いとなる。

従来のAI：
人です。子供です。犬です。車です。
共感視覚モデル(りんな)：
わぁすてきな家族。お休みかなー。あ、車が動きそう！気を付けて

りんなが、ユーザーと同じ目線で世界を見て、コミュニケーションすることで、「AIと人間がより自然な形でやりとりする世界に近づく」とする。

今回は、物理的にも心理的にもAIと人間の距離を近くすることを重視し、スマホとカメラに着目して開発。マイクロソフトリサーチによる最新の画像処理、自然言語処理、音声認識及び音声合成技術を採用している。現在開発中で、一般公開時期は未定。

共感視覚モデル(Empathy Vision Model)：AI が「見た」ものに対して認識結果ではなく、リアルタイムで感情のこもったコメントを生成
全二重方式(Full duplex)：会話している相手が次に何を言うかを予測し、電話のような自然な会話を実現
共感チャットモデル(Empathy Chat Model)：ユーザーとできるだけコミュニケーションが長く続けられるように、AIが自ら考えるように設計。自然な会話を続けるために最適な回答を選択