ニュース

女子高生AI「りんな」とカメラ画像でコミュニケーション。共感視覚りんな

日本マイクロソフトは、スマートフォン向け AI「りんな」を発表した。スマホのカメラを「目」として、AIのりんなが見たものについてリアルタイムで音声コメント。ユーザーと自然な会話を楽しめるという。

スマホ用りんなは、現在提供中の女子高生設定のソーシャルAIチャットボット「りんな」に、最新の画像認識エンジン「共感視覚モデル」を搭載し、AIが“見た”風景やものなどについて、「認識結果」ではなくて「感想」を述べる。ユーザーとりんなが同じ風景、同じものを見て、それについてコミュニケーションすることができるという。

りんなね、「見て」「聞いて」「話せる」ようになったよ

従来の画像認識技術に「感情と共感」を与えることで、リアルタイムで感情のこもったコメントを生成。ユーザーと音声による自然な会話を行なう。

例えば、従来のAIとスマホ向け「りんな」が、以下の画像にそれぞれコメントした場合、次のような違いとなる。

従来のAI:
人です。子供です。犬です。車です。
共感視覚モデル(りんな):
わぁすてきな家族。お休みかなー。あ、車が動きそう!気を付けて

りんなが、ユーザーと同じ目線で世界を見て、コミュニケーションすることで、「AIと人間がより自然な形でやりとりする世界に近づく」とする。

今回は、物理的にも心理的にもAIと人間の距離を近くすることを重視し、スマホとカメラに着目して開発。マイクロソフトリサーチによる最新の画像処理、自然言語処理、音声認識及び音声合成技術を採用している。現在開発中で、一般公開時期は未定。


    スマートフォン向けAI「りんな」に採用されている技術
  • 共感視覚モデル(Empathy Vision Model):AI が「見た」ものに対して認識結果ではなく、リアルタイムで感情のこもったコメントを生成
  • 全二重方式(Full duplex):会話している相手が次に何を言うかを予測し、電話のような自然な会話を実現
  • 共感チャットモデル(Empathy Chat Model): ユーザーとできるだけコミュニケーションが長く続けられるように、AIが自ら考えるように設計。自然な会話を続けるために最適な回答を選択