NTTが、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me」の研究開発を進めていることを明かしました。NTT版大規模言語モデル「tsuzumi」を活用したこの技術は、自分自身に代わって人とのコミュニケーションやコミュニティ活動などを行うことができるといいます。NTTは研究開発として公開実証等を進めていくとのことです。
今回、「Another Me®」のための技術として、NTTはNTT版大規模言語モデル「tsuzumi」の拡張技術を開発し、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」を開発しました。それに加え、少量の音声データから個人の声色を反映した音声を合成できる「Zero/Few-shot音声合成技術」を開発しています。
「Another Me」に搭載された2つの技術とは
対象の個人に特化した発話生成が可能な「個人性再現対話技術」
- 少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する技術。
- ペルソナ対話技術とアダプタ技術を組み合わせ、少ないデータでも効率的な学習が可能に。
- 個人アダプタを使用し、個人ごとに追加されるモデルのサイズが小さく、多人数の対話の再現を効率的に実現。
より少ないデータから生成可能となる「Zero/Few-shot音声合成技術」
- 少ない音声データからでも高品質かつ多様な表現の音声を合成可能な技術。
- Zero-shot音声合成技術は数秒程度の音声から声色の特徴を抽出し、簡易な再現を実現。
- Few-shot音声合成技術は数分~10分程度の音声データから高い再現度の音声を合成することができる。
今後はデジタルコミュニケーションでの適用も
これらの技術により、デジタル分身「Another Me」を少量データから実現可能となるため、メタバースなどのデジタルコミュニケーションサービスへの適用が進むと考えられます。
ユーザーはデジタル分身を通じて、他のユーザーやそのデジタル分身とコミュニケーションを取り、その内容をユーザ本人に持ち帰って共有することができるといいます。またデジタル分身を活用することで、知らない人に話しかける障壁や時間的制約がなくなり、興味関心が合うユーザとの友達づくりのきっかけを得ることができます。これにより、コミュニティ活動やファンコミュニティの拡大が期待できるということです。
2024年度中の提供を目指す
NTTでは、NTTドコモの最新技術を活用したメタコミュニケーションサービス「MetaMe」上でのフィールド実験を通じて、技術の精度向上を図り、ユーザのデジタル分身を通じた人間関係の創出効果に関する取り組みを進めるとしています。さらに、2024年度中には、NTT版大規模言語モデルtsuzumiによる個人性再現機能の提供を目指しており、特定の領域に関する高い専門的な言語能力を有するデジタルヒューマンやチャットボットの実現に向けて取り組む方針を示しています。
Meta Meとは
MetaMeは、NTTドコモが取り組む新規事業創出プログラム「docomo STARTUP」から生まれ、Relicがサービス提供している、新たなつながりを結ぶメタコミュニケーションのプラットフォームです。ここでは自分自身を投影したアバターである「another me」を通して、価値観の合う仲間とコミュニティを形成することができます。
参照/引用元:大規模言語モデルに個人の発話を効率よく再現させる個人性再現対話技術を開発
分身が代わりにコミュニケーション取ってくれるって、すごい世界。もはや遠隔操作型のスタンドじゃん。