OpenAIは3月に音声認識や音声合成に特化した複数の新音声AIモデルを発表しました。それぞれ「gpt-4o-transcribe」や「gpt-4o-mini-transcribe」、「gpt-4o-mini-tts」と呼ばれます。
日本語含む100以上の言語に対応
今回発表された新音声AIモデルのうち、音声認識を担うのが「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」となっています。これらは音声からテキストに変換を行うモデルで、2024年に発表されたGPT-4oの音声認識から学習を重ねてさらに精度が高まったとされています
また、「gpt-4o-mini-tts」と呼ばれる音声合成モデルも発表されました。このモデルでは、何を発話するかだけでなく、どのような声や雰囲気の音声を生成するのかまで指示可能となっています。
いずれのモデルも日本語を含む100以上の言語に対応しています。一方で、リアルタイム性が損なわれているとの指摘もあり、今後の音声AIの進展に注目されます。
ChatGPTとは
ChatGPTは、OpenAIによって開発された言語生成AIで、自然な会話やテキストを生成できます。大量のテキストデータから学習し、質問応答、文章作成など多岐にわたるタスクに対応。対話形式で流暢なテキストを提供し、教育、ビジネス、エンターテイメントなど様々な分野で応用されています。。
音声AIはリアルタイム性を重視するかカスタマイズ性を重視するかの戦いになってるっぽい。