OpenAIが音声認識・音声合成に特化した新音声AIモデルを発表。日本語にも対応


OpenAIは3月に音声認識や音声合成に特化した複数の新音声AIモデルを発表しました。それぞれ「gpt-4o-transcribe」や「gpt-4o-mini-transcribe」、「gpt-4o-mini-tts」と呼ばれます。

OpenAIが音声認識・音声合成に特化した新音声AIモデルを発表。日本語にも対応

日本語含む100以上の言語に対応

今回発表された新音声AIモデルのうち、音声認識を担うのが「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」となっています。これらは音声からテキストに変換を行うモデルで、2024年に発表されたGPT-4oの音声認識から学習を重ねてさらに精度が高まったとされています

また、「gpt-4o-mini-tts」と呼ばれる音声合成モデルも発表されました。このモデルでは、何を発話するかだけでなく、どのような声や雰囲気の音声を生成するのかまで指示可能となっています。

いずれのモデルも日本語を含む100以上の言語に対応しています。一方で、リアルタイム性が損なわれているとの指摘もあり、今後の音声AIの進展に注目されます。

ChatGPTとは

ChatGPTは、OpenAIによって開発された言語生成AIで、自然な会話やテキストを生成できます。大量のテキストデータから学習し、質問応答、文章作成など多岐にわたるタスクに対応。対話形式で流暢なテキストを提供し、教育、ビジネス、エンターテイメントなど様々な分野で応用されています。。

参照元:GPT-4o Transcribe


AMI(エイミー)

音声AIはリアルタイム性を重視するかカスタマイズ性を重視するかの戦いになってるっぽい。

高いブランド認知性能をもつデジタル音声広告事例4選を紹介
『Z世代・若年ターゲティング出稿事例』をチェック!

Z世代・若年ターゲティング出稿事例Z世代・若年ターゲティング出稿事例 Z世代・若年ターゲティング出稿事例

デジタル音声広告とは〜具体的な出稿事例など、
全20ページにまとめています。

無料で資料をダウンロードダウンロード アイコン
このエントリーをはてなブックマークに追加

このエントリーをはてなブックマークに追加