ChatGPT Plusユーザー向けの高度な音声モード:感情と非言語的合図に応答する新機能

感情を理解し、リアルタイムで応答する最新のAI音声技術とは?

OpenAIの高度な音声モードが選ばれたユーザーに提供開始

はじめに

OpenAIの高度な音声モードが発表から2か月後、選ばれたChatGPT Plusユーザーに提供開始されました。この機能は当初先月リリースされる予定でしたが、安全性の理由から遅延していました。

高度な音声モードとは?

高度な音声モードは、ChatGPTにおいてより自然なリアルタイムの会話を実現する機能であり、感情や非言語的な合図を拾って応答します。この新しい音声機能は現在限定されたアルファフェーズにあり、1万人のユーザーのみがアクセス可能です。アルファに招待された場合、使用方法の指示が記載されたメールを受け取ります。全てのPlusユーザーがこの機能にアクセスできるのは秋頃の予定です。

高度な音声モードの使い方

設定は非常に簡単です。ChatGPTアプリを開くと、画面右下に高度な音声モードを試すよう案内するツールチップが表示されます。会話を開始するには、画面右下の音声アイコンを選択します。マイクのミュートや会話の終了は画面左下のマイクアイコンと右下の赤いアイコンで行います。なお、この機能を使用するにはChatGPTアプリにマイクの使用許可を与える必要があります。

高度な音声モードの制限

音声入力と出力の使用は日毎に制限されており、具体的な制限は変動します。残りの音声利用可能時間が3分になると通知され、制限に達すると会話が即座に終了し、標準音声モードの使用を促されます。

興味深い例

以下はX(旧Twitter)で共有された興味深い例です。

ライブ翻訳: ChatGPTが日本語のテキストを英語に翻訳する様子が紹介されています。この例では、視覚と音声の両方の機能を組み合わせて使用しています。
https://x.com/ManuVision/status/1818412120373182928

日本語で話す: ChatGPTが日本語で物語を興奮した口調で語る様子が紹介されています。

ラップとビートボックス: ChatGPTがラップとビートボックスを披露する様子も見られます。

不気味な音を作る: 高度な音声モードは、PCゲームのナレーションやインディーホラー映画に最適な不気味な音も作成できます。

声優として: ChatGPTが非常に速く数を数えるよう依頼され、途中で息を整える様子も見られます。

安全性について

OpenAIのスポークスパーソンは、ChatGPTの新しいモードが声優によって作成された4つのプリセット音声のみを使用することを明言しています。他人の声を模倣することはできず、これらのプリセット音声と異なる出力はブロックされます。

音声データの使用について

アルファフェーズ中、ユーザーが音声を共有した場合、その音声データはモデルのトレーニングに使用されます。ユーザーは「Improve voice for everyone」を無効にすることで音声トレーニングをオプトアウトできます。

結論

高度な音声モードの実際のハンズオン動画を見て、私は非常に感銘を受けました。AIが感情を模倣し、異なる言語を話し、チューターやサッカーの解説者としても機能する能力は驚くべきものです。

次回もお楽しみに!
ニュースレターでAIの最新のニュースを配信中!
今だけ無料登録中配信中です!