最近、OpenAIの音声入力の能力がむちゃくちゃ上がったように感じませんか?
2026年5月7日にOpenAIが GPT-Realtime-Whisper という新しいリアルタイム文字起こしモデルを発表。これはAPI向けの発表で、ChatGPTのマイク入力にそのまま入ったと発表もないので断定はできません。ただ、OpenAI全体として「低遅延の音声認識」「話している途中からの文字起こし」にかなり力を入れているのは確か。

- GPT-Realtime-2
- GPT-Realtime-Translate
- GPT-Realtime-Whisper
GPT-Realtime-Whisper 。OpenAIの公式発表では、2026年5月7日に「音声を話している最中に推論・翻訳・文字起こしできる新世代のリアルタイム音声モデル」として、この3モデルが紹介されています。
| モデル名 | 役割 | 入力 | 出力 | 主な用途 |
|---|---|---|---|---|
| GPT-Realtime-2 | リアルタイム音声エージェント | テキスト・音声・画像 | テキスト・音声 | 会話型AI、音声アシスタント、カスタマーサポート、ツール呼び出し |
| GPT-Realtime-Translate | リアルタイム音声翻訳 | 音声 | 翻訳音声+文字起こし | 同時通訳、多言語通話、配信、会議、授業 |
| GPT-Realtime-Whisper | リアルタイム音声文字起こし | 音声・テキスト | テキスト | ライブ字幕、会議メモ、通話文字起こし |
1. GPT-Realtime-2
GPT-Realtime-2 は、リアルタイム音声会話向けの推論モデルです。OpenAI公式では「最も高性能なリアルタイム音声モデル」と説明されており、音声対音声のやり取り、推論努力の調整、より強い指示追従、複雑な音声エージェントでのツール利用に対応するとされています。
特徴としては、入力がテキスト・音声・画像、出力がテキスト・音声。コンテキスト長は128,000トークン、最大出力は32,000トークンです。標準的には /v1/realtime のRealtimeセッションで使うモデルです。
要するにこれは、単なる翻訳機ではなく、話を聞いて、理解して、会話を続けたり、必要ならツールを使ったりする音声AI本体です。
2. GPT-Realtime-Translate
GPT-Realtime-Translate は、ライブ音声翻訳用のモデルです。OpenAI公式では、話者が話している最中に音声をストリーミングし、翻訳音声と文字起こしの差分を受け取れるモデルとして説明されています。用途は、ライブ通訳、多言語通話、配信、会議、授業、ビデオルームなどです。
公式発表では、70以上の入力言語から13の出力言語への翻訳に対応し、話者のペースに追いつくことを狙ったモデルとされています。
通常の音声エージェントとは仕組みが違い、GPT-Realtime-Translate は /v1/realtime/translations に接続します。OpenAI公式ドキュメントでは、音声エージェントは「assistant」として振る舞う一方、翻訳セッションではモデルが「interpreter」として振る舞い、会話ターンではなく継続的な音声ストリームから翻訳を生成すると説明されています。
つまりこれは、動画で試していたような、日本語を話すと英語音声がすぐ出る/英語を話すと日本語音声がすぐ出るという用途の中心モデルです。
3. GPT-Realtime-Whisper
GPT-Realtime-Whisper は、リアルタイム文字起こし用のストリーミング音声認識モデルです。OpenAI公式では、ライブ音声から低遅延で transcript deltas、つまり逐次的な文字起こし結果を返す用途向けと説明されています。
入力は音声・テキスト、出力はテキスト。コンテキスト長は16,000トークン、最大出力は2,000トークンです。価格はトークンではなく、音声時間ベースで、公式モデルページ上では1分あたり $0.017 とされています。
これは翻訳ではなく、話している内容をリアルタイムでテキスト化するモデルです。ライブ字幕、会議メモ、通話ログ、配信の字幕生成などに向いていてアプリ開発で人気です。



