ChatGPT-4oの画像生成機能「4o Image Generation」の実力+Sora

ブログ

2025年3月25日、OpenAIはChatGPTのGPT-4oモデルをアップデートし、「4o Image Generation」と呼ばれる画像生成機能を実装しました。
これにより、ChatGPTがプロンプトに基づきネイティブに画像を生成することが可能になり、従来の生成AIとは一線を画す新しい表現力を手に入れました。
これまでChatGPTで画像を生成する場合、DALL·Eという外部の画像生成モデルを呼び出して実行していました。これは便利ではあったものの、プロンプトの一部が無視されたり、文字の描写が崩れたりといった制約がありました。(初期は酷かった

今回のアップデートにより、GPT-4oは画像生成機能を内部的に統合し「ChatGPTが直接絵を描く」という感じになりました。
これにより、マルチモーダル、精緻な描写、文字表現、構図指定、さらにはキャラクターの同一性維持など、より高度な表現が可能となりました。

GPT-4o画像生成の注目ポイント
1. 指示への高い追従性
ユーザーが与えたプロンプトに極めて忠実に従い、具体的なポーズや構図、衣装、雰囲気などを反映した画像を出力できます。
「〇〇風」といった指示が反映されます。

2. 日本語テキスト描写が可能に
これまで難しかった看板やロゴなど、意味のある文字を含む画像が自然に描かれるようになりました。これはUI設計や資料制作にも活用しやすい機能です。

3. キャラクターの一貫性維持
同じキャラクターを複数回登場させ、外見や表情が大きくブレることなく描写されます。これにより、連作やストーリー性のある作品制作がスムーズになります。

4. 画像の部分編集(Inpainting)
生成済みの画像の一部だけを修正したり、アイテムを追加・削除したりといった柔軟な操作が可能になっています。

5. 透過背景・ベクター形式の出力
透過PNGなど、編集しやすい形式での出力も対応しており、業務レベルでの画像利用にも適しています。LINEスタンプなんか作れてしまいます。


実践1:「指示の繊細さ」に対する反応速度と想像以上に高精度な画像とテキストが生成されました。
「東京のビル街にある大きい看板で、写真のチーズバーガーを宣伝する広告。2000円という価格が表示されている」

実践2:「キャラクターの維持」に対する実験
微妙に変わるものの、DALEーEと比べたらものすごい進歩です。

Midjourneyで生成した元画像
カラー化
水彩画に

GPT-4oによる画像生成機能は、これまでの「お遊びAI」から一歩踏み込んだ、実用性の高いビジュアル生成ツールへと進化しています。的確な指示追従、キャラクターの継続性、文字描写の正確さ──
これらは、ウェブ制作だけじゃなく様々な創作活動にも、業務にも、大きな武器となるでしょう。

今後も進化が期待されるAI。クリエイティブな作業の中に、AIが自然に溶け込む未来が、加速度上げてすぐそこまで来ているようです。Sora追加したり動画ソフト使えると自由度はもっと上がる。

水彩画バージョンを全身に
Soraで微妙に動かしています
全部を動画ソフトに入れて一つに

岡山のホームページ作成