← 返回博客
CodeGateway

3 个图像 API 实测:Imagen 4 / Gemini 2.5 Flash Image / GPT Image,谁更适合谁的活

2026年5月9日
3 个图像 API 实测对比 - Imagen 4 / Gemini 2.5 Flash Image / GPT Image 横向比拼 cover

3 个图像 API 实测:Imagen 4 / Gemini 2.5 Flash Image / GPT Image,谁更适合谁的活

作者:CodeGateway 团队 · 实测于 2026-05

一句话:选图像 API 的大坑是看官方 demo——它们都好看。真实场景下,写实风格、卡通、信息图、UI 模拟、含中文文字标注,每个 API 在各自的强项区差距其实显著得离谱

本文是一次真实评测。同一个 Key 调 3 个上游图像 API(Google Imagen 4、Google Gemini 2.5 Flash Image、OpenAI GPT Image),用同样的 prompt 和场景跑 16 张图,按 5 个维度横向比。出图素材来自Sprint 4b 真实博客配图 dogfood结论用一张推荐表收——不绕弯子。

目录

  1. 评测维度:5 个真实场景里关心的事
  2. 同 prompt 三家横向比
  3. 按维度逐项打分
  4. 场景推荐速查表
  5. 一个 Key 切三家:实操配置
  6. 实战 16 张图的成本回顾
  7. FAQ
  8. 相关资料

评测维度:5 个真实场景里关心的事

不评"通用画质"——那是榜单数据 + 主观感受。评 5 个开发者真实在用的维度

  1. 中文文字渲染:图里要写中文标注(信息图、步骤图、对比图)。中文字符特别考验模型——错字、模糊、字形怪异是常见雷区。
  2. 写实 / 概念插画:博客 hero、产品 landing 图、稿件配图。这类图不要 cartoon 感,要 editorial 干净专业。
  3. 卡通 / UI 风格:mockup、moodboard、demo 截图。要有"产品级 UI"质感,不是手绘卡通。
  4. 速度:API 调用从发请求到 base64 返回的端到端延迟。批量任务时这是瓶颈。
  5. 成本:按图固定 vs 按 token,10-100 张时哪种结构有优势。

同 prompt 三家横向比

5 个 prompt 测试,每 prompt 同时投给 3 个模型,对比效果。

Prompt 1:含中文文字的信息图

plaintext
A clean three-layer architecture diagram, horizontally stacked panels:
top panel labeled "网络链路层" (purple #8B5CF6 stripe),
middle panel labeled "TLS 层" (lighter violet stripe),
bottom panel labeled "模型推理层" (deep violet stripe).
Each panel has a small icon. Modern minimal infographic.
Prompt 1 含中文文字信息图 - Imagen 4 实测
Imagen 4
Prompt 1 含中文文字信息图 - Gemini 2.5 Flash Image 实测
Gemini 2.5 Flash Image
Prompt 1 含中文文字信息图 - GPT Image 2 实测
GPT Image 2

模型

中文渲染

备注

Imagen 4 (std)

⚠️ 中文常变形或缺笔

写实强,但文字弱

Gemini 2.5 Flash Image

✅ 中文清晰可读

中文场景可用

GPT Image 2

✅ 中文最准确

这个场景的推荐方案

结论:含中文文字标注 → GPT Image 2 优选,Gemini 备选,Imagen 4 不适合。

Prompt 2:博客 hero 写实概念插画

plaintext
A minimalist flat illustration showing a frustrated developer at a laptop,
the laptop screen displaying a terminal window with red error text,
soft purple gradient background, clean modern tech aesthetic, no text,
professional editorial composition.
Prompt 2 写实概念插画 - Imagen 4 实测
Imagen 4
Prompt 2 写实概念插画 - Gemini 2.5 Flash Image 实测
Gemini 2.5 Flash Image
Prompt 2 写实概念插画 - GPT Image 2 实测
GPT Image 2

模型

视觉质感

备注

Imagen 4 std

✅ Editorial 感顶级

概念插画的天花板

Gemini 2.5 Flash Image

⚠️ 偏图标化、缺 editorial 质感

不是这个 strength

GPT Image 2 medium

✅ 风格干净 + 原生支持 16:9 横版

hero 容器友好

结论:写实概念博客 hero → Imagen 4 std 默认,需要 16:9 横版用 GPT Image 2 medium。Gemini 在这场景偏弱。

Prompt 3:UI 卡片 mockup

plaintext
A clean mockup of a developer dashboard card showing API usage stats:
"Total Tokens" header, a number "1,234,567", a small bar chart trend line,
rounded corners, soft shadow, dark mode with purple accent.
Prompt 3 UI 卡片 mockup - Imagen 4 实测
Imagen 4
Prompt 3 UI 卡片 mockup - Gemini 2.5 Flash Image 实测
Gemini 2.5 Flash Image
Prompt 3 UI 卡片 mockup - GPT Image 2 实测
GPT Image 2

模型

UI 质感

备注

Imagen 4

⚠️ 偏插画感

不在 strength 区

Gemini 2.5 Flash Image

✅ 数字渲染准 + 清晰

数据卡片场景强

GPT Image 2 medium

✅ 最像真实产品 UI

UI mockup 的推荐方案

结论:产品 UI mockup / 卡片 / 模拟截图 → GPT Image 2 medium 优先;含数字标注的卡片 → Gemini 也行。

Prompt 4:抽象/纹理/装饰图

plaintext
A minimal abstract illustration with soft purple gradient,
overlapping geometric shapes, no text, subtle grain texture,
modern editorial style.
Prompt 4 抽象装饰 - Imagen 4 fast 实测
Imagen 4 fast
Prompt 4 抽象装饰 - Gemini 2.5 Flash Image 实测
Gemini 2.5 Flash Image
Prompt 4 抽象装饰 - GPT Image 2 实测
GPT Image 2

模型

美学

备注

Imagen 4 fast

✅ 性价比顶级

$0.02/图,装饰图首选

Gemini 2.5 Flash Image

⚠️ 偏功能化、缺艺术感

错位

GPT Image 2

✅ 美学 OK

但慢且贵

结论:纯装饰 / 抽象插画 / 背景图 → Imagen 4 fast。$0.02/图、画面干净、批量友好。

Prompt 5:步骤流程图(带 1-2-3 编号 + 简短中文文字)

plaintext
A 3-step horizontal flowchart on white background,
three circles connected by arrows in purple color scheme,
each circle labeled "1 注册"、"2 配置"、"3 上线",
modern minimal flat design.
Prompt 5 步骤流程图(含中文)- Imagen 4 实测
Imagen 4
Prompt 5 步骤流程图(含中文)- Gemini 2.5 Flash Image 实测
Gemini 2.5 Flash Image
Prompt 5 步骤流程图(含中文)- GPT Image 2 实测
GPT Image 2

模型

编号渲染

中文渲染

备注

Imagen 4

⚠️ 数字 OK / 中文乱

不适合

Gemini 2.5 Flash Image

✅ 数字 + 中文都准

备选

GPT Image 2

✅ 数字 + 中文最准

步骤图推荐

结论:步骤图 / 编号信息图(含中文)→ GPT Image 2 优选,Gemini 备选。


按维度逐项打分

把上面 5 个 prompt 的表现归并到 5 个评分维度(1-5 分制):

维度

Imagen 4 fast

Imagen 4 std

Gemini 2.5 Flash Image

GPT Image 2 medium

中文文字渲染

1

2

4

5

写实/概念插画

4

5

2

4

卡通 / UI 风格

2

3

3

5

速度(端到端)

5 (~7-9s)

4 (~10-12s)

3 (~8-17s)

1 (~56-71s)

成本(按图)

5 ($0.02)

4 ($0.04)

3 (~$0.06)

4 ($0.041)

场景适配总分

17

18

16

17

总分相近,但单项差距大 — 这正是"按场景选"而不是"选强项综合"的依据。

价格补充说明

CodeGateway 把 4 个模型的真实计费透传:

  • Imagen 4 fast:$0.02 / 图(按图固定,不随 prompt / 分辨率变)
  • Imagen 4 std:$0.04 / 图
  • Imagen 4 ultra:$0.06 / 图(旗舰单图)
  • Gemini 2.5 Flash Image:按 token(输入 $0.30/MTok + 文本输出 $2.50/MTok + 图像输出 $30/MTok)实测单图 ~$0.04-0.08
  • GPT Image 2:按 quality × aspect 矩阵(low $0.005-0.006、medium $0.041-0.053、high $0.165-0.211)

加上 CodeGateway 的 1.2x-1.5x 阶梯倍率,混用比单边消费更快下倍率档(详见 阶梯倍率详解)。


场景推荐速查表

直接抄到你的 spec 决策注释里:

场景

首选

备选

单图成本

博客 hero(1:1)

Imagen 4 std

Imagen 4 fast

$0.04 / $0.02

博客 hero(16:9 横版)

GPT Image 2 medium

$0.041

博客文中插图(写实)

Imagen 4 fast

Imagen 4 std

$0.02 / $0.04

博客文中信息图(含中文标注)

GPT Image 2 medium

Gemini 2.5 Flash Image

$0.041

博客文中步骤图 / 流程图

GPT Image 2 medium

Gemini 2.5 Flash Image

$0.041

产品 UI mockup / 卡片模拟

GPT Image 2 medium

Gemini

$0.041

纯装饰 / 抽象 / 背景图

Imagen 4 fast

$0.02

OG 抓图(1.91:1 接近 16:9)

GPT Image 2 medium

Imagen 4 std + 客户端裁切

$0.041

Logo / 品牌图(精确还原)

不要用 AI 生图

最后一行强调:logo / 商标 / 品牌识别物从不用 AI 生图。版权、风险、保真度都不合格——用真实设计文件。


一个 Key 切三家:实操配置

CodeGateway 一把 sk-cg- 开头的 Key 三家上游通吃——不需要分别去 Google / OpenAI 注册账号、绑国际信用卡、配 service account。

Endpoint 共用

bash
POST https://api.codegateway.dev/v1/images/generations

不同模型靠请求 body 里的 model 字段分流:

bash
# Imagen 4 fast
curl -X POST https://api.codegateway.dev/v1/images/generations \
-H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"imagen-4.0-fast-generate-001","prompt":"...","n":1,"response_format":"b64_json"}'

# Gemini 2.5 Flash Image
curl -X POST https://api.codegateway.dev/v1/images/generations \
-H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"gemini-2.5-flash-image","prompt":"...","aspect_ratio":"1:1","response_format":"b64_json"}'

# GPT Image 2 medium 1536x1024
curl -X POST https://api.codegateway.dev/v1/images/generations \
-H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"gpt-image-2","prompt":"...","size":"1536x1024","quality":"medium","response_format":"b64_json"}'

Spec 文件里混搭三家

实战中的 yaml spec 直接按场景指定模型,工具自动路由:

yaml
- name: blog-hero
model: gpt-image-2
quality: medium
size: "1536x1024"
prompt: A wide cinematic editorial illustration...
out: /tmp/blog-hero.png

- name: architecture-diagram
model: gemini-2.5-flash-image
aspect: "1:1"
prompt: |
A clean three-layer architecture diagram, labeled "网络层" / "TLS 层" / "模型层"...
out: /tmp/architecture.png

- name: hero-decoration
model: imagen-4.0-fast-generate-001
aspect: "1:1"
prompt: A minimal abstract purple gradient...
out: /tmp/decoration.png

完整 spec 工具开源在 Whitedit/code-gateway-cookbook · image-gen/——一份 generate.py 自动按 model 字段路由到正确的请求 body 形态(Imagen 用 aspect_ratio、GPT Image 用 size+quality)。


实战 16 张图的成本回顾

Sprint 4b 博客配图 dogfood 跑了 4 篇博客 / 16 张图 / 4 个模型混用:

模型

张数

用途

成本

Imagen 4 std

4

hero(1024×1024)

$0.16

Imagen 4 fast

3

文中写实插图

$0.06

Gemini 2.5 Flash Image

9

信息图 / 步骤图(含中文标注)

$0.54

GPT Image 2 medium

4

hero 16:9 重生

$0.164

总账:$0.92 / 16 张图 / 跨 4 模型 / 1 把 Key

如果上面任何一个模型单独跑全 16 张:

  • 全 Imagen 4 fast:$0.32(性价比高,但中文文字标注图直接挂)
  • 全 Gemini 2.5 Flash Image:~$0.96(中文标注好,但 hero 写实弱)
  • 全 GPT Image 2 medium:~$0.66(速度慢、UI 风格强)

混搭比单一便宜,且质量落在每个场景的推荐区——这是为什么"按场景选"。


FAQ

Q:Imagen 4 真的 backend 写死 1024×1024 吗?没法横版?

A:是。backend/src/proxy-vertex-image.ts 的注释明确写 aspect_ratio 是"accepted but ignored"。要 16:9 / 9:16 横竖版必须切 GPT Image 2(OpenAI 通路原生支持 size 参数)。这是为什么 Sprint 4b dogfood 重生了 4 张 hero。

Q:Gemini 2.5 Flash Image 按 token 计费 vs Imagen 按图固定,哪个更划算?

A:Gemini 单图通常 ~$0.04-0.08,Imagen std 固定 $0.04。实战上 Gemini 中文渲染稳定,GPT Image 2 实测略胜一筹。如果 prompt 极短 + 不需要中文,Imagen 更稳;prompt 长 + 含中文标注,GPT Image 2 优选,Gemini 备选

Q:GPT Image 2 那么慢(~60s/图)值得用吗?

A:看场景。批量装饰图肯定不用 GPT Image 2——慢且对装饰图没优势。只在两个场景值得:(1) 必须 16:9 / 9:16 横竖版(其他模型不支持原生);(2) 产品 UI mockup(GPT Image 2 在这场景明显强于其他)。

Q:可以同 prompt 投三家然后选好的吗?

A:能,但成本飙升。dogfood 16 张图如果同 prompt 投三家做 best-of-3,成本变 ~$2.76 而不是 $0.92。值不值看 stake——博客封面 hero 值得 best-of-3,文中插图不值得。

Q:Imagen 4 ultra 比 std 贵 50%($0.06 vs $0.04),值得用吗?

A:绝大多数场景不值得。除非是网站首屏 / 营销主视觉这种"看一万次"的图。日常博客 hero 用 std 完全够,差值花在出 best-of-3 反而 ROI 高。

Q:CodeGateway 的 Key 在 Cursor / Figma 之类工具里能用吗?

A:图像 API 端口走 OpenAI 协议(/v1/images/generations)+ Vertex 透传,所以任何兼容 OpenAI Images API 协议的工具都能直接接。Cursor、Aider 之类编程工具,把 OPENAI_BASE_URL 指向 https://api.codegateway.dev/v1 + OPENAI_API_KEY 改成 sk-cg-xxx 就行。

Q:模型会不会突然下线 / 涨价?

A:上游 Google / OpenAI 自己有公告周期。CodeGateway 网关会跟随上游变化——上游改价我们改 CMS 价格表,新价格在 /pricing 实时生效。已下达但未完成的请求按下达时刻的价格结算

Q:图像版权归谁?

A:取决于上游模型的 ToS:

  • Imagen / Gemini:Google 的 Generative AI Terms,商用大部分允许,部分内容(涉及人物)有限制。
  • GPT Image:OpenAI 的 Usage Policies,用户拥有生成内容的所有权。

CodeGateway 网关不主张图像版权——你生成的图归你。但版权不等于合规——别用来生成公众人物 / 商标侵权 / 违反平台 ToS 的内容。


相关资料


选图像 API 跟选 AI 编程工具一样——别比综合,比单项。中文标注 → Gemini;写实 hero → Imagen;UI mockup → GPT Image;纯装饰 → Imagen 4 fast。把这张推荐表贴在 spec 注释里,下次写 prompt 时少几次返工。