3 个图像 API 实测:Imagen 4 / Gemini 2.5 Flash Image / GPT Image,谁更适合谁的活
作者:CodeGateway 团队 · 实测于 2026-05
一句话:选图像 API 的大坑是看官方 demo——它们都好看。真实场景下,写实风格、卡通、信息图、UI 模拟、含中文文字标注,每个 API 在各自的强项区差距其实显著得离谱。
本文是一次真实评测。同一个 Key 调 3 个上游图像 API(Google Imagen 4、Google Gemini 2.5 Flash Image、OpenAI GPT Image),用同样的 prompt 和场景跑 16 张图,按 5 个维度横向比。出图素材来自Sprint 4b 真实博客配图 dogfood。结论用一张推荐表收——不绕弯子。
目录
评测维度:5 个真实场景里关心的事
不评"通用画质"——那是榜单数据 + 主观感受。评 5 个开发者真实在用的维度:
- 中文文字渲染:图里要写中文标注(信息图、步骤图、对比图)。中文字符特别考验模型——错字、模糊、字形怪异是常见雷区。
- 写实 / 概念插画:博客 hero、产品 landing 图、稿件配图。这类图不要 cartoon 感,要 editorial 干净专业。
- 卡通 / UI 风格:mockup、moodboard、demo 截图。要有"产品级 UI"质感,不是手绘卡通。
- 速度:API 调用从发请求到 base64 返回的端到端延迟。批量任务时这是瓶颈。
- 成本:按图固定 vs 按 token,10-100 张时哪种结构有优势。
同 prompt 三家横向比
5 个 prompt 测试,每 prompt 同时投给 3 个模型,对比效果。
Prompt 1:含中文文字的信息图
A clean three-layer architecture diagram, horizontally stacked panels:
top panel labeled "网络链路层" (purple #8B5CF6 stripe),
middle panel labeled "TLS 层" (lighter violet stripe),
bottom panel labeled "模型推理层" (deep violet stripe).
Each panel has a small icon. Modern minimal infographic.


模型 | 中文渲染 | 备注 |
|---|---|---|
Imagen 4 (std) | ⚠️ 中文常变形或缺笔 | 写实强,但文字弱 |
Gemini 2.5 Flash Image | ✅ 中文清晰可读 | 中文场景可用 |
GPT Image 2 | ✅ 中文最准确 | 这个场景的推荐方案 |
结论:含中文文字标注 → GPT Image 2 优选,Gemini 备选,Imagen 4 不适合。
Prompt 2:博客 hero 写实概念插画
A minimalist flat illustration showing a frustrated developer at a laptop,
the laptop screen displaying a terminal window with red error text,
soft purple gradient background, clean modern tech aesthetic, no text,
professional editorial composition.


模型 | 视觉质感 | 备注 |
|---|---|---|
Imagen 4 std | ✅ Editorial 感顶级 | 概念插画的天花板 |
Gemini 2.5 Flash Image | ⚠️ 偏图标化、缺 editorial 质感 | 不是这个 strength |
GPT Image 2 medium | ✅ 风格干净 + 原生支持 16:9 横版 | hero 容器友好 |
结论:写实概念博客 hero → Imagen 4 std 默认,需要 16:9 横版用 GPT Image 2 medium。Gemini 在这场景偏弱。
Prompt 3:UI 卡片 mockup
A clean mockup of a developer dashboard card showing API usage stats:
"Total Tokens" header, a number "1,234,567", a small bar chart trend line,
rounded corners, soft shadow, dark mode with purple accent.


模型 | UI 质感 | 备注 |
|---|---|---|
Imagen 4 | ⚠️ 偏插画感 | 不在 strength 区 |
Gemini 2.5 Flash Image | ✅ 数字渲染准 + 清晰 | 数据卡片场景强 |
GPT Image 2 medium | ✅ 最像真实产品 UI | UI mockup 的推荐方案 |
结论:产品 UI mockup / 卡片 / 模拟截图 → GPT Image 2 medium 优先;含数字标注的卡片 → Gemini 也行。
Prompt 4:抽象/纹理/装饰图
A minimal abstract illustration with soft purple gradient,
overlapping geometric shapes, no text, subtle grain texture,
modern editorial style.


模型 | 美学 | 备注 |
|---|---|---|
Imagen 4 fast | ✅ 性价比顶级 | $0.02/图,装饰图首选 |
Gemini 2.5 Flash Image | ⚠️ 偏功能化、缺艺术感 | 错位 |
GPT Image 2 | ✅ 美学 OK | 但慢且贵 |
结论:纯装饰 / 抽象插画 / 背景图 → Imagen 4 fast。$0.02/图、画面干净、批量友好。
Prompt 5:步骤流程图(带 1-2-3 编号 + 简短中文文字)
A 3-step horizontal flowchart on white background,
three circles connected by arrows in purple color scheme,
each circle labeled "1 注册"、"2 配置"、"3 上线",
modern minimal flat design.


模型 | 编号渲染 | 中文渲染 | 备注 |
|---|---|---|---|
Imagen 4 | ⚠️ 数字 OK / 中文乱 | 不适合 | — |
Gemini 2.5 Flash Image | ✅ 数字 + 中文都准 | ✅ | 备选 |
GPT Image 2 | ✅ 数字 + 中文最准 | ✅ | 步骤图推荐 |
结论:步骤图 / 编号信息图(含中文)→ GPT Image 2 优选,Gemini 备选。
按维度逐项打分
把上面 5 个 prompt 的表现归并到 5 个评分维度(1-5 分制):
维度 | Imagen 4 fast | Imagen 4 std | Gemini 2.5 Flash Image | GPT Image 2 medium |
|---|---|---|---|---|
中文文字渲染 | 1 | 2 | 4 | 5 |
写实/概念插画 | 4 | 5 | 2 | 4 |
卡通 / UI 风格 | 2 | 3 | 3 | 5 |
速度(端到端) | 5 (~7-9s) | 4 (~10-12s) | 3 (~8-17s) | 1 (~56-71s) |
成本(按图) | 5 ($0.02) | 4 ($0.04) | 3 (~$0.06) | 4 ($0.041) |
场景适配总分 | 17 | 18 | 16 | 17 |
总分相近,但单项差距大 — 这正是"按场景选"而不是"选强项综合"的依据。
价格补充说明
CodeGateway 把 4 个模型的真实计费透传:
- Imagen 4 fast:$0.02 / 图(按图固定,不随 prompt / 分辨率变)
- Imagen 4 std:$0.04 / 图
- Imagen 4 ultra:$0.06 / 图(旗舰单图)
- Gemini 2.5 Flash Image:按 token(输入 $0.30/MTok + 文本输出 $2.50/MTok + 图像输出 $30/MTok)实测单图 ~$0.04-0.08
- GPT Image 2:按 quality × aspect 矩阵(low $0.005-0.006、medium $0.041-0.053、high $0.165-0.211)
加上 CodeGateway 的 1.2x-1.5x 阶梯倍率,混用比单边消费更快下倍率档(详见 阶梯倍率详解)。
场景推荐速查表
直接抄到你的 spec 决策注释里:
场景 | 首选 | 备选 | 单图成本 |
|---|---|---|---|
博客 hero(1:1) | Imagen 4 std | Imagen 4 fast | $0.04 / $0.02 |
博客 hero(16:9 横版) | GPT Image 2 medium | — | $0.041 |
博客文中插图(写实) | Imagen 4 fast | Imagen 4 std | $0.02 / $0.04 |
博客文中信息图(含中文标注) | GPT Image 2 medium | Gemini 2.5 Flash Image | $0.041 |
博客文中步骤图 / 流程图 | GPT Image 2 medium | Gemini 2.5 Flash Image | $0.041 |
产品 UI mockup / 卡片模拟 | GPT Image 2 medium | Gemini | $0.041 |
纯装饰 / 抽象 / 背景图 | Imagen 4 fast | — | $0.02 |
OG 抓图(1.91:1 接近 16:9) | GPT Image 2 medium | Imagen 4 std + 客户端裁切 | $0.041 |
Logo / 品牌图(精确还原) | 不要用 AI 生图 | — | — |
最后一行强调:logo / 商标 / 品牌识别物从不用 AI 生图。版权、风险、保真度都不合格——用真实设计文件。
一个 Key 切三家:实操配置
CodeGateway 一把 sk-cg- 开头的 Key 三家上游通吃——不需要分别去 Google / OpenAI 注册账号、绑国际信用卡、配 service account。
Endpoint 共用
POST https://api.codegateway.dev/v1/images/generations不同模型靠请求 body 里的 model 字段分流:
# Imagen 4 fast
curl -X POST https://api.codegateway.dev/v1/images/generations \
-H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"imagen-4.0-fast-generate-001","prompt":"...","n":1,"response_format":"b64_json"}'
# Gemini 2.5 Flash Image
curl -X POST https://api.codegateway.dev/v1/images/generations \
-H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"gemini-2.5-flash-image","prompt":"...","aspect_ratio":"1:1","response_format":"b64_json"}'
# GPT Image 2 medium 1536x1024
curl -X POST https://api.codegateway.dev/v1/images/generations \
-H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
-H "Content-Type: application/json" \
-d '{"model":"gpt-image-2","prompt":"...","size":"1536x1024","quality":"medium","response_format":"b64_json"}'Spec 文件里混搭三家
实战中的 yaml spec 直接按场景指定模型,工具自动路由:
- name: blog-hero
model: gpt-image-2
quality: medium
size: "1536x1024"
prompt: A wide cinematic editorial illustration...
out: /tmp/blog-hero.png
- name: architecture-diagram
model: gemini-2.5-flash-image
aspect: "1:1"
prompt: |
A clean three-layer architecture diagram, labeled "网络层" / "TLS 层" / "模型层"...
out: /tmp/architecture.png
- name: hero-decoration
model: imagen-4.0-fast-generate-001
aspect: "1:1"
prompt: A minimal abstract purple gradient...
out: /tmp/decoration.png完整 spec 工具开源在 Whitedit/code-gateway-cookbook · image-gen/——一份 generate.py 自动按 model 字段路由到正确的请求 body 形态(Imagen 用 aspect_ratio、GPT Image 用 size+quality)。
实战 16 张图的成本回顾
Sprint 4b 博客配图 dogfood 跑了 4 篇博客 / 16 张图 / 4 个模型混用:
模型 | 张数 | 用途 | 成本 |
|---|---|---|---|
Imagen 4 std | 4 | hero(1024×1024) | $0.16 |
Imagen 4 fast | 3 | 文中写实插图 | $0.06 |
Gemini 2.5 Flash Image | 9 | 信息图 / 步骤图(含中文标注) | $0.54 |
GPT Image 2 medium | 4 | hero 16:9 重生 | $0.164 |
总账:$0.92 / 16 张图 / 跨 4 模型 / 1 把 Key。
如果上面任何一个模型单独跑全 16 张:
- 全 Imagen 4 fast:$0.32(性价比高,但中文文字标注图直接挂)
- 全 Gemini 2.5 Flash Image:~$0.96(中文标注好,但 hero 写实弱)
- 全 GPT Image 2 medium:~$0.66(速度慢、UI 风格强)
混搭比单一便宜,且质量落在每个场景的推荐区——这是为什么"按场景选"。
FAQ
Q:Imagen 4 真的 backend 写死 1024×1024 吗?没法横版?
A:是。backend/src/proxy-vertex-image.ts 的注释明确写 aspect_ratio 是"accepted but ignored"。要 16:9 / 9:16 横竖版必须切 GPT Image 2(OpenAI 通路原生支持 size 参数)。这是为什么 Sprint 4b dogfood 重生了 4 张 hero。
Q:Gemini 2.5 Flash Image 按 token 计费 vs Imagen 按图固定,哪个更划算?
A:Gemini 单图通常 ~$0.04-0.08,Imagen std 固定 $0.04。实战上 Gemini 中文渲染稳定,GPT Image 2 实测略胜一筹。如果 prompt 极短 + 不需要中文,Imagen 更稳;prompt 长 + 含中文标注,GPT Image 2 优选,Gemini 备选。
Q:GPT Image 2 那么慢(~60s/图)值得用吗?
A:看场景。批量装饰图肯定不用 GPT Image 2——慢且对装饰图没优势。只在两个场景值得:(1) 必须 16:9 / 9:16 横竖版(其他模型不支持原生);(2) 产品 UI mockup(GPT Image 2 在这场景明显强于其他)。
Q:可以同 prompt 投三家然后选好的吗?
A:能,但成本飙升。dogfood 16 张图如果同 prompt 投三家做 best-of-3,成本变 ~$2.76 而不是 $0.92。值不值看 stake——博客封面 hero 值得 best-of-3,文中插图不值得。
Q:Imagen 4 ultra 比 std 贵 50%($0.06 vs $0.04),值得用吗?
A:绝大多数场景不值得。除非是网站首屏 / 营销主视觉这种"看一万次"的图。日常博客 hero 用 std 完全够,差值花在出 best-of-3 反而 ROI 高。
Q:CodeGateway 的 Key 在 Cursor / Figma 之类工具里能用吗?
A:图像 API 端口走 OpenAI 协议(/v1/images/generations)+ Vertex 透传,所以任何兼容 OpenAI Images API 协议的工具都能直接接。Cursor、Aider 之类编程工具,把 OPENAI_BASE_URL 指向 https://api.codegateway.dev/v1 + OPENAI_API_KEY 改成 sk-cg-xxx 就行。
Q:模型会不会突然下线 / 涨价?
A:上游 Google / OpenAI 自己有公告周期。CodeGateway 网关会跟随上游变化——上游改价我们改 CMS 价格表,新价格在 /pricing 实时生效。已下达但未完成的请求按下达时刻的价格结算。
Q:图像版权归谁?
A:取决于上游模型的 ToS:
- Imagen / Gemini:Google 的 Generative AI Terms,商用大部分允许,部分内容(涉及人物)有限制。
- GPT Image:OpenAI 的 Usage Policies,用户拥有生成内容的所有权。
CodeGateway 网关不主张图像版权——你生成的图归你。但版权不等于合规——别用来生成公众人物 / 商标侵权 / 违反平台 ToS 的内容。
相关资料
- 博客配图 1 小时 16 张 $0.92 真实账本 —— 本文素材来源、完整 dogfood 复盘
- Codex CLI vs Claude Code 怎么选 —— 同样"按场景选"的工具对比
- 充值费用指南
- 阶梯倍率详解
- Google Cloud:Imagen 4 model card
- Google Cloud:Gemini 2.5 Flash Image
- OpenAI:Image Generation guide
- 实战脚本与 spec 模板:Whitedit/code-gateway-cookbook · image-gen/
选图像 API 跟选 AI 编程工具一样——别比综合,比单项。中文标注 → Gemini;写实 hero → Imagen;UI mockup → GPT Image;纯装饰 → Imagen 4 fast。把这张推荐表贴在 spec 注释里,下次写 prompt 时少几次返工。
