3 个图像 API 实测对比：Imagen / Gemini / GPT Image

Q: Imagen 4 真的 backend 写死 1024×1024 吗？没法横版？

是。backend/src/proxy-vertex-image.ts 的注释明确写 aspect_ratio 是"accepted but ignored"。要 16:9 / 9:16 横竖版必须切 GPT Image 2（OpenAI 通路原生支持 size 参数）。这是为什么 Sprint 4b dogfood 重生了 4 张 hero。

Q: Gemini 2.5 Flash Image 按 token 计费 vs Imagen 按图固定，哪个更划算？

Gemini 单图通常 ~$0.04-0.08，Imagen std 固定 $0.04。实战上 Gemini 中文渲染稳定，GPT Image 2 实测略胜一筹。如果 prompt 极短 + 不需要中文，Imagen 更稳；prompt 长 + 含中文标注，GPT Image 2 优选，Gemini 备选。

Q: GPT Image 2 那么慢（~60s/图）值得用吗？

看场景。批量装饰图肯定不用 GPT Image 2——慢且对装饰图没优势。只在两个场景值得：(1) 必须 16:9 / 9:16 横竖版（其他模型不支持原生）；(2) 产品 UI mockup（GPT Image 2 在这场景明显强于其他）。

Q: Imagen 4 ultra 比 std 贵 50%（$0.06 vs $0.04），值得用吗？

绝大多数场景不值得。除非是网站首屏 / 营销主视觉这种"看一万次"的图。日常博客 hero 用 std 完全够，差值花在出 best-of-3 反而 ROI 高。

Q: CodeGateway 的 Key 在 Cursor / Figma 之类工具里能用吗？

图像 API 端口走 OpenAI 协议（/v1/images/generations）+ Vertex 透传，所以任何兼容 OpenAI Images API 协议的工具都能直接接。Cursor、Aider 之类编程工具，把 OPENAI_BASE_URL 指向 https://api.codegateway.dev/v1 + OPENAI_API_KEY 改成 sk-cg-xxx 就行。

Q: 图像版权归谁？

取决于上游模型的 ToS： CodeGateway 网关不主张图像版权——你生成的图归你。但版权不等于合规——别用来生成公众人物 / 商标侵权 / 违反平台 ToS 的内容。 相关资料

3 个图像 API 实测：Imagen 4 / Gemini 2.5 Flash Image / GPT Image，谁更适合谁的活

一句话：选图像 API 的大坑是看官方 demo——它们都好看。真实场景下，写实风格、卡通、信息图、UI 模拟、含中文文字标注，每个 API 在各自的强项区差距其实显著得离谱。

本文是一次真实评测。同一个 Key 调 3 个上游图像 API（Google Imagen 4、Google Gemini 2.5 Flash Image、OpenAI GPT Image），用同样的 prompt 和场景跑 16 张图，按 5 个维度横向比。出图素材来自Sprint 4b 真实博客配图 dogfood。结论用一张推荐表收——不绕弯子。

评测维度：5 个真实场景里关心的事

不评"通用画质"——那是榜单数据 + 主观感受。评 5 个开发者真实在用的维度：

中文文字渲染：图里要写中文标注（信息图、步骤图、对比图）。中文字符特别考验模型——错字、模糊、字形怪异是常见雷区。
写实 / 概念插画：博客 hero、产品 landing 图、稿件配图。这类图不要 cartoon 感，要 editorial 干净专业。
卡通 / UI 风格：mockup、moodboard、demo 截图。要有"产品级 UI"质感，不是手绘卡通。
速度：API 调用从发请求到 base64 返回的端到端延迟。批量任务时这是瓶颈。
成本：按图固定 vs 按 token，10-100 张时哪种结构有优势。

同 prompt 三家横向比

5 个 prompt 测试，每 prompt 同时投给 3 个模型，对比效果。

Prompt 1：含中文文字的信息图

plaintext

A clean three-layer architecture diagram, horizontally stacked panels:
top panel labeled "网络链路层" (purple #8B5CF6 stripe),
middle panel labeled "TLS 层" (lighter violet stripe),
bottom panel labeled "模型推理层" (deep violet stripe).
Each panel has a small icon. Modern minimal infographic.

Prompt 5 步骤流程图(含中文)- Gemini 2.5 Flash Image 实测 — Imagen 4

Prompt 4 抽象装饰 - GPT Image 2 实测 — Gemini 2.5 Flash Image

Prompt 4 抽象装饰 - Imagen 4 fast 实测 — GPT Image 2

模型	中文渲染	备注
Imagen 4 (std)	⚠️ 中文常变形或缺笔	写实强，但文字弱
Gemini 2.5 Flash Image	✅ 中文清晰可读	中文场景可用
GPT Image 2	✅ 中文更准确	这个场景的推荐方案

结论：含中文文字标注 → GPT Image 2 优选，Gemini 备选，Imagen 4 不适合。

Prompt 2：博客 hero 写实概念插画

plaintext

A minimalist flat illustration showing a frustrated developer at a laptop,
the laptop screen displaying a terminal window with red error text,
soft purple gradient background, clean modern tech aesthetic, no text,
professional editorial composition.

3 个图像 API 实测对比 - Imagen 4 / Gemini 2.5 Flash Image / GPT Image 横向比拼 cover — Imagen 4

Prompt 5 步骤流程图(含中文)- GPT Image 2 实测 — Gemini 2.5 Flash Image

Prompt 5 步骤流程图(含中文)- Imagen 4 实测 — GPT Image 2

模型	视觉质感	备注
Imagen 4 std	✅ Editorial 感顶级	概念插画的天花板
Gemini 2.5 Flash Image	⚠️ 偏图标化、缺 editorial 质感	不是这个 strength
GPT Image 2 medium	✅ 风格干净 + 原生支持 16:9 横版	hero 容器友好

结论：写实概念博客 hero → Imagen 4 std 默认，需要 16:9 横版用 GPT Image 2 medium。Gemini 在这场景偏弱。

Prompt 3：UI 卡片 mockup

plaintext

A clean mockup of a developer dashboard card showing API usage stats:
"Total Tokens" header, a number "1,234,567", a small bar chart trend line,
rounded corners, soft shadow, dark mode with purple accent.

CodeGateway 图像生成 API 上线 - 一个 Key 调 5 个模型 cover — Gemini 2.5 Flash Image

模型	UI 质感	备注
Imagen 4	⚠️ 偏插画感	不在 strength 区
Gemini 2.5 Flash Image	✅ 数字渲染准 + 清晰	数据卡片场景强
GPT Image 2 medium	✅ 最像真实产品 UI	UI mockup 的推荐方案

结论：产品 UI mockup / 卡片 / 模拟截图 → GPT Image 2 medium 优先；含数字标注的卡片 → Gemini 也行。

Prompt 4：抽象/纹理/装饰图

plaintext

A minimal abstract illustration with soft purple gradient,
overlapping geometric shapes, no text, subtle grain texture,
modern editorial style.

模型	美学	备注
Imagen 4 fast	✅ 性价比顶级	$0.02/图，装饰图较合适
Gemini 2.5 Flash Image	⚠️ 偏功能化、缺艺术感	错位
GPT Image 2	✅ 美学 OK	但慢且贵

结论：纯装饰 / 抽象插画 / 背景图 → Imagen 4 fast。$0.02/图、画面干净、批量友好。

Prompt 5：步骤流程图（带 1-2-3 编号 + 简短中文文字）

plaintext

A 3-step horizontal flowchart on white background,
three circles connected by arrows in purple color scheme,
each circle labeled "1 注册"、"2 配置"、"3 上线",
modern minimal flat design.

模型	编号渲染	中文渲染	备注
Imagen 4	⚠️ 数字 OK / 中文乱	不适合	—
Gemini 2.5 Flash Image	✅ 数字 + 中文都准	✅	备选
GPT Image 2	✅ 数字 + 中文更准	✅	步骤图推荐

结论：步骤图 / 编号信息图（含中文）→ GPT Image 2 优选，Gemini 备选。

按维度逐项打分

把上面 5 个 prompt 的表现归并到 5 个评分维度（1-5 分制）：

维度	Imagen 4 fast	Imagen 4 std	Gemini 2.5 Flash Image	GPT Image 2 medium
中文文字渲染	1	2	4	5
写实/概念插画	4	5	2	4
卡通 / UI 风格	2	3	3	5
速度（端到端）	5 (~7-9s)	4 (~10-12s)	3 (~8-17s)	1 (~56-71s)
成本（按图）	5 ($0.02)	4 ($0.04)	3 (~$0.06)	4 ($0.041)
场景适配总分	17	18	16	17

总分相近，但单项差距大 — 这正是"按场景选"而不是"选强项综合"的依据。

价格补充说明

CodeGateway 把 4 个模型的真实计费透传：

Imagen 4 fast：$0.02 / 图（按图固定，不随 prompt / 分辨率变）
Imagen 4 std：$0.04 / 图
Imagen 4 ultra：$0.06 / 图（旗舰单图）
Gemini 2.5 Flash Image：按 token（输入 $0.30/MTok + 文本输出 $2.50/MTok + 图像输出 $30/MTok）实测单图 ~$0.04-0.08
GPT Image 2：按 quality × aspect 矩阵（low $0.005-0.006、medium $0.041-0.053、high $0.165-0.211）

加上 CodeGateway 的 1.2x-1.5x 阶梯倍率，混用比单边消费更快下倍率档（详见阶梯倍率详解）。

场景推荐速查表

直接抄到你的 spec 决策注释里：

场景	推荐	备选	单图成本
博客 hero（1:1）	Imagen 4 std	Imagen 4 fast	$0.04 / $0.02
博客 hero（16:9 横版）	GPT Image 2 medium	—	$0.041
博客文中插图（写实）	Imagen 4 fast	Imagen 4 std	$0.02 / $0.04
博客文中信息图（含中文标注）	GPT Image 2 medium	Gemini 2.5 Flash Image	$0.041
博客文中步骤图 / 流程图	GPT Image 2 medium	Gemini 2.5 Flash Image	$0.041
产品 UI mockup / 卡片模拟	GPT Image 2 medium	Gemini	$0.041
纯装饰 / 抽象 / 背景图	Imagen 4 fast	—	$0.02
OG 抓图（1.91:1 接近 16:9）	GPT Image 2 medium	Imagen 4 std + 客户端裁切	$0.041
Logo / 品牌图（精确还原）	不要用 AI 生图	—	—

最后一行强调：logo / 商标 / 品牌识别物从不用 AI 生图。版权、风险、保真度都不合格——用真实设计文件。

一个 Key 切三家：实操配置

CodeGateway 一把 sk-cg- 开头的 Key 三家上游通吃——不需要分别去 Google / OpenAI 注册账号、绑国际信用卡、配 service account。

Endpoint 共用

bash

POST https://api.codegateway.dev/v1/images/generations

不同模型靠请求 body 里的 model 字段分流：

bash

# Imagen 4 fast
curl -X POST https://api.codegateway.dev/v1/images/generations \
  -H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"imagen-4.0-fast-generate-001","prompt":"...","n":1,"response_format":"b64_json"}'

# Gemini 2.5 Flash Image
curl -X POST https://api.codegateway.dev/v1/images/generations \
  -H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"gemini-2.5-flash-image","prompt":"...","aspect_ratio":"1:1","response_format":"b64_json"}'

# GPT Image 2 medium 1536x1024
curl -X POST https://api.codegateway.dev/v1/images/generations \
  -H "Authorization: Bearer $CODEGATEWAY_PROD_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"gpt-image-2","prompt":"...","size":"1536x1024","quality":"medium","response_format":"b64_json"}'

Spec 文件里混搭三家

实战中的 yaml spec 直接按场景指定模型，工具自动路由：

yaml

- name: blog-hero
  model: gpt-image-2
  quality: medium
  size: "1536x1024"
  prompt: A wide cinematic editorial illustration...
  out: /tmp/blog-hero.png

- name: architecture-diagram
  model: gemini-2.5-flash-image
  aspect: "1:1"
  prompt: |
    A clean three-layer architecture diagram, labeled "网络层" / "TLS 层" / "模型层"...
  out: /tmp/architecture.png

- name: hero-decoration
  model: imagen-4.0-fast-generate-001
  aspect: "1:1"
  prompt: A minimal abstract purple gradient...
  out: /tmp/decoration.png

完整 spec 工具开源在 Whitedit/code-gateway-cookbook · image-gen/——一份 generate.py 自动按 model 字段路由到正确的请求 body 形态（Imagen 用 aspect_ratio、GPT Image 用 size+quality）。

实战 16 张图的成本回顾

Sprint 4b 博客配图 dogfood 跑了 4 篇博客 / 16 张图 / 4 个模型混用：

模型	张数	用途	成本
Imagen 4 std	4	hero（1024×1024）	$0.16
Imagen 4 fast	3	文中写实插图	$0.06
Gemini 2.5 Flash Image	9	信息图 / 步骤图（含中文标注）	$0.54
GPT Image 2 medium	4	hero 16:9 重生	$0.164

总账：$0.92 / 16 张图 / 跨 4 模型 / 1 把 Key。

如果上面任何一个模型单独跑全 16 张：

全 Imagen 4 fast：$0.32（性价比高，但中文文字标注图直接挂）
全 Gemini 2.5 Flash Image：~$0.96（中文标注好，但 hero 写实弱）
全 GPT Image 2 medium：~$0.66（速度慢、UI 风格强）

混搭比单一便宜，且质量落在每个场景的推荐区——这是为什么"按场景选"。

FAQ

Q：Imagen 4 真的 backend 写死 1024×1024 吗？没法横版？

A：是。backend/src/proxy-vertex-image.ts 的注释明确写 aspect_ratio 是"accepted but ignored"。要 16:9 / 9:16 横竖版必须切 GPT Image 2（OpenAI 通路原生支持 size 参数）。这是为什么 Sprint 4b dogfood 重生了 4 张 hero。

Q：Gemini 2.5 Flash Image 按 token 计费 vs Imagen 按图固定，哪个更划算？

A：Gemini 单图通常 ~$0.04-0.08，Imagen std 固定 $0.04。实战上 Gemini 中文渲染稳定，GPT Image 2 实测略胜一筹。如果 prompt 极短 + 不需要中文，Imagen 更稳；prompt 长 + 含中文标注，GPT Image 2 优选，Gemini 备选。

Q：GPT Image 2 那么慢（~60s/图）值得用吗？

A：看场景。批量装饰图肯定不用 GPT Image 2——慢且对装饰图没优势。只在两个场景值得：(1) 必须 16:9 / 9:16 横竖版（其他模型不支持原生）；(2) 产品 UI mockup（GPT Image 2 在这场景明显强于其他）。

Q：可以同 prompt 投三家然后选好的吗？

A：能，但成本飙升。dogfood 16 张图如果同 prompt 投三家做 best-of-3，成本变 ~$2.76 而不是 $0.92。值不值看 stake——博客封面 hero 值得 best-of-3，文中插图不值得。

Q：Imagen 4 ultra 比 std 贵 50%（$0.06 vs $0.04），值得用吗？

A：绝大多数场景不值得。除非是网站首屏 / 营销主视觉这种"看一万次"的图。日常博客 hero 用 std 完全够，差值花在出 best-of-3 反而 ROI 高。

Q：CodeGateway 的 Key 在 Cursor / Figma 之类工具里能用吗？

A：图像 API 端口走 OpenAI 协议（/v1/images/generations）+ Vertex 透传，所以任何兼容 OpenAI Images API 协议的工具都能直接接。Cursor、Aider 之类编程工具，把 OPENAI_BASE_URL 指向 https://api.codegateway.dev/v1 + OPENAI_API_KEY 改成 sk-cg-xxx 就行。

Q：模型会不会突然下线 / 涨价？

A：上游 Google / OpenAI 自己有公告周期。CodeGateway 网关会跟随上游变化——上游改价我们改 CMS 价格表，新价格在 /pricing 实时生效。已下达但未完成的请求按下达时刻的价格结算。

Q：图像版权归谁？

A：取决于上游模型的 ToS：

Imagen / Gemini：Google 的 Generative AI Terms，商用大部分允许，部分内容（涉及人物）有限制。
GPT Image：OpenAI 的 Usage Policies，用户拥有生成内容的所有权。

CodeGateway 网关不主张图像版权——你生成的图归你。但版权不等于合规——别用来生成公众人物 / 商标侵权 / 违反平台 ToS 的内容。

3 个图像 API 实测：Imagen 4 / Gemini 2.5 Flash Image / GPT Image，谁更适合谁的活

3 个图像 API 实测：Imagen 4 / Gemini 2.5 Flash Image / GPT Image，谁更适合谁的活

目录

评测维度：5 个真实场景里关心的事

同 prompt 三家横向比

Prompt 1：含中文文字的信息图

Prompt 2：博客 hero 写实概念插画

Prompt 3：UI 卡片 mockup

Prompt 4：抽象/纹理/装饰图

Prompt 5：步骤流程图（带 1-2-3 编号 + 简短中文文字）

按维度逐项打分

价格补充说明

场景推荐速查表

一个 Key 切三家：实操配置

Endpoint 共用

Spec 文件里混搭三家

实战 16 张图的成本回顾

FAQ

相关资料