长上下文、搜索、代码执行都算钱:AI API 的隐性成本怎么比
摘要 很多人比较 AI API 成本时,只看输入和输出 token 单价,最后预算还是超了。真正让账单变大的,往往不是模型本身,而是搜索、缓存、代码执行、长上下文、失败重试和多轮对话膨胀。 先说结论 真正的 API 成本通常是: 模型 tokens + 工具调用 + 长上下文溢价
正文
摘要
很多人比较 AI API 成本时,只看输入和输出 token 单价,最后预算还是超了。真正让账单变大的,往往不是模型本身,而是搜索、缓存、代码执行、长上下文、失败重试和多轮对话膨胀。
先说结论
真正的 API 成本通常是:
模型 tokens + 工具调用 + 长上下文溢价 + 缓存写入 + 执行环境 + 重试损耗
如果你只按“每百万 tokens 单价”预算,最后大概率会低估实际成本。
第一类隐性成本:长上下文不是免费放大
很多团队会下意识觉得“上下文越大越好”,但大上下文几乎从来都不是免费午餐。
OpenAI
OpenAI 当前定价页写得很明确:GPT-5.4 这类模型给出的是 270K 以下的标准价。开发者模型页还标注了:当 GPT-5.4 / GPT-5.4 pro 输入超过约 272K 时,整次会话会进入更高计费档。
Anthropic
Anthropic 的规则更直白。按官方文档,Claude Sonnet 4 如果启用 1M context 并且输入超过 200K,就会触发 long context premium:
- 输入:从
\$3 / MTok提升到\$6 / MTok - 输出:从
\$15 / MTok提升到\$22.50 / MTok
而且这不是“超过部分加价”,而是整次请求都按高档计费。
Gemini
Gemini 这边也有明显的长上下文分档。以 Gemini 3.1 Pro Preview 为例:
<= 200K输入:输入\$2.00,输出\$12.00> 200K输入:输入\$4.00,输出\$18.00
这意味着上下文一旦越过阈值,账单会直接跳一个台阶。
第二类隐性成本:搜索不是“附赠能力”
搜索很有价值,但并不便宜。
OpenAI 的搜索成本
按当前 OpenAI 定价页:
web search:$10 / 1,000 calls- 搜索内容 tokens 免费
这个定价结构很容易让人误判,因为你会觉得“tokens 没涨”,但实际上每次工具调用本身就已经额外收费。
Anthropic 的搜索成本
Anthropic 官方文档写得很清楚:
web search:$10 / 1,000 searches- 搜索结果还会按标准 token 成本继续计费
也就是说,Anthropic 的搜索是“双计费”思路: 先收搜索调用费,再把搜回来的内容算进 token。
Gemini 的搜索成本
Gemini 需要特别区分版本:
Gemini 3:共享5,000次免费 prompts / 月,之后\$14 / 1,000 search queriesGemini 2.5:共享1,500 RPD免费 grounded prompts,之后\$35 / 1,000 grounded prompts
这说明 Google 的搜索成本结构并不统一,Gemini 2.5 和 Gemini 3 的 grounding 价格差非常大。
第三类隐性成本:缓存不是“白送”,只是更便宜
缓存能省钱,但缓存本身也在计费。
OpenAI
OpenAI 的缓存逻辑比较直观,直接给 cached input 价格。比如:
GPT-5.4:标准输入\$2.50,cached input\$0.25GPT-5.4-mini:标准输入\$0.75,cached input\$0.075
Anthropic
Anthropic 的缓存规则更值得仔细看。官方文档给出的倍率是:
- 5 分钟 cache write:基础输入价的
1.25x - 1 小时 cache write:基础输入价的
2x - cache read:基础输入价的
0.1x
这意味着:
- 读缓存很便宜
- 写缓存不是免费
- 只有在重复使用前缀足够多时,缓存才真正划算
Gemini
Gemini 除了缓存 token 价格,还有 storage price。比如:
Gemini 3.1 Pro Preview:cache\$0.20 / 1M tokens,storage\$4.50 / 1M tokens / hourGemini 2.5 Flash-Lite:cache\$0.01 / 1M tokens,storage\$1.00 / 1M tokens / hour
这意味着 Gemini 的缓存更像“缓存 + 存储”双成本结构。
第四类隐性成本:代码执行和容器
很多团队做 agent 时最容易忽视这一块。
OpenAI
OpenAI 当前公开定价页对 Containers 的说明是:
- 从
2026-03-31起,1 GB容器按\$0.03 / 20 分钟 / container计费
如果你把它当成“只是模型多做一步”,预算就会偏差很大。
Anthropic
Anthropic 在 2025-05-22 发布了 code execution tool、Files API 和 MCP connector。工具能力更强了,但整体成本模型也更像“任务系统”而不是“单次生成”。
Together AI
Together AI 也给出 Code Interpreter 定价:
\$0.03 / 60 分钟 session
如果你是做分析型 agent,这类成本不能忽略。
第五类隐性成本:失败请求和重试
这部分经常被漏掉。
比如 Vertex AI 的定价页明确写到:
- 只有返回
200的请求才收费 4xx和5xx不计输入输出费用
这对做大规模批量调用的小团队其实非常关键,因为它直接影响你怎么看重试策略和失败预算。
第六类隐性成本:Batch 没用上,等于白白多花钱
三家大厂的思路很接近: 只要任务不要求实时,就应该认真考虑 Batch。
- OpenAI:
Batch API输入输出可节省50% - Anthropic:
Batch API输入输出也有50%折扣 - Gemini:
Batch API也提供明显折扣
很多离线任务其实并不需要实时返回,硬走在线接口,往往是最容易忽略的浪费。
怎么更现实地算总成本
比较靠谱的做法是按下面的公式去估:
总成本 = 模型成本 + 工具调用成本 + 缓存写入/存储成本 + 长上下文溢价 + 执行环境成本 + 重试成本
如果你的系统里有搜索、文件、长文档、agent、多轮上下文,这个公式会比“只看 token 单价”靠谱得多。
个人开发者该怎么避坑
对个人开发者,最实用的原则是:
- 不是每个请求都开搜索
- 不是每个任务都开长上下文
- 不是每个流程都上代码执行
- 离线任务优先走 Batch
小团队该怎么避坑
小团队最好补上两层控制:
- 功能开关:搜索、执行、长上下文按需启用
- 预算开关:按模型、工具、任务类型分别做预算上限
这会比单纯“换便宜模型”更有效。
最后一句判断
真正把账单拉高的,经常不是模型名字,而是你默认打开了太多昂贵能力。 会省钱的系统,通常不是“只用最便宜模型”,而是“只在该花钱的时候花钱”。
官方资料
- OpenAI API Pricing
https://openai.com/api/pricing/
- OpenAI Models
https://developers.openai.com/api/docs/models
- Anthropic Pricing
https://docs.anthropic.com/en/docs/about-claude/pricing
- Anthropic Web Search Tool
https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/web-search-tool
- Gemini Developer API pricing
https://ai.google.dev/gemini-api/docs/pricing
- Vertex AI Generative AI pricing
https://cloud.google.com/vertex-ai/generative-ai/pricing
- Together AI Pricing
https://www.together.ai/pricing