长上下文、搜索、代码执行都算钱：AI API 的隐性成本怎么比

摘要

很多人比较 AI API 成本时，只看输入和输出 token 单价，最后预算还是超了。真正让账单变大的，往往不是模型本身，而是搜索、缓存、代码执行、长上下文、失败重试和多轮对话膨胀。

先说结论

真正的 API 成本通常是：

模型 tokens + 工具调用 + 长上下文溢价 + 缓存写入 + 执行环境 + 重试损耗

如果你只按“每百万 tokens 单价”预算，最后大概率会低估实际成本。

第一类隐性成本：长上下文不是免费放大

很多团队会下意识觉得“上下文越大越好”，但大上下文几乎从来都不是免费午餐。

OpenAI

OpenAI 当前定价页写得很明确：GPT-5.4 这类模型给出的是 270K 以下的标准价。开发者模型页还标注了：当 GPT-5.4 / GPT-5.4 pro 输入超过约 272K 时，整次会话会进入更高计费档。

Anthropic

Anthropic 的规则更直白。按官方文档，Claude Sonnet 4 如果启用 1M context 并且输入超过 200K，就会触发 long context premium：

输入：从 \$3 / MTok 提升到 \$6 / MTok
输出：从 \$15 / MTok 提升到 \$22.50 / MTok

而且这不是“超过部分加价”，而是整次请求都按高档计费。

Gemini

Gemini 这边也有明显的长上下文分档。以 Gemini 3.1 Pro Preview 为例：

<= 200K 输入：输入 \$2.00，输出 \$12.00
> 200K 输入：输入 \$4.00，输出 \$18.00

这意味着上下文一旦越过阈值，账单会直接跳一个台阶。

第二类隐性成本：搜索不是“附赠能力”

搜索很有价值，但并不便宜。

OpenAI 的搜索成本

按当前 OpenAI 定价页：

web search：$10 / 1,000 calls
搜索内容 tokens 免费

这个定价结构很容易让人误判，因为你会觉得“tokens 没涨”，但实际上每次工具调用本身就已经额外收费。

Anthropic 的搜索成本

Anthropic 官方文档写得很清楚：

web search：$10 / 1,000 searches
搜索结果还会按标准 token 成本继续计费

也就是说，Anthropic 的搜索是“双计费”思路：先收搜索调用费，再把搜回来的内容算进 token。

Gemini 的搜索成本

Gemini 需要特别区分版本：

Gemini 3：共享 5,000 次免费 prompts / 月，之后 \$14 / 1,000 search queries
Gemini 2.5：共享 1,500 RPD 免费 grounded prompts，之后 \$35 / 1,000 grounded prompts

这说明 Google 的搜索成本结构并不统一，Gemini 2.5 和 Gemini 3 的 grounding 价格差非常大。

第三类隐性成本：缓存不是“白送”，只是更便宜

缓存能省钱，但缓存本身也在计费。

OpenAI

OpenAI 的缓存逻辑比较直观，直接给 cached input 价格。比如：

GPT-5.4：标准输入 \$2.50，cached input \$0.25
GPT-5.4-mini：标准输入 \$0.75，cached input \$0.075

Anthropic

Anthropic 的缓存规则更值得仔细看。官方文档给出的倍率是：

5 分钟 cache write：基础输入价的 1.25x
1 小时 cache write：基础输入价的 2x
cache read：基础输入价的 0.1x

这意味着：

读缓存很便宜
写缓存不是免费
只有在重复使用前缀足够多时，缓存才真正划算

Gemini

Gemini 除了缓存 token 价格，还有 storage price。比如：

Gemini 3.1 Pro Preview：cache \$0.20 / 1M tokens，storage \$4.50 / 1M tokens / hour
Gemini 2.5 Flash-Lite：cache \$0.01 / 1M tokens，storage \$1.00 / 1M tokens / hour

这意味着 Gemini 的缓存更像“缓存 + 存储”双成本结构。

第四类隐性成本：代码执行和容器

很多团队做 agent 时最容易忽视这一块。

OpenAI

OpenAI 当前公开定价页对 Containers 的说明是：

从 2026-03-31 起，1 GB 容器按 \$0.03 / 20 分钟 / container 计费

如果你把它当成“只是模型多做一步”，预算就会偏差很大。

Anthropic

Anthropic 在 2025-05-22 发布了 code execution tool、Files API 和 MCP connector。工具能力更强了，但整体成本模型也更像“任务系统”而不是“单次生成”。

Together AI

Together AI 也给出 Code Interpreter 定价：

\$0.03 / 60 分钟 session

如果你是做分析型 agent，这类成本不能忽略。

第五类隐性成本：失败请求和重试

这部分经常被漏掉。

比如 Vertex AI 的定价页明确写到：

只有返回 200 的请求才收费
4xx 和 5xx 不计输入输出费用

这对做大规模批量调用的小团队其实非常关键，因为它直接影响你怎么看重试策略和失败预算。

第六类隐性成本：Batch 没用上，等于白白多花钱

三家大厂的思路很接近：只要任务不要求实时，就应该认真考虑 Batch。

OpenAI：Batch API 输入输出可节省 50%
Anthropic：Batch API 输入输出也有 50% 折扣
Gemini：Batch API 也提供明显折扣

很多离线任务其实并不需要实时返回，硬走在线接口，往往是最容易忽略的浪费。

怎么更现实地算总成本

比较靠谱的做法是按下面的公式去估：

总成本 = 模型成本 + 工具调用成本 + 缓存写入/存储成本 + 长上下文溢价 + 执行环境成本 + 重试成本

如果你的系统里有搜索、文件、长文档、agent、多轮上下文，这个公式会比“只看 token 单价”靠谱得多。

个人开发者该怎么避坑

对个人开发者，最实用的原则是：

不是每个请求都开搜索
不是每个任务都开长上下文
不是每个流程都上代码执行
离线任务优先走 Batch

小团队该怎么避坑

小团队最好补上两层控制：

功能开关：搜索、执行、长上下文按需启用
预算开关：按模型、工具、任务类型分别做预算上限

这会比单纯“换便宜模型”更有效。

最后一句判断

真正把账单拉高的，经常不是模型名字，而是你默认打开了太多昂贵能力。会省钱的系统，通常不是“只用最便宜模型”，而是“只在该花钱的时候花钱”。

官方资料

OpenAI API Pricing

https://openai.com/api/pricing/

OpenAI Models

https://developers.openai.com/api/docs/models

Anthropic Pricing

https://docs.anthropic.com/en/docs/about-claude/pricing

Anthropic Web Search Tool

https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/web-search-tool

Gemini Developer API pricing

https://ai.google.dev/gemini-api/docs/pricing

Vertex AI Generative AI pricing

https://cloud.google.com/vertex-ai/generative-ai/pricing

Together AI Pricing

https://www.together.ai/pricing

长上下文、搜索、代码执行都算钱：AI API 的隐性成本怎么比

正文

摘要

先说结论

第一类隐性成本：长上下文不是免费放大

OpenAI

Anthropic

Gemini

第二类隐性成本：搜索不是“附赠能力”

OpenAI 的搜索成本

Anthropic 的搜索成本

Gemini 的搜索成本

第三类隐性成本：缓存不是“白送”，只是更便宜

OpenAI

Anthropic

Gemini

第四类隐性成本：代码执行和容器

OpenAI

Anthropic

Together AI

第五类隐性成本：失败请求和重试

第六类隐性成本：Batch 没用上，等于白白多花钱

怎么更现实地算总成本

个人开发者该怎么避坑

小团队该怎么避坑

最后一句判断

官方资料