RH
RouterHub AI API中转站哪家好?2026最新免费稳定大模型接口平台推荐
博客

长上下文、搜索、代码执行都算钱:AI API 的隐性成本怎么比

摘要 很多人比较 AI API 成本时,只看输入和输出 token 单价,最后预算还是超了。真正让账单变大的,往往不是模型本身,而是搜索、缓存、代码执行、长上下文、失败重试和多轮对话膨胀。 先说结论 真正的 API 成本通常是: 模型 tokens + 工具调用 + 长上下文溢价

muchacha1@163.com 2026-04-02 12:10

正文

摘要

很多人比较 AI API 成本时,只看输入和输出 token 单价,最后预算还是超了。真正让账单变大的,往往不是模型本身,而是搜索、缓存、代码执行、长上下文、失败重试和多轮对话膨胀。

先说结论

真正的 API 成本通常是:

模型 tokens + 工具调用 + 长上下文溢价 + 缓存写入 + 执行环境 + 重试损耗

如果你只按“每百万 tokens 单价”预算,最后大概率会低估实际成本。

第一类隐性成本:长上下文不是免费放大

很多团队会下意识觉得“上下文越大越好”,但大上下文几乎从来都不是免费午餐。

OpenAI

OpenAI 当前定价页写得很明确:GPT-5.4 这类模型给出的是 270K 以下的标准价。开发者模型页还标注了:当 GPT-5.4 / GPT-5.4 pro 输入超过约 272K 时,整次会话会进入更高计费档。

Anthropic

Anthropic 的规则更直白。按官方文档,Claude Sonnet 4 如果启用 1M context 并且输入超过 200K,就会触发 long context premium:

  • 输入:从 \$3 / MTok 提升到 \$6 / MTok
  • 输出:从 \$15 / MTok 提升到 \$22.50 / MTok

而且这不是“超过部分加价”,而是整次请求都按高档计费。

Gemini

Gemini 这边也有明显的长上下文分档。以 Gemini 3.1 Pro Preview 为例:

  • <= 200K 输入:输入 \$2.00,输出 \$12.00
  • > 200K 输入:输入 \$4.00,输出 \$18.00

这意味着上下文一旦越过阈值,账单会直接跳一个台阶。

第二类隐性成本:搜索不是“附赠能力”

搜索很有价值,但并不便宜。

OpenAI 的搜索成本

按当前 OpenAI 定价页:

  • web search$10 / 1,000 calls
  • 搜索内容 tokens 免费

这个定价结构很容易让人误判,因为你会觉得“tokens 没涨”,但实际上每次工具调用本身就已经额外收费。

Anthropic 的搜索成本

Anthropic 官方文档写得很清楚:

  • web search$10 / 1,000 searches
  • 搜索结果还会按标准 token 成本继续计费

也就是说,Anthropic 的搜索是“双计费”思路: 先收搜索调用费,再把搜回来的内容算进 token。

Gemini 的搜索成本

Gemini 需要特别区分版本:

  • Gemini 3:共享 5,000 次免费 prompts / 月,之后 \$14 / 1,000 search queries
  • Gemini 2.5:共享 1,500 RPD 免费 grounded prompts,之后 \$35 / 1,000 grounded prompts

这说明 Google 的搜索成本结构并不统一,Gemini 2.5Gemini 3 的 grounding 价格差非常大。

第三类隐性成本:缓存不是“白送”,只是更便宜

缓存能省钱,但缓存本身也在计费。

OpenAI

OpenAI 的缓存逻辑比较直观,直接给 cached input 价格。比如:

  • GPT-5.4:标准输入 \$2.50,cached input \$0.25
  • GPT-5.4-mini:标准输入 \$0.75,cached input \$0.075

Anthropic

Anthropic 的缓存规则更值得仔细看。官方文档给出的倍率是:

  • 5 分钟 cache write:基础输入价的 1.25x
  • 1 小时 cache write:基础输入价的 2x
  • cache read:基础输入价的 0.1x

这意味着:

  • 读缓存很便宜
  • 写缓存不是免费
  • 只有在重复使用前缀足够多时,缓存才真正划算

Gemini

Gemini 除了缓存 token 价格,还有 storage price。比如:

  • Gemini 3.1 Pro Preview:cache \$0.20 / 1M tokens,storage \$4.50 / 1M tokens / hour
  • Gemini 2.5 Flash-Lite:cache \$0.01 / 1M tokens,storage \$1.00 / 1M tokens / hour

这意味着 Gemini 的缓存更像“缓存 + 存储”双成本结构。

第四类隐性成本:代码执行和容器

很多团队做 agent 时最容易忽视这一块。

OpenAI

OpenAI 当前公开定价页对 Containers 的说明是:

  • 2026-03-31 起,1 GB 容器按 \$0.03 / 20 分钟 / container 计费

如果你把它当成“只是模型多做一步”,预算就会偏差很大。

Anthropic

Anthropic 在 2025-05-22 发布了 code execution tool、Files API 和 MCP connector。工具能力更强了,但整体成本模型也更像“任务系统”而不是“单次生成”。

Together AI

Together AI 也给出 Code Interpreter 定价:

  • \$0.03 / 60 分钟 session

如果你是做分析型 agent,这类成本不能忽略。

第五类隐性成本:失败请求和重试

这部分经常被漏掉。

比如 Vertex AI 的定价页明确写到:

  • 只有返回 200 的请求才收费
  • 4xx5xx 不计输入输出费用

这对做大规模批量调用的小团队其实非常关键,因为它直接影响你怎么看重试策略和失败预算。

第六类隐性成本:Batch 没用上,等于白白多花钱

三家大厂的思路很接近: 只要任务不要求实时,就应该认真考虑 Batch。

  • OpenAI:Batch API 输入输出可节省 50%
  • Anthropic:Batch API 输入输出也有 50% 折扣
  • Gemini:Batch API 也提供明显折扣

很多离线任务其实并不需要实时返回,硬走在线接口,往往是最容易忽略的浪费。

怎么更现实地算总成本

比较靠谱的做法是按下面的公式去估:

总成本 = 模型成本 + 工具调用成本 + 缓存写入/存储成本 + 长上下文溢价 + 执行环境成本 + 重试成本

如果你的系统里有搜索、文件、长文档、agent、多轮上下文,这个公式会比“只看 token 单价”靠谱得多。

个人开发者该怎么避坑

对个人开发者,最实用的原则是:

  • 不是每个请求都开搜索
  • 不是每个任务都开长上下文
  • 不是每个流程都上代码执行
  • 离线任务优先走 Batch

小团队该怎么避坑

小团队最好补上两层控制:

  • 功能开关:搜索、执行、长上下文按需启用
  • 预算开关:按模型、工具、任务类型分别做预算上限

这会比单纯“换便宜模型”更有效。

最后一句判断

真正把账单拉高的,经常不是模型名字,而是你默认打开了太多昂贵能力。 会省钱的系统,通常不是“只用最便宜模型”,而是“只在该花钱的时候花钱”。

官方资料

  • OpenAI API Pricing

https://openai.com/api/pricing/

  • OpenAI Models

https://developers.openai.com/api/docs/models

  • Anthropic Pricing

https://docs.anthropic.com/en/docs/about-claude/pricing

  • Anthropic Web Search Tool

https://docs.anthropic.com/en/docs/agents-and-tools/tool-use/web-search-tool

  • Gemini Developer API pricing

https://ai.google.dev/gemini-api/docs/pricing

  • Vertex AI Generative AI pricing

https://cloud.google.com/vertex-ai/generative-ai/pricing

  • Together AI Pricing

https://www.together.ai/pricing