关键信息
消耗和速率限制
使用我们 API 的费用基于令牌消耗。我们根据令牌类别收取不同的价格。
- 提示文本、音频和图像令牌
- 按提示令牌价格计费
- 缓存的提示令牌
- 按缓存的提示令牌价格计费
- 补全令牌
- 按补全令牌价格计费
- 推理令牌
- 按补全令牌价格计费
访问模型与定价了解一般定价,或访问xAI 控制台了解适用于您团队的定价。
每个grok
模型都有不同的速率限制。要查看您团队的速率限制,您可以访问xAI 控制台模型页面。
计算消耗的基本单位——令牌
令牌是用于模型推理和定价目的的提示大小的基本单位。它由一个或多个字符/符号组成。
当 Grok 模型处理您的请求时,输入提示将通过分词器分解为令牌列表。模型将根据提示令牌进行推理,并生成补全令牌。推理完成后,补全令牌将聚合为发送给您的补全响应。
我们的系统将向输入/输出令牌添加额外的格式令牌,如果您选择了推理模型,额外的推理令牌也将计入总令牌消耗。您的实际消耗将反映在 API 响应中返回的usage
对象中,或xAI 控制台上的使用情况浏览器中。
您可以在 xAI 控制台上使用分词器来可视化给定文本提示的令牌,或使用 API 上的分词文本端点。

文本令牌
令牌可以是整个单词,也可以是字符组合的较小块。一个单词越常见,它就越可能成为一个完整的令牌。
例如,Flint 被分解为两个令牌,而 Michigan 是一个完整的令牌。

在另一个例子中,大多数单词本身就是令牌,但“drafter”被分解为“dra”和“fter”,“postmaster”被分解为“post”和“master”。

对于给定的文本/图像/等提示或补全序列,不同的分词器可能会将其分解为不同长度的列表。
不同的 Grok 模型也可能共享或使用不同的分词器。因此,相同的提示/补全序列在不同模型中可能具有不同数量的令牌。
提示/补全序列中的令牌计数应大致与序列长度呈线性关系。
图像提示令牌
每个图像提示将消耗 256 到 1792 个令牌,具体取决于图像的大小。图像 + 文本令牌计数必须小于模型的整体上下文窗口。
使用 xAI 控制台或通过 API 的分词器估算消耗
在 xAI 控制台上,您可以使用分词器页面估算您的文本提示将消耗多少令牌。例如,以下消息将消耗 5 个令牌(由于系统添加了额外的特殊令牌,实际消耗可能会有所不同)。
消息正文
分词器页面上的分词结果

您还可以利用分词文本API 端点对文本进行分词,并计算输出令牌数组的长度。
缓存的提示令牌
当您多次发送相同的提示时,我们可能会缓存您的提示令牌。这将导致这些令牌的成本降低,并加快响应速度。
推理令牌
模型可能会使用推理来处理您的请求。推理内容在响应的reasoning_content
字段中返回。推理令牌消耗将与completion_tokens
分开计数,但会计入total_tokens
。
推理令牌将按与completion_tokens
相同的价格计费。
grok-4
不返回reasoning_content
达到速率限制
要请求更高的速率限制,请发送电子邮件至support@x.ai并附上您预期的使用量。
每个层级都有每分钟最大请求量和每分钟最大令牌量。这是为了确保系统所有用户都能公平使用。
一旦您的请求频率达到速率限制,您将收到错误代码429
作为响应。
您可以选择
- 将您的团队升级到更高的层级
- 改变您的消耗模式,减少发送请求
检查令牌消耗
在每个补全响应中,都有一个usage
对象,详细说明您的提示和补全令牌计数。跟踪它可能会有所帮助,以避免达到速率限制或出现费用意外。
您还可以通过 xAI、OpenAI 或 Anthropic SDK 进行检查。