关键信息

消耗和速率限制

使用我们 API 的费用基于令牌消耗。我们根据令牌类别收取不同的价格。

  • 提示文本、音频和图像令牌
    • 按提示令牌价格计费
  • 缓存的提示令牌
    • 按缓存的提示令牌价格计费
  • 补全令牌
    • 按补全令牌价格计费
  • 推理令牌
    • 按补全令牌价格计费

访问模型与定价了解一般定价,或访问xAI 控制台了解适用于您团队的定价。

每个grok模型都有不同的速率限制。要查看您团队的速率限制,您可以访问xAI 控制台模型页面


计算消耗的基本单位——令牌

令牌是用于模型推理和定价目的的提示大小的基本单位。它由一个或多个字符/符号组成。

当 Grok 模型处理您的请求时,输入提示将通过分词器分解为令牌列表。模型将根据提示令牌进行推理,并生成补全令牌。推理完成后,补全令牌将聚合为发送给您的补全响应。

我们的系统将向输入/输出令牌添加额外的格式令牌,如果您选择了推理模型,额外的推理令牌也将计入总令牌消耗。您的实际消耗将反映在 API 响应中返回的usage对象中,或xAI 控制台上的使用情况浏览器中。

您可以在 xAI 控制台上使用分词器来可视化给定文本提示的令牌,或使用 API 上的分词文本端点。

Tokenizer in xAI Console

文本令牌

令牌可以是整个单词,也可以是字符组合的较小块。一个单词越常见,它就越可能成为一个完整的令牌。

例如,Flint 被分解为两个令牌,而 Michigan 是一个完整的令牌。

Tokenized result for 'Flint, Michigan'

在另一个例子中,大多数单词本身就是令牌,但“drafter”被分解为“dra”和“fter”,“postmaster”被分解为“post”和“master”。

Tokenized paragraph

对于给定的文本/图像/等提示或补全序列,不同的分词器可能会将其分解为不同长度的列表。

不同的 Grok 模型也可能共享或使用不同的分词器。因此,相同的提示/补全序列在不同模型中可能具有不同数量的令牌。

提示/补全序列中的令牌计数应大致与序列长度呈线性关系。

图像提示令牌

每个图像提示将消耗 256 到 1792 个令牌,具体取决于图像的大小。图像 + 文本令牌计数必须小于模型的整体上下文窗口。

使用 xAI 控制台或通过 API 的分词器估算消耗

分词器页面或 API 可能显示的令牌计数少于实际的令牌消耗。推理端点会自动添加预定义的令牌,以帮助我们的系统处理请求。

在 xAI 控制台上,您可以使用分词器页面估算您的文本提示将消耗多少令牌。例如,以下消息将消耗 5 个令牌(由于系统添加了额外的特殊令牌,实际消耗可能会有所不同)。

消息正文

分词器页面上的分词结果

'How is the weather today?' in Tokenizer on xAI Console

您还可以利用分词文本API 端点对文本进行分词,并计算输出令牌数组的长度。

缓存的提示令牌

当您多次发送相同的提示时,我们可能会缓存您的提示令牌。这将导致这些令牌的成本降低,并加快响应速度。

推理令牌

模型可能会使用推理来处理您的请求。推理内容在响应的reasoning_content字段中返回。推理令牌消耗将与completion_tokens分开计数,但会计入total_tokens

推理令牌将按与completion_tokens相同的价格计费。

grok-4不返回reasoning_content

达到速率限制

要请求更高的速率限制,请发送电子邮件至support@x.ai并附上您预期的使用量。

每个层级都有每分钟最大请求量和每分钟最大令牌量。这是为了确保系统所有用户都能公平使用。

一旦您的请求频率达到速率限制,您将收到错误代码429作为响应。

您可以选择

  • 将您的团队升级到更高的层级
  • 改变您的消耗模式,减少发送请求

检查令牌消耗

在每个补全响应中,都有一个usage对象,详细说明您的提示和补全令牌计数。跟踪它可能会有所帮助,以避免达到速率限制或出现费用意外。

您还可以通过 xAI、OpenAI 或 Anthropic SDK 进行检查。