消耗和速率限制

使用我们 API 的费用基于令牌消耗。我们根据令牌类别收取不同的价格。

访问模型与定价了解一般定价，或访问xAI 控制台了解适用于您团队的定价。

每个grok模型都有不同的速率限制。要查看您团队的速率限制，您可以访问xAI 控制台模型页面。

计算消耗的基本单位——令牌

令牌是用于模型推理和定价目的的提示大小的基本单位。它由一个或多个字符/符号组成。

当 Grok 模型处理您的请求时，输入提示将通过分词器分解为令牌列表。模型将根据提示令牌进行推理，并生成补全令牌。推理完成后，补全令牌将聚合为发送给您的补全响应。

我们的系统将向输入/输出令牌添加额外的格式令牌，如果您选择了推理模型，额外的推理令牌也将计入总令牌消耗。您的实际消耗将反映在 API 响应中返回的usage对象中，或xAI 控制台上的使用情况浏览器中。

您可以在 xAI 控制台上使用分词器来可视化给定文本提示的令牌，或使用 API 上的分词文本端点。

令牌可以是整个单词，也可以是字符组合的较小块。一个单词越常见，它就越可能成为一个完整的令牌。

例如，Flint 被分解为两个令牌，而 Michigan 是一个完整的令牌。

在另一个例子中，大多数单词本身就是令牌，但“drafter”被分解为“dra”和“fter”，“postmaster”被分解为“post”和“master”。

对于给定的文本/图像/等提示或补全序列，不同的分词器可能会将其分解为不同长度的列表。

不同的 Grok 模型也可能共享或使用不同的分词器。因此，相同的提示/补全序列在不同模型中可能具有不同数量的令牌。

提示/补全序列中的令牌计数应大致与序列长度呈线性关系。

每个图像提示将消耗 256 到 1792 个令牌，具体取决于图像的大小。图像 + 文本令牌计数必须小于模型的整体上下文窗口。

分词器页面或 API 可能显示的令牌计数少于实际的令牌消耗。推理端点会自动添加预定义的令牌，以帮助我们的系统处理请求。

在 xAI 控制台上，您可以使用分词器页面估算您的文本提示将消耗多少令牌。例如，以下消息将消耗 5 个令牌（由于系统添加了额外的特殊令牌，实际消耗可能会有所不同）。

消息正文

分词器页面上的分词结果

您还可以利用分词文本API 端点对文本进行分词，并计算输出令牌数组的长度。

当您多次发送相同的提示时，我们可能会缓存您的提示令牌。这将导致这些令牌的成本降低，并加快响应速度。

模型可能会使用推理来处理您的请求。推理内容在响应的reasoning_content字段中返回。推理令牌消耗将与completion_tokens分开计数，但会计入total_tokens。

推理令牌将按与completion_tokens相同的价格计费。

grok-4不返回reasoning_content

要请求更高的速率限制，请发送电子邮件至support@x.ai并附上您预期的使用量。

每个层级都有每分钟最大请求量和每分钟最大令牌量。这是为了确保系统所有用户都能公平使用。

一旦您的请求频率达到速率限制，您将收到错误代码429作为响应。

您可以选择

在每个补全响应中，都有一个usage对象，详细说明您的提示和补全令牌计数。跟踪它可能会有所帮助，以避免达到速率限制或出现费用意外。

您还可以通过 xAI、OpenAI 或 Anthropic SDK 进行检查。