关键信息
模型与定价
我们的模型功能及其相关定价概述。
模型定价
模型 | 模态 | 能力 | 上下文 | 速率限制 | 定价 |
---|---|---|---|---|---|
语言模型 | 每百万 token | ||||
grok-code-fast-1 | 256,000 | 2M 480 | |||
grok-4-0709 | 256,000 | 2M 480 | |||
grok-3 | 131,072 | 600 | |||
grok-3-mini | 131,072 | 480 | |||
图像生成模型 | 每张图像输出 | ||||
grok-2-image-1212 | 300 |
显示已弃用模型
Grok 3 用户须知:Grok 4 信息
从 grok-3
/grok-3-mini
迁移到 grok-4
时,请注意以下差异:
- • Grok 4 是一个推理模型。使用 Grok 4 时没有非推理模式。
- • 推理模型不支持
presencePenalty
、frequencyPenalty
和stop
参数。在请求中添加它们将导致错误。 - • Grok 4 没有
reasoning_effort
参数。如果提供了reasoning_effort
,请求将返回错误。
实时搜索定价
实时搜索费用为每 1,000 个使用源 25 美元。这意味着每个源的费用为 0.025 美元。
使用源的数量可以在 response
对象中找到,其中包含一个名为 response.usage.num_sources_used
的字段。
有关使用实时搜索的更多信息,请访问我们的实时搜索指南,或查阅API 参考 - 聊天补全中的 search_parameters
参数。
使用指南违规费用
对于大多数用户来说,这种情况很少发生。当我们的系统判定您的请求违反了我们的使用指南时,我们将收取每请求 0.05 美元的使用指南违规费用。
关于模型的额外信息
- 未启用实时搜索时无法访问实时事件
- Grok 不了解当前事件或训练数据以外的数据。
- 要将实时数据纳入您的请求,请使用实时搜索功能,或将任何实时数据作为上下文传递到您的系统提示中。
- 聊天模型
- 无角色顺序限制:您可以在对话上下文中以任何顺序混合使用
system
、user
或assistant
角色。
- 无角色顺序限制:您可以在对话上下文中以任何顺序混合使用
- 图像输入模型
- 最大图像大小:
20MiB
- 最大图像数量:无限制
- 支持的图像文件类型:
jpg/jpeg
或png
。 - 接受任何图像/文本输入顺序(例如,文本提示可以先于图像提示)
- 最大图像大小:
Grok 3 和 Grok 4 的知识截止日期为 2024 年 11 月。
模型别名
有些模型有别名,以帮助用户自动迁移到同一模型的下一个版本。一般来说:
<modelname>
是最新稳定版本的别名。<modelname>-latest
是最新版本的别名。这适用于希望访问最新功能的用户。<modelname>-<date>
直接指向特定的模型发布。这不会更新,适用于要求一致性的工作流程。
对于大多数用户,建议使用别名 <modelname>
或 <modelname>-latest
,因为您将自动获得最新功能。
账单和可用性
您的模型访问权限可能因地理位置、账户限制等多种因素而异。
有关账单收费方式,请访问管理账单了解更多信息。
有关您的团队模型可用性的最新信息,请访问 xAI 控制台上的模型页面。
模型输入和输出
每个模型可以具有一种或多种输入和输出能力。输入能力是指模型在请求消息体中可以接受的提示类型。输出能力是指模型在响应消息体中将生成的完成类型。
这是具有 text
输入能力的模型提示示例
这是具有 text
和 image
输入能力的模型提示示例
这是具有 text
输入和 image
输出能力的模型提示示例
上下文窗口
上下文窗口决定了模型在提示中接受的最大 token 数量。
有关如何计算 token 的更多信息,请访问消耗和速率限制。
如果您在提示中发送整个对话历史记录,用于聊天助手等用例,则对话历史记录中所有提示的总和不得超过上下文窗口。
缓存提示 token
尝试多次运行相同的提示?您现在可以使用缓存提示 token 来降低重复提示的成本。通过重用存储的提示数据,您可以节省相同请求的处理费用。立即在您的设置中启用缓存并开始节省!
所有没有用户输入的请求都会自动启用缓存。您可以在 "usage"
对象中查看缓存的提示 token 消耗。
有关定价详情,请参阅上方的价格表或xAI 控制台。