指南
延迟聊天补全
延迟聊天补全目前仅通过 REST 请求或 xAI SDK 提供。
延迟聊天补全允许您创建聊天补全,获取一个 response_id
,并在稍后检索响应。结果将在 24 小时内只可被请求一次,之后将被丢弃。

向 xAI API 发送请求后,聊天补全结果将在 https://api.x.ai/v1/chat/deferred-completion/{request_id}
提供。响应正文将包含 {'request_id': 'f15c114e-f47d-40ca-8d5c-8c23d656eeb6'}
,并且 request_id
值可以插入到 deferred-completion
端点路径中。然后,我们发送这个 GET 请求来检索延迟补全结果。
当补全结果未准备好时,请求将返回 202 Accepted
,并带有空响应正文。
您可以通过聊天补全响应的 message.reasoning_content
访问模型的原始思维轨迹。
grok-4
不返回 reasoning_content
示例
下面提供了一个示例代码,我们将在其中重试检索结果,直到其被处理。
响应正文将与非延迟聊天补全的预期相同。