指南

延迟聊天补全

延迟聊天补全目前仅通过 REST 请求或 xAI SDK 提供。

延迟聊天补全允许您创建聊天补全,获取一个 response_id,并在稍后检索响应。结果将在 24 小时内只可被请求一次,之后将被丢弃。

Deferred chat flow

向 xAI API 发送请求后,聊天补全结果将在 https://api.x.ai/v1/chat/deferred-completion/{request_id} 提供。响应正文将包含 {'request_id': 'f15c114e-f47d-40ca-8d5c-8c23d656eeb6'},并且 request_id 值可以插入到 deferred-completion 端点路径中。然后,我们发送这个 GET 请求来检索延迟补全结果。

当补全结果未准备好时,请求将返回 202 Accepted,并带有空响应正文。

您可以通过聊天补全响应的 message.reasoning_content 访问模型的原始思维轨迹。

grok-4 不返回 reasoning_content

示例

下面提供了一个示例代码,我们将在其中重试检索结果,直到其被处理。

响应正文将与非延迟聊天补全的预期相同。

有关更多详细信息,请参阅我们的 REST API 参考中的 聊天补全获取延迟聊天补全