指南

延迟聊天补全

延迟聊天补全目前仅通过 REST 请求或 xAI SDK 提供。

延迟聊天补全允许您创建聊天补全，获取一个 response_id，并在稍后检索响应。结果将在 24 小时内只可被请求一次，之后将被丢弃。

向 xAI API 发送请求后，聊天补全结果将在 https://api.x.ai/v1/chat/deferred-completion/{request_id} 提供。响应正文将包含 {'request_id': 'f15c114e-f47d-40ca-8d5c-8c23d656eeb6'}，并且 request_id 值可以插入到 deferred-completion 端点路径中。然后，我们发送这个 GET 请求来检索延迟补全结果。

当补全结果未准备好时，请求将返回 202 Accepted，并带有空响应正文。

您可以通过聊天补全响应的 message.reasoning_content 访问模型的原始思维轨迹。

grok-4 不返回 reasoning_content

示例

下面提供了一个示例代码，我们将在其中重试检索结果，直到其被处理。

响应正文将与非延迟聊天补全的预期相同。

有关更多详细信息，请参阅我们的 REST API 参考中的聊天补全和获取延迟聊天补全。