文本系列
通用对话接口(默认流式)
使用 OpenAI Chat Completions 兼容格式发起对话,并以 SSE 流式返回模型输出。
POST
通用对话接口(默认流式)
使用统一对话格式调用 OpenAI、Claude、Gemini、DeepSeek、Qwen 等上游模型。本文档以流式输出为默认写法,适合需要边生成边展示的聊天、Agent 和长文本生成场景。本项目路由中
stream 未传时按非流式处理。若希望固定获得流式响应,请显式传入 "stream": true。请求体
按时间顺序排列的对话消息。常见角色为
system、user、assistant、tool。消息内容。字符串表示纯文本;数组表示多模态内容,支持
text、image_url、input_audio、file、video_url。设为
true 后响应为 text/event-stream,每个片段以 data: 推送,结束时返回 data: [DONE]。在流式最后一条消息中携带 token 用量统计。仅部分上游模型支持。
限制最大生成 token 数。部分推理模型建议改用
max_completion_tokens。限制最大补全 token 数,包含推理 token。适合支持 reasoning 的模型。
采样温度,常用范围
0 到 2。较低值更稳定,较高值更多样。核采样参数,常用范围
0 到 1。通常不建议同时大幅调整 temperature 和 top_p。函数调用工具列表,格式兼容 OpenAI
tools。控制模型是否调用工具。常见值为
auto、none、required,也可指定某个函数。指定输出格式,例如
{ "type": "json_object" } 或 json_schema。推理强度。常见值为
low、medium、high,是否生效取决于模型。请求示例
多模态流式
响应示例
响应字段
本次生成的响应 ID。
流式响应固定为
chat.completion.chunk。增量内容。可能包含
role、content、reasoning_content 或 tool_calls。结束原因,常见值为
stop、length、tool_calls。用量统计。只有上游返回用量且启用
stream_options.include_usage 时才一定出现。