生成参数¶

控制模型生成回复的方式——从上下文长度到创意设置。

上下文窗口¶

最大上下文消息数设置将多少条最近消息作为上下文发送给模型。默认：20。

此设置对所有模型生效。实际的 token 上下文窗口取决于你的模型和消息长度。

控制模型输出的随机性。范围：0.0 – 2.0。

较高的温度意味着模型更可能选择不太可能的词。较低的温度产生更聚焦、重复性更强的输出。

何时调整

控制 token 选择的多样性。范围：0.0 – 1.0。

模型仅考虑累积概率超过 top_p 的最小 token 集合。

通常你只需调整 temperature 或 top P 其中之一——不需要同时调整两者。

设置模型回复的最大 token 限制。设置后，模型单次回复不会超过此数量。未设置（默认）时，模型使用自身的默认最大值。

可用预设：

256   512   1024   2048
4096  8192  16384  32768

保持未设置以获得灵活性

大多数情况下保持未设置。仅当需要一致的回复长度（如简短摘要）或控制成本时设置限制。

减少模型重复相同词语的倾向。范围：-2.0 – 2.0。

鼓励模型谈论新话题。范围：-2.0 – 2.0。

为支持的模型（如 DeepSeek R1、Qwen3、Claude）启用思维链推理。

启用后，模型在生成最终回复前会先生成内部推理过程。这提高了复杂任务的准确性，但需要更长时间并消耗更多 token。

并非所有模型都支持推理

推理模式需要模型支持推理 token。如果你的模型不支持，此设置无效。

启用后，Agora 会直观地标示哪些消息包含在当前上下文窗口中、哪些已被推出（因上下文窗口限制而排除）。这帮助你理解：

可视化显示为对话视图中的微妙标记。

所有生成参数均为可空值——当未显式设置时，不会发送给模型，模型使用自己的默认值。每个参数都有重置选项可将值清空回"未设置"状态。

你可以在聊天界面通过高级设置对话框（长按发送按钮或使用 ⋮ 菜单）覆盖单个对话的生成参数。