跳转至

生成参数

控制模型生成回复的方式——从上下文长度到创意设置。

上下文窗口

最大上下文消息数设置将多少条最近消息作为上下文发送给模型。默认:20

  • 5–20 — 较短上下文,回复更快,token 消耗更少
  • 20–50 — 较长上下文,适用于复杂的多轮对话
  • 50–100 — 超长上下文,适用于非常长的讨论(可能达到 token 限制)

此设置对所有模型生效。实际的 token 上下文窗口取决于你的模型和消息长度。


Temperature(温度)

控制模型输出的随机性。范围:0.0 – 2.0

  • 0.0 – 0.3 — 更确定性、一致、事实性
  • 0.5 – 0.8 — 平衡创意性(推荐默认值)
  • 1.0 – 2.0 — 更随机、创意、不可预测

较高的温度意味着模型更可能选择不太可能的词。较低的温度产生更聚焦、重复性更强的输出。

何时调整

  • 代码 / 事实:使用低温(0.0 – 0.3)
  • 创意写作:使用高温度(0.8 – 1.2)
  • 一般聊天:使用中等温度(0.5 – 0.7)

Top P(核采样)

控制 token 选择的多样性。范围:0.0 – 1.0

模型仅考虑累积概率超过 top_p 的最小 token 集合。

  • 0.1 — 非常聚焦,仅最可能的 token
  • 0.5 — 中等多样性
  • 0.9 – 1.0 — 完全多样性(推荐默认值)

通常你只需调整 temperature 或 top P 其中之一——不需要同时调整两者。


默认最大 Token 数

设置模型回复的最大 token 限制。设置后,模型单次回复不会超过此数量。未设置(默认)时,模型使用自身的默认最大值。

可用预设:

256   512   1024   2048
4096  8192  16384  32768

保持未设置以获得灵活性

大多数情况下保持未设置。仅当需要一致的回复长度(如简短摘要)或控制成本时设置限制。


频率惩罚(Frequency Penalty)

减少模型重复相同词语的倾向。范围:-2.0 – 2.0

  • 正值(0.1 – 1.0)— 抑制重复
  • (0.0)— 无惩罚(默认)
  • 负值(-1.0 – -0.1)— 鼓励重复

存在惩罚(Presence Penalty)

鼓励模型谈论新话题。范围:-2.0 – 2.0

  • 正值(0.1 – 1.0)— 鼓励话题多样性
  • (0.0)— 无惩罚(默认)
  • 负值 — 保持当前话题

思考 / 推理

为支持的模型(如 DeepSeek R1、Qwen3、Claude)启用思维链推理。

启用后,模型在生成最终回复前会先生成内部推理过程。这提高了复杂任务的准确性,但需要更长时间并消耗更多 token。

推理深度

  • — 最少推理,更快
  • — 平衡(默认)
  • — 最大推理,适用于复杂问题

并非所有模型都支持推理

推理模式需要模型支持推理 token。如果你的模型不支持,此设置无效。


可视化上下文推出

启用后,Agora 会直观地标示哪些消息包含在当前上下文窗口中、哪些已被推出(因上下文窗口限制而排除)。这帮助你理解:

  • 模型能"看到"多少对话
  • 旧消息何时退出上下文
  • 是否需要增加上下文窗口

可视化显示为对话视图中的微妙标记。


参数工作原理

所有生成参数均为可空值——当未显式设置时,不会发送给模型,模型使用自己的默认值。每个参数都有重置选项可将值清空回"未设置"状态。


单对话覆盖

你可以在聊天界面通过高级设置对话框(长按发送按钮或使用 ⋮ 菜单)覆盖单个对话的生成参数。