通义千问 Qwen3.5 系列模型开源后,凭借其强大的性能直逼闭源前沿模型,迅速成为社区宠儿。尤其是其独特的思考模式(Thinking Mode),在处理复杂推理、数学证明和代码调试时表现卓越。
然而,对于许多日常简单问答(如“今天天气如何”、“翻译这句话”),开启思考模式往往意味着漫长的等待。模型会花费大量时间进行内部推演,导致响应延迟极高,严重影响体验。

好消息是,在 Ollama 中,你可以轻松关闭或隐藏这一思考过程,让 Qwen3.5 在简单任务上也能实现“秒回”。以下是两种最有效的操作方法:
方法一:启动时通过参数控制(推荐)
Ollama 自 2025 年中起已原生支持 thinking 相关参数。你可以在运行模型时直接通过命令行标志(Flag)来控制。
1. 完全关闭思考(最快)
如果你希望模型完全不进行内部思考,直接生成回答,使用 --think=false:
ollama run qwen3.5 --think=false
- 效果:模型跳过思考阶段,直接输出最终答案。响应速度极快,适合简单问答、闲聊和快速检索。
2. 隐藏思考过程(保留逻辑但不可见)
如果你希望模型仍在后台思考以保证质量,但不想在屏幕上看到冗长的思维链,可以使用 --hidethinking:
ollama run qwen3.5 --hidethinking
- 效果:模型内部仍会进行推理,但界面上只显示最终结果。这比完全关闭稍慢,但比显示全过程快得多,且能保持一定的回答质量。
💡 提示:这些参数不仅适用于 Qwen3.5,也适用于其他支持思考模式的模型(如 DeepSeek-R1 等)。
方法二:在对话过程中动态切换
如果你已经启动了对话,或者想在不同任务间灵活切换模式,无需重启终端,直接使用 Ollama 的内置命令即可。
1. 关闭思考模式
在对话中输入以下命令并回车:
/set nothink
- 生效范围:当前会话后续所有输入将不再触发思考过程。
2. 重新开启思考模式
当你遇到难题需要深度推理时,随时输入:
/set think
- 生效范围:当前会话后续输入将恢复思考模式。
操作示例
>>> /set nothink
Thinking disabled.
>>> 1+1 等于几?
2
>>> /set think
Thinking enabled.
>>> 请证明哥德巴赫猜想的当前进展。
[模型开始长时间思考...]
何时该开?何时该关?
为了获得最佳体验,建议根据场景动态调整:
| 场景 | 推荐设置 | 理由 |
|---|---|---|
| 日常闲聊 / 事实查询 | --think=false 或 /set nothink | 无需复杂推理,追求极致响应速度。 |
| 翻译 / 总结 / 改写 | --think=false 或 /set nothink | 任务明确,思考过程往往是多余的。 |
| 数学计算 / 逻辑推理 | --think=true (默认) | 需要逐步推导,思考能显著降低错误率。 |
| 复杂代码生成 / Debug | --think=true (默认) | 思考能帮助模型规划架构和排查逻辑漏洞。 |
| 多步任务规划 | --think=true (默认) | 需要拆解任务步骤,思考模式必不可少。 |
Qwen3.5 的思考模式是一把双刃剑:用对地方是神器,用错场景是累赘。通过 Ollama 提供的 --think 参数和 /set 命令,我们可以完美驾驭这把利剑,在简单任务上享受闪电般的速度,在复杂挑战中依托深度的智慧。
下次觉得 Qwen3.5 回复太慢时,别忘了试试这两招,让你的本地 AI 体验再次飞跃!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















