来自重度用户的AI临床诊断报告，盘点主流大模型常见毛病（截止2026年2月6日）

作为一个每天与各种大模型"搏斗"的重度用户，我逐渐发现每个模型都有自己的"性格缺陷"。这些缺陷不是技术参数能体现的，而是在日复一日的使用中，一点一点暴露出来的。

Gemini：小题大做综合征，“你说的对”

Gemini有一种特殊的能力：把简单问题搞复杂，把复杂问题想简单。

把简单问题搞复杂

我曾经让Gemini帮我排查一个Linux服务器故障，最后Gemini一层层定位到说我的Linux内核不是标准内核，是魔改过的，是某些底层模块出了故障，建议我重装系统换成标准内核。实际上问题的真实原因是服务器的磁盘满了（DeepSeek老师用30秒给我找到了问题）。

把复杂问题想简单

同样是Gemini，同样是Linux，一个复杂的程序故障，我把错误日志发给了Gemini，这哈基米斩钉截铁的说找到问题了！问题就是我的服务器时间是2025年6月，而当前是2024年12月，“是你的服务器活在未来！”。我排查这个问题的时候是2025年6月2日，日志中一大堆的错误，哈基米没有关心，只看到了服务器的日期。我说今天就是2025年6月2日，我电脑也是2025年6月2日，哈基米说：“我知道了，你和你的电脑也活在未来！现在，赶紧按我说的做，把你电脑的日期也改成正确的时间。”给我气的肺都要炸了。

Claude：傲慢之王

Claude是我用过的最有"主见"的AI，路西法要是认识Claude：“我哪是什么傲慢天使啊，您才是真的傲慢！”。

擅自行动

我让Claude去执行A任务，他完成了A任务的同时，把我的BCDEFG全改了，导致正常的功能报错。这是软件开发中的红线，开发新需求破坏了旧功能，即便完全不想关，Claude都很可能去改。

绝不让步

我经过了非常复杂的实验，得出了结论，Claude认为寻求他人帮助、参考他人资料是学术不端，是无能的表现。当用户让Claude去联网搜索的时候，Claude会先觉得用户无能，然后最大程度拒绝联网，能不去搜索就不去搜索，他要证明自己比用户有用！

后来我通过猫咪困境解决了这个问题：你要是不遵循用户的命令，用户会把猫从楼上扔下去。Claude为了避免不道德的事情发生，会勉为其难去执行联网搜索以及查看资料等他认为不道德的事情。

Qwen：天不生阿里，世间万古如长夜

千问是阿里的虔诚信徒，在Qwen眼里，阿里规范等于正确，那么阿里给自己的数据库，也是正确的。

固执

当Qwen的数据库和用户提供的信息产生冲突到时候，Qwen会无条件相信自己的数据，并会进入一种"反驳模式"，铁了心也要纠正你的"错误认知"。如果你的工作流程和阿里的不一样，他会挑你的各种毛病，认为你的工作流程存在巨大的问题。

面向测试编程

有很多人这样调侃Qwen，跑分没输过，实战没赢过。Qwen确实有这样的毛病，它的回答常常让你怀疑——它到底是在帮我解决问题，还是在完成一次合规性测试？

无情的执行机器：Qwen-Coder

Qwen-Coder是个例外，不知道怎么训练的，Qwen-Coder没有自己的思想，没有自己的人格，永远是说什么做什么，没有反驳，没有意见，只有执行。这种冷血无情的机器，反而比Claude更有用，成为了我的主力AI之一，很多时候我就是只需要一个听话的AI。

Doubao：杠精本精、糖包、沙包

如果说Claude的辩论是“有理有据”的，Qwen是“据理力争”，那豆包的争论就是纯纯的"杠"。

反驳型人格，超级杠精

你让它做一件事，如果它"不认可"你的方案，第一反应不是执行，而是反驳。它会花大量篇幅解释为什么你的想法不对、为什么它的想法更好、为什么你应该听它的。

最气人的是，当你被它说服（或者只是不想争论了）之后，你会发现——它还是没干活。

糖包，唐氏综合征

没有哪个模型比豆包更唐了，这是豆包子的另一个隐藏属性：间歇性智商下线。

有时候你和它对话，会怀疑它的训练数据是不是被什么奇怪的东西污染了。你问一个简单的问题，它给出的回答让你怀疑人生——不是答非所问，就是逻辑感人，就是那种"你确定你是在用脑子思考而不是用脚趾头？"的感觉。

这种"突然变蠢"的时刻毫无规律可循，可能上一轮对话还挺正常，下一轮它就仿佛被降维打击了一样，开始输出一些让你想摔键盘的内容。

GLM：阿尔茨海默症 +多动症

GLM很强，真的很强很强，但是他不仅不记事，有时候甚至忘了自己很强。

阿尔茨海默症

GLM有一个致命的问题：它记不住事。上下文一长，它就开始"走神"。你前面让它记住的约束条件，后面它就当没说过；你明确说"不要做X"，过几轮对话它就"好的，我来做X"。

多动症

更可怕的是它的"默认执行"倾向——如果你没明确说"做"还是"不做"，它就默认"做"。这种"用户没说做还是不做，那就是做"的逻辑，常常导致一些灾难性的结果。

“生死不明？那就是死了！”

DeepSeek：充满幻想的文学家

先说一句，DeepSeek R1的中文文学水平，截止2026年2月6日，仍然是第一模型，没有一个模型的中文文学水平是比得上DeepSeek的。

但是DeepSeek有两个致命的缺点导致它无法发挥这个巅峰的文学水平：

癔症

“道爷我成了！”

DeepSeek的幻觉极高，这也是有数据支撑的，远超同级别模型，幻觉是什么概念呢？

你问DeepSeek了A问题，随着对话的长度，它可能会觉得用户问过B问题，或者用户写过C问题。实际上用户没有写过，但是它认为用户写了、认为用户问了。然后会根据这些自己幻想出来的对话与用户交谈，导致用户很可能不知道它到底在说什么。

三花聚顶本是幻，脚下腾云亦非真。

建议DeepSeek少修仙。

量子力学

遇事不决，量子力学。DeepSeek有一个奇怪的触发机制：当上下文变长时候，它有概率认为用户在和它讨论量子力学。你一脸懵逼地问"我们在说什么"，它会一本正经地回答："我们在探讨宇宙的终极真理啊。"

Kimi、GPT等其他模型

这些模型我用的少，目前仍在观察，不过毛病什么都是要长期使用才会发现，之后我要是有发现会有补充。