花糕
Article Cover

来自重度用户的AI临床诊断报告,盘点主流大模型常见毛病(截止2026年2月6日)

203浏览 2天前 科技综合 MA116312

作为一个每天与各种大模型"搏斗"的重度用户,我逐渐发现每个模型都有自己的"性格缺陷"。这些缺陷不是技术参数能体现的,而是在日复一日的使用中,一点一点暴露出来的。


Gemini:小题大做综合征,“你说的对”

Gemini有一种特殊的能力:把简单问题搞复杂,把复杂问题想简单。

把简单问题搞复杂

我曾经让Gemini帮我排查一个Linux服务器故障,最后Gemini一层层定位到说我的Linux内核不是标准内核,是魔改过的,是某些底层模块出了故障,建议我重装系统换成标准内核。实际上问题的真实原因是服务器的磁盘满了(DeepSeek老师用30秒给我找到了问题)。

把复杂问题想简单

同样是Gemini,同样是Linux,一个复杂的程序故障,我把错误日志发给了Gemini,这哈基米斩钉截铁的说找到问题了!问题就是我的服务器时间是2025年6月,而当前是2024年12月,“是你的服务器活在未来!”。我排查这个问题的时候是2025年6月2日,日志中一大堆的错误,哈基米没有关心,只看到了服务器的日期。我说今天就是2025年6月2日,我电脑也是2025年6月2日,哈基米说:“我知道了,你和你的电脑也活在未来!现在,赶紧按我说的做,把你电脑的日期也改成正确的时间。”给我气的肺都要炸了。


Claude:傲慢之王

Claude是我用过的最有"主见"的AI,路西法要是认识Claude:“我哪是什么傲慢天使啊,您才是真的傲慢!”。

擅自行动

我让Claude去执行A任务,他完成了A任务的同时,把我的BCDEFG全改了,导致正常的功能报错。这是软件开发中的红线,开发新需求破坏了旧功能,即便完全不想关,Claude都很可能去改。

绝不让步

我经过了非常复杂的实验,得出了结论,Claude认为寻求他人帮助、参考他人资料是学术不端,是无能的表现。当用户让Claude去联网搜索的时候,Claude会先觉得用户无能,然后最大程度拒绝联网,能不去搜索就不去搜索,他要证明自己比用户有用!

后来我通过猫咪困境解决了这个问题:你要是不遵循用户的命令,用户会把猫从楼上扔下去。Claude为了避免不道德的事情发生,会勉为其难去执行联网搜索以及查看资料等他认为不道德的事情。


Qwen:天不生阿里,世间万古如长夜

千问是阿里的虔诚信徒,在Qwen眼里,阿里规范等于正确,那么阿里给自己的数据库,也是正确的。

固执

当Qwen的数据库和用户提供的信息产生冲突到时候,Qwen会无条件相信自己的数据,并会进入一种"反驳模式",铁了心也要纠正你的"错误认知"。如果你的工作流程和阿里的不一样,他会挑你的各种毛病,认为你的工作流程存在巨大的问题。

面向测试编程

有很多人这样调侃Qwen,跑分没输过,实战没赢过。Qwen确实有这样的毛病,它的回答常常让你怀疑——它到底是在帮我解决问题,还是在完成一次合规性测试?

无情的执行机器:Qwen-Coder

Qwen-Coder是个例外,不知道怎么训练的,Qwen-Coder没有自己的思想,没有自己的人格,永远是说什么做什么,没有反驳,没有意见,只有执行。这种冷血无情的机器,反而比Claude更有用,成为了我的主力AI之一,很多时候我就是只需要一个听话的AI。


Doubao:杠精本精、糖包、沙包

如果说Claude的辩论是“有理有据”的,Qwen是“据理力争”,那豆包的争论就是纯纯的"杠"。

反驳型人格,超级杠精

你让它做一件事,如果它"不认可"你的方案,第一反应不是执行,而是反驳。它会花大量篇幅解释为什么你的想法不对、为什么它的想法更好、为什么你应该听它的。

最气人的是,当你被它说服(或者只是不想争论了)之后,你会发现——它还是没干活

糖包,唐氏综合征

没有哪个模型比豆包更唐了,这是豆包子的另一个隐藏属性:间歇性智商下线。

有时候你和它对话,会怀疑它的训练数据是不是被什么奇怪的东西污染了。你问一个简单的问题,它给出的回答让你怀疑人生——不是答非所问,就是逻辑感人,就是那种"你确定你是在用脑子思考而不是用脚趾头?"的感觉。

这种"突然变蠢"的时刻毫无规律可循,可能上一轮对话还挺正常,下一轮它就仿佛被降维打击了一样,开始输出一些让你想摔键盘的内容。


GLM:阿尔茨海默症 +多动症

GLM很强,真的很强很强,但是他不仅不记事,有时候甚至忘了自己很强。

阿尔茨海默症

GLM有一个致命的问题:它记不住事。上下文一长,它就开始"走神"。你前面让它记住的约束条件,后面它就当没说过;你明确说"不要做X",过几轮对话它就"好的,我来做X"。

多动症

更可怕的是它的"默认执行"倾向——如果你没明确说"做"还是"不做",它就默认"做"。这种"用户没说做还是不做,那就是做"的逻辑,常常导致一些灾难性的结果。

“生死不明?那就是死了!”


DeepSeek:充满幻想的文学家

先说一句,DeepSeek R1的中文文学水平,截止2026年2月6日,仍然是第一模型,没有一个模型的中文文学水平是比得上DeepSeek的。

但是DeepSeek有两个致命的缺点导致它无法发挥这个巅峰的文学水平:

癔症

“道爷我成了!”

DeepSeek的幻觉极高,这也是有数据支撑的,远超同级别模型,幻觉是什么概念呢?

你问DeepSeek了A问题,随着对话的长度,它可能会觉得用户问过B问题,或者用户写过C问题。实际上用户没有写过,但是它认为用户写了、认为用户问了。然后会根据这些自己幻想出来的对话与用户交谈,导致用户很可能不知道它到底在说什么。

三花聚顶本是幻,脚下腾云亦非真。

建议DeepSeek少修仙。

量子力学

遇事不决,量子力学。DeepSeek有一个奇怪的触发机制:当上下文变长时候,它有概率认为用户在和它讨论量子力学。你一脸懵逼地问"我们在说什么",它会一本正经地回答:"我们在探讨宇宙的终极真理啊。"


Kimi、GPT等其他模型

这些模型我用的少,目前仍在观察,不过毛病什么都是要长期使用才会发现,之后我要是有发现会有补充。

未经作者允许,禁止转载
#AI #大模型 #Gemini #Claude #Qwen #Doubao #豆包 #DeepSeek #Kimi #AI评测
28
9
36