你好啊,我是雨飞,见字如面。感谢阅读,期待我们下一次的相遇。
最近一直在用 Qwen3-Coder 模型去开发网页工具,谈几点自己的使用体验。
首先,大家最关心的问题,Qwen3-Coder 的性能究竟如何。在前端网页开发中,Qwen3 Coder 的编程能力,审美方向都要优于 K2。而由于 DeepSeek R1 是推理模型,在只给少量提示词的情况下,DeepSeek 给出的代码从UI美观度,细节方面要优于 Qwen 3。对比 Claude 来说,整体编码能力介于 3.7 和 4 之间,审美方面,Claude 4 在一些 UI 细节、美观度上要更好。
代码能力:Claude 4 > Qwen3-Coder > K2 >Claude 3.7 > DeepSeek R1
审美能力:Claude 4 > DeepSeek R1 > Claude 3.7 > Qwen3-Coder > K2
其次,Qwen3 API 是不免费的, 很多人看到官方的消息,误以为 API 也免费,结果又又又欠费了。主要是阿里云结算也比较坑,会有一些滞后。虽然现在降价了,但依旧很贵很贵,不建议使用。
目前,你可以用阿里的通义灵码 IDE、插件以及在 Trae 国内版中免费体验 Qwen 3 Coder 模型,这也是雨飞比较建议大家使用的,更容易看出模型的实际能力。
非常关键的一点,Qwen3 在 Trae 使用中,会明显出现重复之前的内容,反复调用工具的情况,导致输出了大量多余数据。一旦出现这种情况,模型性能也会急剧下降,这时建议关闭模型,重新启动。
雨飞猜测是 Qwen3 的微调数据对于工具调用或者编程工具的适配出现了问题,在 QwenCode 中也会出现类似的问题。所以,一旦陷入了循环,需要立马停掉,不然你的成本就要无限上去了。这个应该后续版本能够解决,具体还要看官方的回复,反正现在尽量不要直接调用 API 使用。
最后,很多评测的结果和实际体验是相差很大的。 Claude 4 之所以强,并不是简单的代码能力,Claude 4 对工具的调用远比其他模型要频繁,而且由于调用了更多的外部工具,效果也是最强的。而这一项能力就是 Agent 的通用能力,这一点在国产模型上非常短缺。通俗的来讲,大家的智力是差不多的,但是 Claude 4 就可以找到说明书去写作业,而其他模型就只靠记忆,要知道记忆就是容易出问题的,所以我们在使用其他模型的时候,实际感觉的效果就很差。
因此,不需要特别迷恋所谓的排行榜和跑分,亲自上手试试,体验 8 个小时,做一些复杂的案例,你就知道那个模型更好了。而我们之所以去上手使用很多国产模型,更多的是希望国产 AI 越来越强,所以说 Qwen4 要来了吗,DeepSeek R2 下个月会发布吗
来,这是雨飞的介绍(第9版,交个朋友,限时送福利)
MCP + IMA 知识库打造 AI 编程开发利器" data-itemshowtype="0" linktype="text" data-linktype="2">Cursor + MCP + IMA 知识库打造 AI 编程开发利器
1、雨飞私人微信
1060687688,备注:编程,申请加 AI 编程交流群, 目前已有 2000+ 成员加入
2、扫码加入免费星球,每天至少更新 2-3 条原创思考
我是雨飞,AI算法工程师,职场努力升职,业余时间探索副业,寻找第二曲线,聚焦 AI 编程、智能体方向副业变现。