主流编程模型评测

作者：浪迹天涯

去年11月，美国知名VC机构Menlo Ventures 发布了一份生成式AI发展现状的报告。报告指出，当前 AI 在企业中的五大高频应用场景包括代码生成、聊天机器人、搜索、数据转换和会议纪要，其中代码生成的占比远高于其他场景。

2025年，继月之暗面团队发布Kimi K2后，阿里通义大模型团队开源了Qwen3-Coder，刷新了AI编程SOTA。7月28日，智谱AI推出新一代旗舰大模型GLM-4.5，成为首款具备SOTA水平的原生智能体大模型，在代码生成能力上shixianle由此可见，vibe coding 正逐渐成为行业发展的一大趋势。

因此，我们使用胜算云「AI群聊」平台，对主流的几款编程大模型进行了一次较为详细的评测。参与评测的模型有：Qwen3-Coder-Plus、Kimi K2、GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro和OpenAI o4-mini-high。

任务一：生成一个打工人时钟的HTML页面

先看结果，以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论： 在本任务中，除o4外，其他模型普遍在基础时钟功能之外增加了动态语录和日期显示。其中，Gemini以及几款国产大模型还加入了“下班倒计时”功能。从页面美观度来看，国产模型整体表现令人惊喜，界面设计简洁且富有质感。内容方面，Qwen和Gemini提供的语录更具趣味性和个性化。相比之下，Claude的结果则出现了一些逻辑上的瑕疵——在傍晚时间段竟然提示「夜深了，记得早点休息！」。

任务二：生成一个带动画效果的天气预报卡

先看结果，以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论： 在生成带动画效果的天气预报卡任务中，除o4和Kimi外，其余模型均实现了基本的动态交互功能。值得一提的是，Kimi虽在设计思路中考虑了交互性，但最终生成的代码并未实现真正的动态效果。

在扩展内容方面，Claude、Qwen和GLM表现优异，除基本的天气显示外，还补充了动态天气图标、湿度、风速和能见度等信息。不过，这几款模型也存在各自的小问题：GLM的「多云」图标无法正常显示，Claude的「晴天」图标图层位置略有错乱。相比之下，Qwen和Gemini在天气图标的呈现上更为稳定，视觉体验也更佳。

从美观度角度来看，Qwen和GLM的天气卡片在视觉层次上更清晰，背景与卡片之间的区分度较高，图层排列也更为合理。而在整体排版与样式处理上，Claude和Kimi的表现优于o4和Gemini，视觉协调性更好。

任务三：为餐厅设计主页

先看结果，以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论： 在本任务中，所有模型生成的代码基本都较好地满足了需求，整体完成度较高。其中，Kimi和Qwen在页面结构设计上为菜品图片预留了展示空间。除Kimi之外，其他模型普遍对菜单内容进行了分类。

从功能分区和设计完整性来看，Gemini的表现更好，页面结构清晰、逻辑合理，整体完成度较高，兼顾了实用性与美观性。

任务四：贪吃蛇游戏

先看结果，以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论： 在本任务中，除GLM外，其余模型均成功生成了可运行的简易贪吃蛇小游戏。GLM虽然提供了可运行的代码，但存在逻辑问题，游戏启动后陷入无限循环，无法正式开始。

在功能性方面，Kimi和Claude表现较好，均添加了「暂停」功能。Kimi和Qwen引入了网格背景，o4、Claude和Qwen对蛇的头部和尾部进行了明确区分。在游戏机制方面，Qwen实现的是无边界的“无尽模式”，蛇可以从一边穿越到另一边，增加了玩法的延展性。而其他模型则采用传统的边界限制，一旦触碰边缘即结束游戏，逻辑更为严谨。

任务五：人机对战五子棋游戏

先看结果，以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论： 在本任务中，所有模型均成功生成了一个基本可运行的人机对战五子棋游戏。不过，从实际体验来看，AI下棋策略普遍较为简单，缺乏应对能力，整体表现显得有些呆。

细节功能方面，o4和Gemini加入了「执棋方」提示，Claude、Kimi和Gemini均在游戏结束时弹出提示框。在扩展功能上，Qwen增加了悔棋选项，GLM则添加了「游戏帮助」功能，有助于新手快速上手。

任务六：超级玛丽游戏

先看结果，以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。

o4-mini-high

Gemini 2.5 Pro

Claude Sonnet 4

Kimi K2

Qwen3-Coder-Plus

GLM-4.5

结论： 本次任务中，所有模型均成功实现了超级玛丽游戏的基础功能，包括角色的简单移动和跳跃。除o4外，其他模型均增加了「怪兽」元素。Claude、Kimi、Qwen和GLM更进一步，加入了金币收集功能。从视觉表现来看，GLM的表现更出色，不仅具备基础的人物、怪兽和金币元素，还额外在场景中增加了云朵等细节。

总结

本次评测基于胜算云「AI群聊」平台，对6款主流编程模型（Qwen3-Coder-Plus、Kimi K2、GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro、OpenAI o4-mini-high）在六项典型编程任务中的表现进行了对比，涵盖前端开发、游戏设计等领域。结论如下：

代码生成能力整体提升，国产模型表现亮眼

基础功能实现上，除GLM-4.5在贪吃蛇任务中出现逻辑问题外，其他模型均能生成完成度较高的代码。

国产模型（Qwen、GLM、Kimi）在视觉设计（如天气卡片、餐厅主页）和用户体验（动态语录、倒计时）上显著优于国际模型

游戏开发：功能达标，策略性待加强

贪吃蛇、五子棋任务中，模型普遍实现基础玩法，但AI策略简单（如五子棋下棋逻辑呆板）。

交互亮点：Kimi/Claude的暂停功能、Qwen的悔棋选项，在一定程度上提升了可玩性。

选型建议

全能型：Gemini 2.5 Pro、Qwen3-Coder-Plus。

设计优先：Qwen3-Coder-Plus、GLM-4.5。

游戏开发：Claude Sonnet 4、Kimi K2。

主流编程模型评测

任务一：生成一个打工人时钟的HTML页面#

任务二：生成一个带动画效果的天气预报卡#

任务三：为餐厅设计主页#

任务四：贪吃蛇游戏#

任务五：人机对战五子棋游戏#

任务六：超级玛丽游戏#

总结#

任务一：生成一个打工人时钟的HTML页面

任务二：生成一个带动画效果的天气预报卡

任务三：为餐厅设计主页

任务四：贪吃蛇游戏

任务五：人机对战五子棋游戏

任务六：超级玛丽游戏

总结