技术博客
胜算云
胜算云
    • LLM API全面指南:原理、成本与高效使用策略
    • 380ms吊打2.5秒!中国开发者专属Claude加速通道,成本暴降80%
    • AI 成本砍一半,多模型一键切换——胜算云如何为您智能调度与降本增效
    • Prompt Engineering:如何优雅地提问?
    • 揭秘胜算云的“智能大脑”:我们如何实现多云 Spot GPU 算力与大模型 API 的无缝调度?
    • 告别厂商锁定:用胜算云网关实现多模型A/B测试与无缝切换
    • 胜算云:为 Agent 提供稳定、高效、低成本的智能路由引擎
    • 主流编程模型评测
    • Messages Array跨LLM API适配全攻略

    主流编程模型评测

    作者:浪迹天涯

    去年11月,美国知名VC机构Menlo Ventures 发布了一份生成式AI发展现状的报告。报告指出,当前 AI 在企业中的五大高频应用场景包括代码生成、聊天机器人、搜索、数据转换和会议纪要,其中代码生成的占比远高于其他场景。
    image.png
    2025年,继月之暗面团队发布Kimi K2后,阿里通义大模型团队开源了Qwen3-Coder,刷新了AI编程SOTA。7月28日,智谱AI推出新一代旗舰大模型GLM-4.5,成为首款具备SOTA水平的原生智能体大模型,在代码生成能力上shixianle由此可见,vibe coding 正逐渐成为行业发展的一大趋势。
    因此,我们使用胜算云「AI群聊」平台,对主流的几款编程大模型进行了一次较为详细的评测。参与评测的模型有:Qwen3-Coder-Plus、Kimi K2、GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro和OpenAI o4-mini-high。

    任务一:生成一个打工人时钟的HTML页面#

    先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。
    o4.gif
    o4-mini-high
    Gemini.gif
    Gemini 2.5 Pro
    Claude.gif
    Claude Sonnet 4
    Kimi.gif
    Kimi K2
    Qwen3.gif
    Qwen3-Coder-Plus
    GLM.gif
    GLM-4.5
    结论: 在本任务中,除o4外,其他模型普遍在基础时钟功能之外增加了动态语录和日期显示。其中,Gemini以及几款国产大模型还加入了“下班倒计时”功能。从页面美观度来看,国产模型整体表现令人惊喜,界面设计简洁且富有质感。内容方面,Qwen和Gemini提供的语录更具趣味性和个性化。相比之下,Claude的结果则出现了一些逻辑上的瑕疵——在傍晚时间段竟然提示「夜深了,记得早点休息!」。

    任务二:生成一个带动画效果的天气预报卡#

    先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。
    o4.png
    o4-mini-high
    gemini.gif
    Gemini 2.5 Pro
    Claude.gif
    Claude Sonnet 4
    kimi.gif
    Kimi K2
    Qwen.gif
    Qwen3-Coder-Plus
    GLM.gif
    GLM-4.5
    结论: 在生成带动画效果的天气预报卡任务中,除o4和Kimi外,其余模型均实现了基本的动态交互功能。值得一提的是,Kimi虽在设计思路中考虑了交互性,但最终生成的代码并未实现真正的动态效果。
    在扩展内容方面,Claude、Qwen和GLM表现优异,除基本的天气显示外,还补充了动态天气图标、湿度、风速和能见度等信息。不过,这几款模型也存在各自的小问题:GLM的「多云」图标无法正常显示,Claude的「晴天」图标图层位置略有错乱。相比之下,Qwen和Gemini在天气图标的呈现上更为稳定,视觉体验也更佳。
    从美观度角度来看,Qwen和GLM的天气卡片在视觉层次上更清晰,背景与卡片之间的区分度较高,图层排列也更为合理。而在整体排版与样式处理上,Claude和Kimi的表现优于o4和Gemini,视觉协调性更好。

    任务三:为餐厅设计主页#

    先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。
    image.png
    o4-mini-high
    image.png
    Gemini 2.5 Pro
    image.png
    Claude Sonnet 4
    image.png
    Kimi K2
    image.png
    Qwen3-Coder-Plus
    image.png
    GLM-4.5
    结论: 在本任务中,所有模型生成的代码基本都较好地满足了需求,整体完成度较高。其中,Kimi和Qwen在页面结构设计上为菜品图片预留了展示空间。除Kimi之外,其他模型普遍对菜单内容进行了分类。
    从功能分区和设计完整性来看,Gemini的表现更好,页面结构清晰、逻辑合理,整体完成度较高,兼顾了实用性与美观性。

    任务四:贪吃蛇游戏#

    先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。
    o4.gif
    o4-mini-high
    Gemini.gif
    Gemini 2.5 Pro
    Claude.gif
    Claude Sonnet 4
    Kimi.gif
    Kimi K2
    Qwen.gif
    Qwen3-Coder-Plus
    GLM.gif
    GLM-4.5
    结论: 在本任务中,除GLM外,其余模型均成功生成了可运行的简易贪吃蛇小游戏。GLM虽然提供了可运行的代码,但存在逻辑问题,游戏启动后陷入无限循环,无法正式开始。
    在功能性方面,Kimi和Claude表现较好,均添加了「暂停」功能。Kimi和Qwen引入了网格背景,o4、Claude和Qwen对蛇的头部和尾部进行了明确区分。在游戏机制方面,Qwen实现的是无边界的“无尽模式”,蛇可以从一边穿越到另一边,增加了玩法的延展性。而其他模型则采用传统的边界限制,一旦触碰边缘即结束游戏,逻辑更为严谨。

    任务五:人机对战五子棋游戏#

    先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。
    o4.gif
    o4-mini-high
    gemini.gif
    Gemini 2.5 Pro
    Claude.gif
    Claude Sonnet 4
    kimi.gif
    Kimi K2
    Qwen.gif
    Qwen3-Coder-Plus
    GLM.gif
    GLM-4.5
    结论: 在本任务中,所有模型均成功生成了一个基本可运行的人机对战五子棋游戏。不过,从实际体验来看,AI下棋策略普遍较为简单,缺乏应对能力,整体表现显得有些呆。
    细节功能方面,o4和Gemini加入了「执棋方」提示,Claude、Kimi和Gemini均在游戏结束时弹出提示框。在扩展功能上,Qwen增加了悔棋选项,GLM则添加了「游戏帮助」功能,有助于新手快速上手。

    任务六:超级玛丽游戏#

    先看结果,以下分别是o4-mini-high、Gemini 2.5 Pro、Claude Sonnet 4、Kimi K2、Qwen3-Coder-Plus、GLM-4.5的回答。
    o4.gif
    o4-mini-high
    gemini.gif
    Gemini 2.5 Pro
    Claude.gif
    Claude Sonnet 4
    Kimi.gif
    Kimi K2
    Qwen.gif
    Qwen3-Coder-Plus
    GLM.gif
    GLM-4.5
    结论: 本次任务中,所有模型均成功实现了超级玛丽游戏的基础功能,包括角色的简单移动和跳跃。除o4外,其他模型均增加了「怪兽」元素。Claude、Kimi、Qwen和GLM更进一步,加入了金币收集功能。从视觉表现来看,GLM的表现更出色,不仅具备基础的人物、怪兽和金币元素,还额外在场景中增加了云朵等细节。

    总结#

    本次评测基于胜算云「AI群聊」平台,对6款主流编程模型(Qwen3-Coder-Plus、Kimi K2、GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro、OpenAI o4-mini-high)在六项典型编程任务中的表现进行了对比,涵盖前端开发、游戏设计等领域。结论如下:
    代码生成能力整体提升,国产模型表现亮眼
    基础功能实现上,除GLM-4.5在贪吃蛇任务中出现逻辑问题外,其他模型均能生成完成度较高的代码。
    国产模型(Qwen、GLM、Kimi)在视觉设计(如天气卡片、餐厅主页)和用户体验(动态语录、倒计时)上显著优于国际模型
    游戏开发:功能达标,策略性待加强
    贪吃蛇、五子棋任务中,模型普遍实现基础玩法,但AI策略简单(如五子棋下棋逻辑呆板)。
    交互亮点:Kimi/Claude的暂停功能、Qwen的悔棋选项,在一定程度上提升了可玩性。
    选型建议
    全能型:Gemini 2.5 Pro、Qwen3-Coder-Plus。
    设计优先:Qwen3-Coder-Plus、GLM-4.5。
    游戏开发:Claude Sonnet 4、Kimi K2。
    ​
    修改于 2025-08-05 07:07:37
    上一页
    胜算云:为 Agent 提供稳定、高效、低成本的智能路由引擎
    下一页
    Messages Array跨LLM API适配全攻略
    Built with