关注

谷歌400亿砸Anthropic:Claude和GPT到底谁更强?我用同一个项目测了一遍

谷歌400亿砸Anthropic:Claude和GPT到底谁更强?我用同一个项目测了一遍

昨天(4月25日),谷歌宣布向Anthropic投资最高400亿美元。先砸100亿现金,后续300亿看业绩对赌。

Anthropic估值3500亿美元。亚马逊刚投了250亿,谷歌又跟进了400亿。

两条消息叠加在一起,说明一个事实:Claude背后的Anthropic,已经不是OpenAI的小弟了,估值甚至超过了OpenAI的8520亿——不对,是私募二级市场突破1万亿。

但作为每天写代码的人,我不想聊估值。

我想聊一个更实际的问题:谷歌这400亿砸进去之后,Claude写代码到底比GPT强在哪?值不值得你从GPT切换过来?

我用同一个企微小程序项目,分别用Claude Opus 4.7和GPT-5.5跑了一遍。结果有点出乎意料。

测试条件

同一个项目:一个企微小程序,包含用户登录、消息推送、回调配置三个模块。

同一套prompt,分为简单(“写一个登录页面”)、中等(“实现企微消息回调接口”)、复杂(“完成用户鉴权+消息加解密+回调签名验证全流程”)三个难度。

Claude用Opus 4.7(Anthropic最强模型),GPT用5.5(OpenAI刚发布的旗舰)。

简单任务:打平

写一个登录页面,两个模型都一次通过。

GPT-5.5给出的代码更"工程化"——有类型定义、有错误处理、有注释。复制粘贴就能跑。

Claude Opus 4.7的代码更"简洁"——没多余的东西,但该有的都有。

简单任务不用纠结,两个都够用。

中等任务:开始分化

“实现企微消息回调接口”——这个任务需要理解企微的回调机制、URL验证逻辑、消息解密流程。

GPT-5.5第一次给了个能跑的版本,但回调签名验证那段有bug。验签用的是SHA1,但企微现在要求SHA256。我提了一句,GPT-5.5改对了。

Claude Opus 4.7第一次就给了SHA256的版本,而且自动带了企微最新文档的变更说明。我查了一下,确实是上个月更新的。

这个差距不算大。但如果你不了解企微回调的坑,Claude直接帮你避开了。

复杂任务:差距拉开

“完成用户鉴权+消息加解密+回调签名验证全流程”。

GPT-5.5:

  • 第一次尝试:代码结构清晰,但加解密那段混用了AES-256-CBC和企微要求的AES-256-CBC+PKCS7Padding。跑起来报错。
  • 第二次尝试:修复了加密问题,但回调URL验证的逻辑有误——把GET和POST的处理搞混了。
  • 第三次尝试:终于跑通。但前后花了大概15分钟。

Claude Opus 4.7:

  • 第一次尝试:直接跑通。代码120行,AES加解密、签名验证、URL校验全部正确。
  • 唯一的问题:没加单元测试。

15分钟 vs 2分钟。

15分钟对2分钟。赶过deadline的人知道这13分钟意味着什么。

基准测试数据也验证了这个结论

我自己的测试可能有偏差。但公开数据也指向同一个方向:

测试项GPT-5.5Claude Opus 4.7领先方
Terminal-Bench 2.0(全链路Agent工程)82.7%69.4%GPT-5.5,领先13%
SWE-Bench Pro(真实GitHub问题修复)58.6%64.3%Claude Opus 4.7,领先6%
Expert-SWE(20小时级复杂任务)73.1%未公布GPT-5.5

有意思吧。

GPT-5.5在"自主规划+调工具+处理报错"的全链路Agent任务上碾压Claude。

但在"读懂一大坨代码然后精准定位bug"这件事上,Claude还是更强。

这也解释了为什么我的测试里Claude在复杂代码任务上表现更好——企微回调那个任务更接近SWE-Bench的评测逻辑(读现有代码+精准修改),而不是Terminal-Bench的自主Agent逻辑。

谷歌这400亿砸进去,Claude最大的变化是算力。

Anthropic跟谷歌签的协议里有一条:谷歌支持Anthropic"显著扩展计算能力"。Anthropic训练和运行Claude用的就是谷歌的TPU集群。算力上来,Claude的响应速度会改善,长任务不容易超时。

1. Claude的上下文窗口会更大

现在Opus 4.7已经支持200K到1M tokens。更多算力意味着可能直接支持整个中型项目的代码库。不需要手动切分上下文了。

2. API定价可能下降

Anthropic现在不缺钱了。亚马逊250亿+谷歌400亿。当一家公司账上躺着几百亿现金的时候,打价格战是迟早的事。Claude的API价格目前比GPT贵2-4倍,这个差距大概率会缩小。

3. Claude Code会更强

Claude Code是Anthropic的AI编程Agent工具,底层就是Claude模型。算力上来之后,Claude Code的长任务处理能力(比如重构一个5000行的项目)会明显改善。

什么时候用Claude,什么时候用GPT?

实测+基准数据,总结一下:

场景推荐理由
日常问答、快速写个函数GPT-5.5速度快,成本1/4
读大段代码找bugClaude Opus 4.7精准度高,幻觉少
重构大型项目Claude Opus 4.7上下文窗口大,SWE-bench领先
自动化Agent全链路任务GPT-5.5Terminal-Bench碾压
代码审查Claude Opus 4.7理解力更强
赶时间出原型GPT-5.5第一次尝试的通过率高

不是谁碾压谁。是不同场景用不同的。


最后说一句:Claude API目前比GPT贵2-4倍。但现在不缺钱了——亚马逊250亿+谷歌400亿。价格战迟早会来。等降价了再试也行。

你现在的主力编程模型是哪个?有没有试过在复杂任务上切Claude?

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/yp0to1/article/details/160561644

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--