谷歌400亿砸Anthropic:Claude和GPT到底谁更强?我用同一个项目测了一遍
昨天(4月25日),谷歌宣布向Anthropic投资最高400亿美元。先砸100亿现金,后续300亿看业绩对赌。
Anthropic估值3500亿美元。亚马逊刚投了250亿,谷歌又跟进了400亿。
两条消息叠加在一起,说明一个事实:Claude背后的Anthropic,已经不是OpenAI的小弟了,估值甚至超过了OpenAI的8520亿——不对,是私募二级市场突破1万亿。
但作为每天写代码的人,我不想聊估值。
我想聊一个更实际的问题:谷歌这400亿砸进去之后,Claude写代码到底比GPT强在哪?值不值得你从GPT切换过来?
我用同一个企微小程序项目,分别用Claude Opus 4.7和GPT-5.5跑了一遍。结果有点出乎意料。
测试条件
同一个项目:一个企微小程序,包含用户登录、消息推送、回调配置三个模块。
同一套prompt,分为简单(“写一个登录页面”)、中等(“实现企微消息回调接口”)、复杂(“完成用户鉴权+消息加解密+回调签名验证全流程”)三个难度。
Claude用Opus 4.7(Anthropic最强模型),GPT用5.5(OpenAI刚发布的旗舰)。
简单任务:打平
写一个登录页面,两个模型都一次通过。
GPT-5.5给出的代码更"工程化"——有类型定义、有错误处理、有注释。复制粘贴就能跑。
Claude Opus 4.7的代码更"简洁"——没多余的东西,但该有的都有。
简单任务不用纠结,两个都够用。
中等任务:开始分化
“实现企微消息回调接口”——这个任务需要理解企微的回调机制、URL验证逻辑、消息解密流程。
GPT-5.5第一次给了个能跑的版本,但回调签名验证那段有bug。验签用的是SHA1,但企微现在要求SHA256。我提了一句,GPT-5.5改对了。
Claude Opus 4.7第一次就给了SHA256的版本,而且自动带了企微最新文档的变更说明。我查了一下,确实是上个月更新的。
这个差距不算大。但如果你不了解企微回调的坑,Claude直接帮你避开了。
复杂任务:差距拉开
“完成用户鉴权+消息加解密+回调签名验证全流程”。
GPT-5.5:
- 第一次尝试:代码结构清晰,但加解密那段混用了AES-256-CBC和企微要求的AES-256-CBC+PKCS7Padding。跑起来报错。
- 第二次尝试:修复了加密问题,但回调URL验证的逻辑有误——把GET和POST的处理搞混了。
- 第三次尝试:终于跑通。但前后花了大概15分钟。
Claude Opus 4.7:
- 第一次尝试:直接跑通。代码120行,AES加解密、签名验证、URL校验全部正确。
- 唯一的问题:没加单元测试。
15分钟 vs 2分钟。
15分钟对2分钟。赶过deadline的人知道这13分钟意味着什么。
基准测试数据也验证了这个结论
我自己的测试可能有偏差。但公开数据也指向同一个方向:
| 测试项 | GPT-5.5 | Claude Opus 4.7 | 领先方 |
|---|---|---|---|
| Terminal-Bench 2.0(全链路Agent工程) | 82.7% | 69.4% | GPT-5.5,领先13% |
| SWE-Bench Pro(真实GitHub问题修复) | 58.6% | 64.3% | Claude Opus 4.7,领先6% |
| Expert-SWE(20小时级复杂任务) | 73.1% | 未公布 | GPT-5.5 |
有意思吧。
GPT-5.5在"自主规划+调工具+处理报错"的全链路Agent任务上碾压Claude。
但在"读懂一大坨代码然后精准定位bug"这件事上,Claude还是更强。
这也解释了为什么我的测试里Claude在复杂代码任务上表现更好——企微回调那个任务更接近SWE-Bench的评测逻辑(读现有代码+精准修改),而不是Terminal-Bench的自主Agent逻辑。
谷歌这400亿砸进去,Claude最大的变化是算力。
Anthropic跟谷歌签的协议里有一条:谷歌支持Anthropic"显著扩展计算能力"。Anthropic训练和运行Claude用的就是谷歌的TPU集群。算力上来,Claude的响应速度会改善,长任务不容易超时。
1. Claude的上下文窗口会更大
现在Opus 4.7已经支持200K到1M tokens。更多算力意味着可能直接支持整个中型项目的代码库。不需要手动切分上下文了。
2. API定价可能下降
Anthropic现在不缺钱了。亚马逊250亿+谷歌400亿。当一家公司账上躺着几百亿现金的时候,打价格战是迟早的事。Claude的API价格目前比GPT贵2-4倍,这个差距大概率会缩小。
3. Claude Code会更强
Claude Code是Anthropic的AI编程Agent工具,底层就是Claude模型。算力上来之后,Claude Code的长任务处理能力(比如重构一个5000行的项目)会明显改善。
什么时候用Claude,什么时候用GPT?
实测+基准数据,总结一下:
| 场景 | 推荐 | 理由 |
|---|---|---|
| 日常问答、快速写个函数 | GPT-5.5 | 速度快,成本1/4 |
| 读大段代码找bug | Claude Opus 4.7 | 精准度高,幻觉少 |
| 重构大型项目 | Claude Opus 4.7 | 上下文窗口大,SWE-bench领先 |
| 自动化Agent全链路任务 | GPT-5.5 | Terminal-Bench碾压 |
| 代码审查 | Claude Opus 4.7 | 理解力更强 |
| 赶时间出原型 | GPT-5.5 | 第一次尝试的通过率高 |
不是谁碾压谁。是不同场景用不同的。
最后说一句:Claude API目前比GPT贵2-4倍。但现在不缺钱了——亚马逊250亿+谷歌400亿。价格战迟早会来。等降价了再试也行。
你现在的主力编程模型是哪个?有没有试过在复杂任务上切Claude?
转载自CSDN-专业IT技术社区



