谷歌400亿砸Anthropic：Claude和GPT到底谁更强？我用同一个项目测了一遍

昨天（4月25日），谷歌宣布向Anthropic投资最高400亿美元。先砸100亿现金，后续300亿看业绩对赌。

Anthropic估值3500亿美元。亚马逊刚投了250亿，谷歌又跟进了400亿。

两条消息叠加在一起，说明一个事实：Claude背后的Anthropic，已经不是OpenAI的小弟了，估值甚至超过了OpenAI的8520亿——不对，是私募二级市场突破1万亿。

但作为每天写代码的人，我不想聊估值。

我想聊一个更实际的问题：谷歌这400亿砸进去之后，Claude写代码到底比GPT强在哪？值不值得你从GPT切换过来？

我用同一个企微小程序项目，分别用Claude Opus 4.7和GPT-5.5跑了一遍。结果有点出乎意料。

测试条件

同一个项目：一个企微小程序，包含用户登录、消息推送、回调配置三个模块。

同一套prompt，分为简单（“写一个登录页面”）、中等（“实现企微消息回调接口”）、复杂（“完成用户鉴权+消息加解密+回调签名验证全流程”）三个难度。

Claude用Opus 4.7（Anthropic最强模型），GPT用5.5（OpenAI刚发布的旗舰）。

简单任务：打平

写一个登录页面，两个模型都一次通过。

GPT-5.5给出的代码更"工程化"——有类型定义、有错误处理、有注释。复制粘贴就能跑。

Claude Opus 4.7的代码更"简洁"——没多余的东西，但该有的都有。

简单任务不用纠结，两个都够用。

中等任务：开始分化

“实现企微消息回调接口”——这个任务需要理解企微的回调机制、URL验证逻辑、消息解密流程。

GPT-5.5第一次给了个能跑的版本，但回调签名验证那段有bug。验签用的是SHA1，但企微现在要求SHA256。我提了一句，GPT-5.5改对了。

Claude Opus 4.7第一次就给了SHA256的版本，而且自动带了企微最新文档的变更说明。我查了一下，确实是上个月更新的。

这个差距不算大。但如果你不了解企微回调的坑，Claude直接帮你避开了。

复杂任务：差距拉开

“完成用户鉴权+消息加解密+回调签名验证全流程”。

GPT-5.5：

第一次尝试：代码结构清晰，但加解密那段混用了AES-256-CBC和企微要求的AES-256-CBC+PKCS7Padding。跑起来报错。
第二次尝试：修复了加密问题，但回调URL验证的逻辑有误——把GET和POST的处理搞混了。
第三次尝试：终于跑通。但前后花了大概15分钟。

Claude Opus 4.7：

第一次尝试：直接跑通。代码120行，AES加解密、签名验证、URL校验全部正确。
唯一的问题：没加单元测试。

15分钟 vs 2分钟。

15分钟对2分钟。赶过deadline的人知道这13分钟意味着什么。

基准测试数据也验证了这个结论

我自己的测试可能有偏差。但公开数据也指向同一个方向：

测试项	GPT-5.5	Claude Opus 4.7	领先方
Terminal-Bench 2.0（全链路Agent工程）	82.7%	69.4%	GPT-5.5，领先13%
SWE-Bench Pro（真实GitHub问题修复）	58.6%	64.3%	Claude Opus 4.7，领先6%
Expert-SWE（20小时级复杂任务）	73.1%	未公布	GPT-5.5

有意思吧。

GPT-5.5在"自主规划+调工具+处理报错"的全链路Agent任务上碾压Claude。

但在"读懂一大坨代码然后精准定位bug"这件事上，Claude还是更强。

这也解释了为什么我的测试里Claude在复杂代码任务上表现更好——企微回调那个任务更接近SWE-Bench的评测逻辑（读现有代码+精准修改），而不是Terminal-Bench的自主Agent逻辑。

谷歌这400亿砸进去，Claude最大的变化是算力。

Anthropic跟谷歌签的协议里有一条：谷歌支持Anthropic"显著扩展计算能力"。Anthropic训练和运行Claude用的就是谷歌的TPU集群。算力上来，Claude的响应速度会改善，长任务不容易超时。

1. Claude的上下文窗口会更大

现在Opus 4.7已经支持200K到1M tokens。更多算力意味着可能直接支持整个中型项目的代码库。不需要手动切分上下文了。

2. API定价可能下降

Anthropic现在不缺钱了。亚马逊250亿+谷歌400亿。当一家公司账上躺着几百亿现金的时候，打价格战是迟早的事。Claude的API价格目前比GPT贵2-4倍，这个差距大概率会缩小。

3. Claude Code会更强

Claude Code是Anthropic的AI编程Agent工具，底层就是Claude模型。算力上来之后，Claude Code的长任务处理能力（比如重构一个5000行的项目）会明显改善。

什么时候用Claude，什么时候用GPT？

实测+基准数据，总结一下：

场景	推荐	理由
日常问答、快速写个函数	GPT-5.5	速度快，成本1/4
读大段代码找bug	Claude Opus 4.7	精准度高，幻觉少
重构大型项目	Claude Opus 4.7	上下文窗口大，SWE-bench领先
自动化Agent全链路任务	GPT-5.5	Terminal-Bench碾压
代码审查	Claude Opus 4.7	理解力更强
赶时间出原型	GPT-5.5	第一次尝试的通过率高

不是谁碾压谁。是不同场景用不同的。

最后说一句：Claude API目前比GPT贵2-4倍。但现在不缺钱了——亚马逊250亿+谷歌400亿。价格战迟早会来。等降价了再试也行。

你现在的主力编程模型是哪个？有没有试过在复杂任务上切Claude？

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/yp0to1/article/details/160561644

谷歌400亿砸Anthropic：Claude和GPT到底谁更强？我用同一个项目测了一遍