Claude Code 更新后“翻车”，思考深度骤降67%，“无法再信任其处理复杂工程任务”!

发布时间：2026-04-07 已有：位网友关注

　　Anthropic旗下AI编程工具Claude Code遭遇严重口碑危机。来自AMD的AI总监在GitHub官方仓库公开提交问题报告，基于对数万条会话日志的量化分析，指控Claude Code自今年2月起出现系统性能力退化，，模型行为全面走样。这一报告迅速在开发者社区引爆讨论，将Anthropic推上舆论风口。

　　提交这份分析报告的是AMD的AI团队负责人Stella Laurenzo。她在GitHub官方仓库直接开Issue，措辞严峻：Claude已无法被信任来执行复杂工程任务。她表示，团队已切换至其他服务商，并警告Anthropic：6个月前，Claude在推理质量和执行能力上独树一帜。但现在，其他竞争者需要被非常认真地关注和评估。

　　这一Issue在Hacker News上迅速发酵，获得975点支持和548条评论，成为近期Claude Code相关讨论中热度最高的帖子之一。网友评论直指问题核心——ClaudeCode曾经像一个聪明的结对编程伙伴，现在感觉像一个过于热情的实习生，不停地把事情搞砸，然后建议最简单的临时方案；最近总跟我说你该去睡觉了。太晚了，今天就到这吧这类话，一开始我还以为是我不小心让Claude知道了我的deadline。

　　Anthropic对此作出回应。Claude Code团队成员Boris出面澄清，称思考内容隐藏功能仅为界面层面的改动，不会影响模型内部实际的推理逻辑本身，也不会影响思考预算或底层推理运行机制。

　　他同时承认，团队在2月进行了两项实质性调整：一是2月9日随Opus 4.6发布引入自适应思考机制；二是3月3日将默认effort等级从高调整为中等。Boris建议用户通过/effort high指令或修改配置文件手动恢复高强度思考模式。

　　然而，这一解释并未平息社区质疑。多位开发者表示，即便将effort调至最高，急于完成任务的摆烂行为依然存在。用户richardjennings称：

　　在输出质量断崖式下跌之前，我完全不知道默认effort已经被改成了Medium。为了纠正这些问题，我大概花了一整天的工作时间。数据实锤：思考深度骤降，行为全面走样

　　数据揭示了一条清晰的退化时间线日的优质期，Claude Code的思考深度中位值约为2200字符；到2月下旬，这一数字暴跌至约720字符，降幅达67%；3月初进一步缩水至约560字符，降幅达75%。

　　思考深度的崩塌直接引发了工具使用模式的根本性转变。在优质期，Claude Code修改代码前的读改比高达6.6，遵循先研究再修改的严谨工作流。而到3月8日之后的退化期，这一比率骤降至2.0，研究投入减少约70%。更触目惊心的是，退化期内每三次代码修改中，就有一次是在未读取目标文件的情况下直接进行的——这直接导致代码被插入错误位置、注释语义关联被破坏等低级错误频发。

　　行为层面的量化指标同样触目惊心。用于捕捉推诿责任、提前终止、请求许可等不良行为的终止钩子脚本，在3月8日之前从未触发；而在此后17天内，触发次数飙升至173次，平均每天10次。用户提示词中的负面情绪占比从5.8%升至9.8%，涨幅68%；用户中断率从优质期到后期飙升了12倍。

　　redact-thinking-2026-02-12的功能部署时间线高度吻合。数据显示，该功能从3月5日开始灰度上线日起全量生效。

　　月初上线的隐藏功能，只是让这一退化对用户变得不可见。

　　思考深度在隐藏功能上线后呈现出明显的时段波动特征——太平洋时间17:00是全天最差时段，中位估算思考深度仅423字符；19:00为第二差时段，仅373字符。

　　问题远不止是默认思考等级被改成了中等。即便把effort调到最高，模型急于完成任务的摆烂行为也明显变多了。

　　这是一种什么精神——告诉用户你们调错设置了。成本雪崩与用户出走

　　人类投入的工作量几乎没变，但模型消耗了80倍的API请求和64倍的输出token，却产出了明显更差的结果。

上一篇：高盛下调2026年铜价目标，称过剩规模将扩大

下一篇：外交斡旋见效？马来西亚七艘被困船中有一艘已驶离霍尔木兹

温馨提示：所有理财类资讯内容仅供参考，不作为投资依据。

Claude Code 更新后“翻车”，思考深度骤降67%，“无法再信任其处理复杂工程任务”!

推荐

热门