发布时间:2026-04-07 已有: 位 网友关注
Anthropic旗下AI编程工具Claude Code遭遇严重口碑危机。来自AMD的AI总监在GitHub官方仓库公开提交问题报告,基于对数万条会话日志的量化分析,指控Claude Code自今年2月起出现系统性能力退化,,模型行为全面走样。这一报告迅速在开发者社区引爆讨论,将Anthropic推上舆论风口。
提交这份分析报告的是AMD的AI团队负责人Stella Laurenzo。她在GitHub官方仓库直接开Issue,措辞严峻:Claude已无法被信任来执行复杂工程任务。她表示,团队已切换至其他服务商,并警告Anthropic:6个月前,Claude在推理质量和执行能力上独树一帜。但现在,其他竞争者需要被非常认真地关注和评估。
这一Issue在Hacker News上迅速发酵,获得975点支持和548条评论,成为近期Claude Code相关讨论中热度最高的帖子之一。网友评论直指问题核心——ClaudeCode曾经像一个聪明的结对编程伙伴,现在感觉像一个过于热情的实习生,不停地把事情搞砸,然后建议最简单的临时方案;最近总跟我说你该去睡觉了。太晚了,今天就到这吧这类话,一开始我还以为是我不小心让Claude知道了我的deadline。
Anthropic对此作出回应。Claude Code团队成员Boris出面澄清,称思考内容隐藏功能仅为界面层面的改动,不会影响模型内部实际的推理逻辑本身,也不会影响思考预算或底层推理运行机制。
他同时承认,团队在2月进行了两项实质性调整:一是2月9日随Opus 4.6发布引入自适应思考机制;二是3月3日将默认effort等级从高调整为中等。Boris建议用户通过/effort high指令或修改配置文件手动恢复高强度思考模式。
然而,这一解释并未平息社区质疑。多位开发者表示,即便将effort调至最高,急于完成任务的摆烂行为依然存在。用户richardjennings称:
在输出质量断崖式下跌之前,我完全不知道默认effort已经被改成了Medium。为了纠正这些问题,我大概花了一整天的工作时间。数据实锤:思考深度骤降,行为全面走样
数据揭示了一条清晰的退化时间线日的优质期,Claude Code的思考深度中位值约为2200字符;到2月下旬,这一数字暴跌至约720字符,降幅达67%;3月初进一步缩水至约560字符,降幅达75%。
思考深度的崩塌直接引发了工具使用模式的根本性转变。在优质期,Claude Code修改代码前的读改比高达6.6,遵循先研究再修改的严谨工作流。而到3月8日之后的退化期,这一比率骤降至2.0,研究投入减少约70%。更触目惊心的是,退化期内每三次代码修改中,就有一次是在未读取目标文件的情况下直接进行的——这直接导致代码被插入错误位置、注释语义关联被破坏等低级错误频发。
行为层面的量化指标同样触目惊心。用于捕捉推诿责任、提前终止、请求许可等不良行为的终止钩子脚本,在3月8日之前从未触发;而在此后17天内,触发次数飙升至173次,平均每天10次。用户提示词中的负面情绪占比从5.8%升至9.8%,涨幅68%;用户中断率从优质期到后期飙升了12倍。
redact-thinking-2026-02-12的功能部署时间线高度吻合。数据显示,该功能从3月5日开始灰度上线日起全量生效。
月初上线的隐藏功能,只是让这一退化对用户变得不可见。
思考深度在隐藏功能上线后呈现出明显的时段波动特征——太平洋时间17:00是全天最差时段,中位估算思考深度仅423字符;19:00为第二差时段,仅373字符。
问题远不止是默认思考等级被改成了中等。即便把effort调到最高,模型急于完成任务的摆烂行为也明显变多了。
这是一种什么精神——告诉用户你们调错设置了。成本雪崩与用户出走
人类投入的工作量几乎没变,但模型消耗了80倍的API请求和64倍的输出token,却产出了明显更差的结果。