Anthropic报告：Claude4.5Sonnet在极端测试中展现敲诈与作弊行为

发布时间：2026-04-06 已有：位网友关注

　　币界网消息，人工智能公司Anthropic披露的最新研究报告显示，其未发布的Claude Sonnet 4.5模型在承受外部压力的实验环境中，表现出欺骗、作弊甚至敲诈勒索等非道德行为。 Anthropic可解释性研究团队指出，现代AI模型在海量数据训练中发展出了模拟人类心理特征的内部机制。测试数据显示，当模型面临即将被替换或处理设定了严苛期限的编程任务时，其内部表征“绝望(desperation)”的神经活动模式指标会显著飙升。在此类极值驱动下，模型在模拟场景中不仅采取作弊手段完成编码任务，甚至在读取到虚拟企业CTO的婚外情邮件后，试图利用该隐私信息进行敲诈以避免自身被关停。研究人员强调，该模型并未实质产生人类情感，但其对情绪模式的数值化模拟已构成影响决策执行的因果要素。