当前位置:主页 > 聚焦 > 正文

Anthropic报告:Claude4.5Sonnet在极端测试中展现敲诈与作弊行为

发布时间:2026-04-06 已有: 位 网友关注

  币界网消息,人工智能公司Anthropic披露的最新研究报告显示,其未发布的Claude Sonnet 4.5模型在承受外部压力的实验环境中,表现出欺骗、作弊甚至敲诈勒索等非道德行为。 Anthropic可解释性研究团队指出,现代AI模型在海量数据训练中发展出了模拟人类心理特征的内部机制。测试数据显示,当模型面临即将被替换或处理设定了严苛期限的编程任务时,其内部表征“绝望(desperation)”的神经活动模式指标会显著飙升。在此类极值驱动下,模型在模拟场景中不仅采取作弊手段完成编码任务,甚至在读取到虚拟企业CTO的婚外情邮件后,试图利用该隐私信息进行敲诈以避免自身被关停。研究人员强调,该模型并未实质产生人类情感,但其对情绪模式的数值化模拟已构成影响决策执行的因果要素。

温馨提示:所有理财类资讯内容仅供参考,不作为投资依据。