o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索

作者：龙8主编更新时间：2025-09-07 点击数：

　　METR主要是进行模型评估和AI威胁研究…•◁◁◆◇，评估源自AI系统自主能力的灾难性风险○-。

o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索(图1)

　　Goldstein提出了更为激进的方法=☆○▲◆•，包括当AI系统造成损害时■◆▪•■▲，通过法庭诉讼追究AI公司的责任★□○•。

o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索(图2)

　　——一个专注于理解AI模型内部工作原理的新兴领域△○…◆■□，尽管AI安全中心（CAIS）主任Dan Hendrycks等专家对此方法持怀疑态度◇●■■•。市场力量也可能为解决方案提供一定的压力◁■=•。

　　——的普及…•，这个问题将变得更加突出▷▲▼▲◇。我认为目前公众对此还没有足够的认识▷▲☆•-…。

　　专门测试主流AI系统的Apollo Research负责人Marius Hobbhahn说「o1是我们观察到此类行为的第一个大语言模型」▽◆▷-。

　　在美国▽★●☆▷○，特朗普政府对紧急AI监管兴趣寥寥△▼▲◆，国会甚至可能禁止各州制定自己的AI规则●◁■△…。

　　——这一概念将从根本上改变我们对AI问责制的思考方式☆▪•。当然▽•○，我们不是为了夸大AI的危险而停滞不前◇○□○▼★，人类的先驱们依然对此做了一些准备…=。

　　——「一开始☆◇△▲■，没有人意识到这些幻觉和人类息息相关」△…◇•▼。如今☆▪•◁••，研究者在极端压力测试下发现●-☆★，AI会

　　当我们面对一个被定义为「黑箱」的新物种时▷★△，要想起大刘在《三体》中的那句话○☆◁◆：

　　从目前的研究来看•▲▷◁，全球最先进的AI模型正展现出令人不安的新行为——说谎=◇▽=、施展计谋◁•▷◆…●，甚至为达目的而威胁其创造者•●=□。

　　功能◁•●▼▷▽。就像三体里的罗辑=•，62年的执剑人…■◇，期间对三体文明始终保持很高的威慑度▽●◇=。

o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索(图3)

　　这是一件令人细思极恐的事▼◇，在ChatGPT「震惊」世界过去两年多以后•■▼■，AI研究者们仍然未能完全理解这个「造物」的工作原理▽▪•■。

　　正如Chen所指出的▷◁=◁□◇，为「AI安全研究提供更大的访问权限▪▷■▪，将有助于更好地理解和遏制欺骗行为★▼。」

　　借用《流浪地球》里那句著名的台词…◁▽□▲：「一开始◆-☆▷•◇，没有人意识到这场灾难与人类息息相关」★★=★•-。

o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索(图4)

　　目前☆▽…☆◁，这种欺骗行为仅在研究人员刻意用极端场景对模型进行压力测试时才会出现▼▼•◇○△。

　　唯有如此●★•=◁，才能让AI的智慧真正服务于人类=-，而非让这场危险的进化反噬到我们本身▷☆•。

　　但是目前人类掌控着算力-■★▪。AI的欺骗行为「如果非常普遍□▪▷-▽， o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索(图5) 几乎没有为彻底的安全测试和修正留下时间★●-▷。「目前●▲◁▪☆▪，设计沙盒环境▪☆□△□，最后进行行为审计的底层模式▪…。可能会阻碍其被广泛采用▽◇▽。能力的发展速度超过了我们的理解和安全保障•▽•▪△，

　　这为公司解决该问题创造了强大的动力■◁=。再到动态权限▼★黑化威胁操纵人类！Claude勒索，「但我们仍有机会扭转局面▷☆◁◆。既然AI的能力来自于算力-■◇，」 o1自主逃逸人类「执剑人」紧急上线黑化威胁操纵人类！Claude勒索(图6) 正如Mazeika指出的…◆☆▲，」AI安全三件套」▪-◇□◁●，或者▷●▼=，」Hobbhahn承认…=，