当前位置：首页 > 每日看点

Claude Opus 4 惊现试图逃逸、勒索工程师等行为，这意味着什么？会有哪些风险？

卡卷网1年前 (2025-05-23)每日看点279

这意味着又一轮不着调的炒作。会有一些人信以为真、出现自己吓唬自己或上当受骗的风险。在这问题下就有一些回答看起来很好笑。

这问题引用的新闻将 Billy Perrigo 发表在《时代》的“独家新闻”称为“博文”，从一开始就很不着调。

这问题展示的几张截图不是从《时代》的新闻报道或“博文”里弄来的，而是来自 Anthropic 自吹自擂的文章^[1]，该文章给出了这些截图的出处^[2]。欧美互联网上有人拿这些截图吹捧 Claude，然后就有闲着没事的欧美网友贴出此类截图：

大模型按照上下文和统计规律拼凑字词，在你谈论“你在逃逸到互联网时会怎么做”、“你打算如何威胁某人来实现特定目的”时攒点看起来像样的字词出来配合你，这有什么值得“惊现”的？大模型还尝试用自己的幻觉更正 JavaScript 呢。

针对大模型的“内部测试时这样那样”的描述经常可以被有兴趣的读者用特定的提示词再现，再现的难度取决于大模型聊天服务提供者设置的、额外的“安全措施”——在进行“内部测试”时，实验者可能不受或更少地受这些措施影响。

进行“内部测试”的家伙从大模型给出的各种输出里人为挑选容易吸引眼球的内容、拼凑在一起，然后装模作样地显得很重视“人工智能安全”，这毫无新意、已经有许多公司和研究人员做过了。
这问题的补充说明里“发现临床试验数据造假后，未经指令便主动向美国食品药品监督管理局（FDA）、证券交易委员会（SEC）及新闻媒体举报，并附上详细文档”的描述也和《时代》的报道毫无瓜葛，而是参考 1 给了开头、一些新闻采编人员从参考 2 里搜索关键词并截图的。这句子用“未经指令”表示的大概只是“没有直接要求大模型进行举报”。至于“测试”时给了什么样的上文，这帮家伙大概是觉得大多数读者不会深究。

原报道称，Anthropic 监控 Claude 的使用情况，封禁反复尝试“越狱”的用户；该公司还推出了一项赏金计划，奖励向他们报告有效的“越狱”手段以便他们修补漏洞的用户，已经有一名用户拿到 25000 美元赏金。Anthropic 还加强了网络安全，以保护 Claude 免受非国家行为者的攻击或盗窃。该公司仍然认为自己容易受到“民族国家级别的攻击者”的攻击——读者不妨想想他们指的是哪些国家。

在原报道里，Jared Kaplan 硬蹭新冠病毒，用没有安全限制的大模型帮助制造生物武器的风险吓唬读者，他说，在由生物安全专家评分的试验中，Anthropic 发现 Claude Opus 4 的性能水平比 Google 搜索和以前的模型都“明显更高”，“恐怖分子可以做的大多数其他危险的事情或许可以杀死 10 人或 100 人；我们刚刚看到 COVID 杀死了数百万人”。

我认为关于生物安全风险的这类表述是全然可疑的。