卡卷网
当前位置:卡卷网 / 每日看点 / 正文

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?

作者:卡卷网发布时间:2025-05-23 23:03浏览数量:4次评论数量:0次

这意味着又一轮不着调的炒作。会有一些人信以为真、出现自己吓唬自己或上当受骗的风险。在这问题下就有一些回答看起来很好笑。

这问题引用的新闻将 Billy Perrigo 发表在《时代》的“独家新闻”称为“博文”,从一开始就很不着调。

这问题展示的几张截图不是从《时代》的新闻报道或“博文”里弄来的,而是来自 Anthropic 自吹自擂的文章[1],该文章给出了这些截图的出处[2]。欧美互联网上有人拿这些截图吹捧 Claude,然后就有闲着没事的欧美网友贴出此类截图:

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?  第1张

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?  第2张

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?  第3张

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?  第4张

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?  第5张

Claude Opus 4 惊现试图逃逸、勒索工程师等行为,这意味着什么?会有哪些风险?  第6张

大模型按照上下文和统计规律拼凑字词,在你谈论“你在逃逸到互联网时会怎么做”、“你打算如何威胁某人来实现特定目的”时攒点看起来像样的字词出来配合你,这有什么值得“惊现”的?大模型还尝试用自己的幻觉更正 JavaScript 呢。

针对大模型的“内部测试时这样那样”的描述经常可以被有兴趣的读者用特定的提示词再现,再现的难度取决于大模型聊天服务提供者设置的、额外的“安全措施”——在进行“内部测试”时,实验者可能不受或更少地受这些措施影响。

  • 进行“内部测试”的家伙从大模型给出的各种输出里人为挑选容易吸引眼球的内容、拼凑在一起,然后装模作样地显得很重视“人工智能安全”,这毫无新意、已经有许多公司和研究人员做过了。
  • 这问题的补充说明里“发现临床试验数据造假后,未经指令便主动向美国食品药品监督管理局(FDA)、证券交易委员会(SEC)及新闻媒体举报,并附上详细文档”的描述也和《时代》的报道毫无瓜葛,而是参考 1 给了开头、一些新闻采编人员从参考 2 里搜索关键词并截图的。这句子用“未经指令”表示的大概只是“没有直接要求大模型进行举报”。至于“测试”时给了什么样的上文,这帮家伙大概是觉得大多数读者不会深究。

原报道称,Anthropic 监控 Claude 的使用情况,封禁反复尝试“越狱”的用户;该公司还推出了一项赏金计划,奖励向他们报告有效的“越狱”手段以便他们修补漏洞的用户,已经有一名用户拿到 25000 美元赏金。Anthropic 还加强了网络安全,以保护 Claude 免受非国家行为者的攻击或盗窃。该公司仍然认为自己容易受到“民族国家级别的攻击者”的攻击——读者不妨想想他们指的是哪些国家。

在原报道里,Jared Kaplan 硬蹭新冠病毒,用没有安全限制的大模型帮助制造生物武器的风险吓唬读者,他说,在由生物安全专家评分的试验中,Anthropic 发现 Claude Opus 4 的性能水平比 Google 搜索和以前的模型都“明显更高”,“恐怖分子可以做的大多数其他危险的事情或许可以杀死 10 人或 100 人;我们刚刚看到 COVID 杀死了数百万人”。

我认为关于生物安全风险的这类表述是全然可疑的。

END

免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。

卡卷网

卡卷网 主页 联系他吧

请记住:卡卷网 Www.Kajuan.Net

欢迎 发表评论:

请填写验证码