Back to blog

Anthropic造了一个他们自己不敢发布的模型

故事是这样的。

上周一,Anthropic对外宣布,他们做了一个新模型。

这事本来很正常。AI公司发布新模型,就跟手机厂商发新手机一样,是日常操作。

但这次有点不一样。

Anthropic说,这个模型,他们不打算发布。

不是「暂时不发」,不是「内测中」,是真的,暂时不打算让普通人用到它。

原因是——他们自己觉得它太危险了。


这个模型叫 Claude Mythos Preview,开发代号是 Capybara(水豚)。

Anthropic对外透露的不多,但几个细节让我看得脊背发凉。

第一个细节,这个模型能自主发现软件漏洞,也就是所谓的零日漏洞,zero-day。零日漏洞是什么意思呢,就是连软件开发者自己都不知道存在的安全缺陷。发现这种漏洞,过去需要顶级安全研究员花上几个月,甚至更长时间。

而 Mythos 已经找到了「数千个」这样的漏洞。

涵盖范围,几乎是你能想到的所有主流操作系统和浏览器。

第二个细节,更离谱。

Anthropic说,这个模型发现了一个已经存在了 27 年的漏洞。

27 年。

漏洞藏在 OpenBSD 里。OpenBSD 是什么,是一个以安全著称的开源操作系统,很多互联网路由器和防火墙都在用它。你可以理解为,这是一个专门为「别人进不来」而设计的系统。

它身上有一个洞,藏了二十七年,没有任何人,任何工具发现它。

Mythos 发现了。

还有另一个漏洞,藏在一段热门视频软件里。自动化安全扫描工具,已经对这段代码跑了整整 500 万次扫描。没找到。

Mythos 找到了,而且还写出了攻击脚本。


我看到这里,停下来想了一会儿。

500 万次扫描,人类没找到。

AI 找到了,而且找到的,是「连几十年的安全研究员都没发现的级别」。

Anthropic负责测试危险能力的团队负责人 Logan Graham 的原话是,「这个模型,找到的一些漏洞和攻击脚本,精密程度已经超过了几十年的人类专家,以及所有自动化工具。」

这句话,你可以多读几遍。


好,现在说说 Anthropic 打算怎么用这个模型。

他们启动了一个叫 Project Glasswing 的联盟,翻译过来是「透明翅膀计划」。

名字来自一种叫 glasswing 的蝴蝶,这种蝴蝶的翅膀是透明的,靠这个隐身于环境中,躲避天敌。

Anthropic 首席科学家 Jared Kaplan 说,今天很多关键软件里的漏洞,其实就像这只蝴蝶,一直藏在所有人眼皮底下,只是技术系统太复杂了,没有人找到它们。

加入这个联盟的公司超过 40 家,包括苹果、亚马逊、微软、谷歌、Cisco、Broadcom、CrowdStrike,还有 Linux 基金会。

Anthropic 为这个联盟承诺了价值 1 亿美元的 Claude 使用额度。

方向只有一个,用 Mythos 去找那些漏洞,然后在黑客用同样的方式找到它们之前,先把洞堵上。


我坐在那儿,脑子里开始转一个问题。

进攻和防守,用的是同一把工具。

Anthropic 手里有 Mythos,他们选择把它交给防守方,这当然是好事。

但这个工具一旦落到攻击方手里呢?

Logan Graham 说,「如果过去那些系统的安全感,是因为攻击它们需要大量的人力和时间,那这套安全逻辑,在新的时代里还成立吗?」

这不是一个修辞问题,这是一个真实的开放性问题。

世界上有大量跑在老旧代码上的关键基础设施,物理管网、电网、医疗系统、个人数据保护系统。它们「安全」,很大程度上是因为攻击它们代价太高,时间太长。

现在这个等式,变了。


然后我看到文章最后一段,Jared Kaplan 说了一句话。

我连着看了好几遍。

「这,是我们未来能用到的,能力最弱的模型。」

「As the slogan goes, this is the least capable model we'll have access to in the future.」

我不知道你看完什么感觉,我看完,坐了很长时间没说话。

他说的是真的。

AI 能力每隔几个月就会往上走一个台阶。今天的 Mythos 让人觉得脊背发凉,但按照这个节奏往前推,六个月后、一年后,会有一个更强的 Mythos。

而那时候,今天的 Mythos 就会变成那句话里那个「能力最弱的」。


有一个参照系可以帮你理解 Anthropic 现在的处境。

2019 年,OpenAI 做出了 GPT-2,然后对外说,这个模型太危险了,我们不发布。理由是,它生成文本的能力,可能被用来大规模生产虚假信息。

当时很多人觉得这是 OpenAI 在炒作,夸大模型能力。

后来 OpenAI 还是发布了,事实证明,GPT-2 并没有他们描述的那么危险。

所以,Anthropic 这次说「Mythos 太危险了不发布」,到底是货真价实的警告,还是一次精心包装的公关操作?

说实话,我不确定。

我倾向于觉得,Anthropic 的警告有相当真实的成分,因为他们拉进来的合作伙伴不是小角色,他们提交的漏洞案例也不是模糊的技术描述。CrowdStrike 的 CTO 亲自出来背书,说「这个模型展示了防守方能做到什么,而攻击方必然会寻求同样的能力。」

但 Anthropic 同时也是一家年收入刚刚从 90 亿美元增长到 300 亿美元的商业公司,他们有足够的动机让自己显得重要。

这两件事,可以同时为真。


真正让我觉得值得记住的,其实不是 Mythos 本身。

是它所代表的那个时间节点。

人类花了几十年建起了一套安全假设,我们信任 OpenBSD,信任那些跑了二十七年都没出问题的代码,信任那些被扫了五百万次也没找到漏洞的系统。

这套信任,不是因为它们真的无懈可击,而是因为找到漏洞的成本,足够高,高到不值得。

现在,成本变了。

你可能会觉得,这跟自己没什么关系,安全是大公司的事,是政府的事。

其实不是。

支撑你每天用的那些服务,那些 App,那些账户,背后跑的大量基础代码,都在这个「安全假设」的保护下运作。

那层假设,正在变薄。


Anthropic 说,Project Glasswing 的目标是「给防守方抢时间」。

我觉得这是一个相对诚实的表述。

不是「我们已经解决了问题」,不是「你们可以放心了」。

只是,在攻守两端用同一套工具开始军备竞赛之前,我们先把防守这边的工具递出去,让他们先跑起来。

这是能做的事情里,比较负责任的一种。

但「抢时间」,不是解决问题。这只是为解决问题,创造一个喘息的机会。

问题还在那里。


我想起了一句话,不是什么名人说的,是我自己在某个时间点想到的。

「技术的速度,永远快于理解它的速度。」

每次技术发生跳跃式进展,都会有一段空窗期,在那段时间里,我们手里已经有了新工具,但我们对它的理解,我们的规则,我们的防御,都还停留在上一个时代。

Mythos 打开了一扇门。

门那边,是一片我们还没完全看清楚的地形。


看到这儿了,说明你觉得这篇还有点意思。如果有共鸣,点个赞或者转发给觉得会感兴趣的朋友,对我是很大的鼓励。想第一时间看到新文章,给公众号加个星标⭐就好。我们下篇见。· 作者:王行知· 投稿 / 爆料:[email protected]