Litecoin

OpenAI联创最新专访:关停Sora后,ChatGPT的下一步是什么?

2026/04/03 02:52
🌐zh-Hans

OpenAI聚焦超级应用,AGI只差最后一步

OpenAI联创最新专访:关停Sora后,ChatGPT的下一步是什么?
视频标题:OpenAI President Greg Brockman: AI Strategy, AGI, and the Super App
视频作者:Alex Kantrowitz
编译:Peggy,BlockBeats

编者按:本文编译自 OpenAI 总裁兼联合创始人 Greg Brockman 在 Big Technology Podcast 的对谈。该节目长期关注 AI、科技产业与商业结构的变化,是观察硅谷一线判断的重要窗口。

在这场对谈中,Brockman 并未停留在模型能力本身,而是将问题进一步前移:当 AI 的能力已基本被验证,行业接下来将如何选择路径、重构产品形态,并承接其带来的系统性冲击。对谈围绕 OpenAI 的产品战略、即将推出的「超级应用」,以及其对 AI 进入「腾飞阶段」的判断展开。

这场对谈可以从三个方面来理解。

第一,是路径的收敛。
从视频生成到推理模型,从多线并进到主动取舍,OpenAI 的选择并非简单的技术优劣判断,而是对现实约束的回应——算力已成为核心瓶颈。在资源有限的前提下,技术路线开始收敛至两个最具杠杆效应的方向:个人助理与复杂问题求解。这也意味着,AI 的竞争逻辑,正在从「能做什么」,转向「先做什么」。

第二,是形态的重构。
「超级应用」的提出,本质上是一种产品形态的跃迁。AI 不再是零散工具的集合,而是一个统一入口:它理解上下文、调用工具、执行任务,并在不同场景中持续积累记忆。从 ChatGPT 到 Codex,AI 正在逐步接管完整的工作流程,而人类的角色,也从执行者转向调度者——设定目标、分配任务并进行监督。

第三,是节奏的转折。
如果说过去两年是能力的爬坡阶段,那么现在正在发生的,是「腾飞」。一方面,模型能力从「辅助约 20% 的工作」跃升至「覆盖约 80% 的任务」,直接触发工作流的重构;另一方面,AI 正在参与自身进化(用 AI 优化 AI),叠加芯片、应用与企业侧的协同,形成持续加速的闭环。AI 不再是单点技术,而开始成为推动经济增长的关键引擎。

但与此同时,另一组问题也在同步浮现:公众的不信任、就业的不确定性、数据中心带来的争议,以及安全与治理的边界。对此,Brockman 给出的答案并不完全在技术内部。他更强调两点:其一,风险无法通过「集中控制」来解决,需要围绕 AI 建立类似电力系统的社会基础设施;其二,个体能力正在发生转变——真正重要的,不再是「会不会使用工具」,而是「能否借助 AI 实现自己的目标」。

如果说过去的问题是「AI 能做什么」,那么现在的问题已经变成,当 AI 开始替你完成大部分事情,你还需要做什么。

以下为原文内容(为便于阅读理解,原内容有所整编):

TL;DR

AGI 已进入「路径清晰」阶段:Greg Brockman(OpenAI 联创)认为,基于 GPT 的推理模型已具备通往 AGI 的明确路线,预计数年内实现,但形态仍将是「非均匀」的(jagged)。

注:AGI(Artificial General Intelligence)指通用人工智能,指在绝大多数认知任务上具备与人类相当甚至超越人类能力的 AI 系统。与当前「专用 AI」(如图像识别、推荐算法)不同,AGI 强调跨任务的通用性与迁移能力。

战略收敛:从多线探索到两大核心应用:在算力约束下,OpenAI 将资源集中于「个人助理」和「复杂问题求解」,而非同时推进所有方向(如视频生成)。

「超级应用」将成为 AI 入口形态:聊天、编程、浏览器与知识工作将被整合为一个统一系统,AI 从工具转变为「执行层」,用户转向「调度者」。

关键转折:AI 开始接管工作流程而非辅助:模型能力已从「完成 20% 任务」跃升至「可承担 80%」,迫使个人与企业重构工作方式。

算力成为核心瓶颈与竞争焦点:AI 需求远超供给,未来限制不在模型能力,而在计算资源,数据中心与基础设施成为关键变量。

AI「腾飞」(takeoff)正在发生:技术自我加速(AI 优化 AI)叠加产业协同(芯片、应用、企业),推动 AI 从工具走向经济增长引擎。

最大风险不在技术,而在治理与使用方式:安全问题无法靠单一主体解决,需要开放生态与社会基础设施共同承接。

个体核心能力正在转变:未来竞争力不在「执行」,而在「设定目标+管理 AI 系统」,主动使用 AI 将成为基础能力。

对谈整理:

Alex(主持人):
今天我们请到了 OpenAI 的联合创始人兼总裁 Greg Brockman,一起聊聊 AI 最具潜力的机会、OpenAI 将如何抓住这些机会,以及「超级应用」的构想。Greg 今天也来到了我们的录音室。

Greg Brockman(OpenAI 联创&总裁):
很高兴见到你,谢谢邀请。

为什么关停 Sora?算力不够用

Alex:
现在这个时间点很有意思,OpenAI 正在暂停视频生成的推进,把资源集中到一个「超级应用」上——它会整合商业与编程场景。从外部看(包括我在内),感觉 OpenAI 已经在消费端取得领先,现在却在调整资源配置。到底发生了什么?

注:2026 年 3 月,OpenAI 宣布关闭其视频生成产品 Sora(包括应用与 API),并停止相关商业推进。

Greg Brockman:
过去一段时间,我们一直在开发深度学习这项技术,想验证它是否真的能产生我们一直设想的那种正向影响——是否可以被用来构建真正帮助人们、改善生活的应用。

与此同时,我们也在做另一条线:把这项技术部署出去。一方面是为了支撑业务运转,另一方面也是为了提前积累真实世界的经验,为技术真正成熟的那一刻做准备。

而现在,我们已经走到了一个新的阶段。我们看到这项技术确实是可行的。我们正在从「基准测试」和一些偏抽象的能力展示,转向一个新的阶段——必须把它放到真实世界中,让它参与实际工作,通过用户反馈来继续进化。

所以我更倾向于把这次变化理解为:这是由技术阶段变化驱动的一次战略转向。


这并不是说我们在从「消费端」转向「企业端」。更准确地说,我们在问一个问题:在资源有限的情况下,我们最应该优先做哪些应用?因为我们不可能什么都做。

哪些应用能够真正落地、彼此之间产生协同,并且带来实际影响?如果你把所有方向列出来,消费端可以拆成很多种:比如个人助理,一个真正了解你、与你目标一致、能帮助你实现人生目标的系统;再比如创作与娱乐;还有很多其他可能性。而在企业端,如果你从更高层看,其实可以抽象为一件事:你有一个复杂任务,AI 能不能帮你完成?

对我们来说,目前的优先级非常清晰,排在最前面的只有两件事:第一,是个人助理;第二,是能够帮你解决复杂问题的 AI。

问题在于:我们现有的算力,甚至连这两件事都撑不满。一旦再加上更多应用场景,就根本不可能全部覆盖。所以这其实是一个现实判断:技术正在快速成熟、影响即将爆发,而我们必须做取舍,选择最重要的方向去真正做出来。

Alex:
你之前提到过一个类比,说 OpenAI 有点像 Disney:有一个核心能力,然后可以向不同场景延展。Disney 有米老鼠,可以做电影、主题乐园、Disney+。OpenAI 的「核心」是模型,可以做视频生成、做助手、做企业应用。

但现在看起来,你们是不是不再走这种「全面延展」的路径,而是必须做选择了?

Greg Brockman:
其实我反而觉得这个类比现在更成立。但关键在于一点:从技术角度看,Sora(视频模型)和 GPT(推理模型)其实属于两条不同的技术分支。它们的构建方式完全不同。

问题在于,在当前阶段,同时推进这两条技术树是非常困难的,尤其是在资源有限的情况下。所以我们做出的选择是,在当前阶段,把主要资源集中在 GPT 这条路径上。

当然,这并不意味着我们放弃其他方向。例如在机器人领域,我们仍然在继续相关研究。但机器人本身还处在更早期的阶段,还没有进入真正爆发的成熟期。

相比之下,在未来一年里,我们会看到 AI 在知识工作领域的真正腾飞。


而且需要强调的是:GPT 路线并不只是「文本」。比如双向语音交互(speech-to-speech),也是这条技术路径的一部分,它会让 AI 更可用、更实用。这些能力本质上还是在同一个模型体系里,通过不同方式调整出来的。

但如果你走向两条完全不同的技术分支,那在算力受限的情况下,是很难长期维持的。而算力之所以受限,是因为——需求太大了。几乎每一个模型发布之后,人们都想用它做更多事情。

Alex:
那为什么你们没有把重心放在「世界模型」这条路径上?比如视频模型,它需要理解物体之间的关系,这对机器人也很关键。而且 Sora 的进展其实非常快。为什么最终选择押注 GPT?

注:「世界模型」(World Model)侧重于感知与物理直觉,核心在于让 AI 理解「世界如何运作」,而不仅是学习「数据的表面模式」。这类模型通常被用来描述像 Sora 这样的系统:它不仅是在生成图像或视频,更是在建模对象之间的关系(如人、车、光线)、时间的连续变化(帧与帧之间的演进),以及基础的物理规律(如运动、遮挡与碰撞)。相比之下,GPT 属于语言与推理模型,更侧重抽象认知与任务执行能力。

Greg Brockman:
这个领域最大的问题,其实是机会太多。

我们很早就发现,在 OpenAI,只要一个想法在数学上是合理的,它通常就能跑得通,并且能取得不错的结果。这说明深度学习的底层能力非常强,它可以从数据中抽象出生成规则,并迁移到新的场景。这件事你可以用在世界模型、科学发现、编程等各种领域。

但关键在于:我们需要做取舍。


过去一直有一个争论,文本模型到底能走多远?它能否真正理解世界?我认为现在这个问题已经有答案了,文本模型是可以走到 AGI 的。

我们已经看到了清晰的路径,今年还会有更强的模型出现。而在 OpenAI 内部,我们最大的痛苦之一,就是如何分配算力——这个问题只会越来越严重,而不是缓解。所以本质上,这不是「哪条路线更重要」的问题,而是时机和顺序的问题。


现在,一些我们过去认为遥远的应用,已经开始变得触手可及。比如解决尚未被解开的物理问题。我们最近就有一个案例,一位物理学家研究一个问题已经很久,把问题交给模型,12 小时后,我们给出了一个解。他说,这是他第一次觉得,一个模型像是在「思考」。这个问题甚至可能是人类永远无法解决的,但 AI 做到了。

当你看到这样的事情,你唯一的选择就是:加倍下注、三倍投入。因为这意味着,我们真的可以释放巨大的潜力。


所以对我来说,这并不是不同方向之间的竞争,而是 OpenAI 的使命是什么?我们如何把 AGI 带到世界?如何让它真正造福所有人?以及,我们已经看到了那条路径,我们知道该如何推进它。

押注 GPT,而不是世界模型:通往 AGI 的路径选择

Alex:
好,我确实还想回到你刚才提到的下一代模型,但我想先追问一下这个问题。

我今年早些时候和 Google DeepMind 的 Demis Hassabis 聊过。挺有意思的是,他说,对他来说,最接近 AGI 的东西其实是他们那个叫 Nano Banana 的图像生成器。

注:Demis Hassabis 是推动 AI 从研究走向突破性应用的关键人物之一。他创立的 DeepMind 开发了 AlphaGo,并于 2016 年击败围棋世界冠军,成为人工智能发展史上的标志性事件。

他的理由是:无论是图像生成器还是视频生成器,要生成那样的图像和视频,本质上都必须理解物体之间的互动关系,至少要对世界如何运作有某种层面的认识。

所以这会不会意味着一种潜在风险?这是一个很大的押注——如果情况真是这样,OpenAI 在另一条技术树上持续加码,会不会错过什么?

Greg Brockman:
如果真是那样呢?我有两个回答。

第一,当然有这种可能。这个领域就是这样,你终究必须做选择,必须下注。而 OpenAI 从一开始就在做这件事:我们要判断,自己相信通往 AGI 的路径是什么,然后高度聚焦地沿着那条路推进。就像随机向量相加,最后结果可能接近于零;但如果你把所有向量对齐,它们就能推动你朝一个明确方向前进。


但第二点是,图像生成其实也是 ChatGPT 里非常受欢迎的能力,我们也还在持续投入、持续优先推进。我们之所以能这么做,是因为它其实并不属于「世界模型」或者「扩散模型」那条技术分支,它实际上是建立在 GPT 架构之上的。所以虽然它面对的是不同的数据分布,但在更底层的核心技术栈上,其实还是同一套东西。


而这恰恰是 AGI 最惊人的地方之一:有时候,看起来非常不同的应用——语音到语音、图像生成、文本处理,以及文本本身在科学研究、编程、个人健康信息等不同场景中的应用——其实都可以被容纳在同一个技术框架里。

所以,从技术角度来说,我和公司一直在思考的一件事,就是如何尽可能统一我们的努力方向。因为我们真的相信,这项技术会带来整体性的提升,甚至会抬升整个经济体系。

而这件事的规模太大了。我们当然不可能把所有事都做完,但我们可以完成属于我们的那一部分。

Alex:
这就是 Artificial General Intelligence(AGI,通用人工智能)里那个「general」的含义。

Greg Brockman:
没错,这就是那个 G,真的就是这个意思。

Alex:
说到「统一」,那这个超级应用到底会是什么样?

Greg Brockman:
我理解中的超级应用是——

Alex:
它会把聊天、编程、浏览器,以及 ChatGPT 这些东西都整合在一起,对吗?

Greg Brockman:
对。我们想做的是一个面向终端用户的应用,让你真正体验到 AGI 的力量,也就是它的「通用性」。

如果你想想今天的聊天产品,我认为它会逐渐演变成你的个人助理、你的个人 API,一个真正为你考虑的 AI。它很了解你,知道很多关于你的信息,与你的目标保持一致,值得信任,并且能够在这个数字世界里某种程度上「代表」你。

至于 Codex,你可以把它理解为:它现在还是一个主要为软件工程师打造的工具,但它正在变成「面向所有人的 Codex」。

任何想创造、想搭建东西的人,都可以使用 Codex,让电脑去完成他们想做的事。而且它已经不再只是「写软件」这件事了,它更像是「使用电脑」本身。比如我会让它帮我调笔记本设置。有时候我忘了怎么设置热区(hot corners),我就直接让 Codex 去做,它就真的做了。

这才是电脑本来应该有的样子,它应该去适应人,而不是让我去适应它。

所以你可以想象这样一个应用:凡是你希望电脑完成的事情,你都可以直接告诉它。这其中会内置「电脑使用」和「浏览器操作」能力,让 AI 真正能够操作网页,同时你也可以监督它到底在做什么。而且,不管你的交互是聊天、写代码,还是一般性的知识工作,所有这些对话都会被统一在一个体系里。AI 会有记忆,会了解你。

这就是我们正在构建的东西。

但说实话,这其实只是冰山一角,是露在水面上的那部分。对我来说,真正更重要的是底层技术的统一。

我们前面提到过底层模型层面的统一,但过去几年真正发生变化的是:现在已经不只是「模型」本身的问题了,更重要的是「承载系统」。也就是说,模型如何获得上下文?它如何连接到真实世界?它能采取哪些行动?当新的上下文不断进入时,它与用户交互的循环机制是怎样运作的?

过去这些东西我们内部其实有多套实现,或者至少是几套略有不同的实现。现在我们正在把它们收敛成一套。最终,我们会拥有一个统一的 AI 层,然后以非常轻量的方式,把它指向不同的具体应用场景。

你当然仍然可以做一个小插件、一个小界面,专门服务金融、专门服务法律,但大多数情况下,你甚至都不需要,因为这个超级应用本身就会足够广泛、足够通用。

Alex:
这个应用既面向企业场景,也面向个人场景?

Greg Brockman:
对,这其实正是它的核心。就像一台电脑,比如你的笔记本,它到底是个人用途,还是工作用途?答案其实是:两者都是。它首先是你的设备,是你进入数字世界的接口。而这也正是我们想做的东西。

Alex:
那从非商业的角度讲,如果我在个人生活里使用这个超级应用,我会拿它做什么?我的生活会发生什么变化?

Greg Brockman:
我会这样理解:在个人生活里,它首先会延续你现在使用 ChatGPT 的方式。

你现在是怎么用 ChatGPT 的?其实人们已经在用它完成非常多样、而且很惊人的任务了。有时候只是简单地说,「我要在婚礼上致辞,你能帮我起草一下吗?」或者,「你能不能帮我看看这个想法,给我一点反馈?」再比如,「我在做一个小生意,能不能给我一些思路?」

这些场景有些偏个人,有些已经开始模糊个人与工作的边界。而我的观点是:所有这类问题,都应该可以交给超级应用来处理。

Greg Brockman:
但如果你回头看 ChatGPT 这一路的发展,它本身其实已经在演变了。

它以前是没有记忆的,对吧?对每个人来说,它都是同一个 AI,每次都从零开始,几乎像是在跟一个陌生人说话。可如果它能记住你们过去的互动,它就会强大得多。如果它还能接入更多上下文,它也会强大得多。

比如说,它连上你的邮箱、你的日历,真正了解你的偏好,拥有一套更深层的、关于你以往经历的背景信息,然后利用这些信息去帮助你实现目标。再比如现在 ChatGPT 里已经有一个叫 Pulse 的功能,它会每天根据它对你的了解,主动给你推送你可能感兴趣的内容。

所以在个人使用层面上,超级应用会把这一切都包含进去,而且会做得更深、更丰富。

Alex:
你们打算什么时候推出它?

Greg Brockman:
更准确的理解方式是,接下来几个月里,我们会一步一步地朝这个方向推进。我们讲的这个完整愿景,会逐步被交付出来,但不会一次性整体上线,它会以分阶段的方式出现。

比如说,今天的 Codex 应用其实本身就已经包含了两层东西:一层是一个通用型的智能体承载系统(agent harness),它可以使用工具;另一层则是一个擅长写软件的智能体。

而这个通用型承载系统,其实可以被用于很多别的场景。你把它接到电子表格上,接到 Word 文档上,它就能帮助你处理知识工作。

所以我们的第一步,就是把 Codex 应用变得对通用知识工作更加好用。因为我们已经在 OpenAI 内部看到,大家自发地开始把它这样用起来了。

这会是第一步,后面还会有很多步。

Alex:
我昨天和你们一位同事聊 Codex 的时候,他提到有个人在用 Codex 做视频剪辑:他让 Codex 帮自己处理视频,Codex 甚至给 Adobe Premiere 做了一个插件,把视频分章节,然后开始剪辑。这就是你们要做的方向?

Greg Brockman:
我特别喜欢听到这种案例。这正是我们希望这个系统能发挥作用的方式。而且很有意思的一点是:Codex 应用本来是为软件工程师设计的,所以对非程序员来说,它当前的可用性其实并不高。因为在配置过程中,会出现很多小问题。

开发者一看就知道那是什么意思,也知道怎么修;我们已经习惯了。但如果你不是开发者,你看到这些就会想:「这是什么东西?我以前从没见过。」

可即便如此,我们还是看到很多从来没写过程序的人,已经开始拿它来搭网站,或者做你刚才说的那种事——自动化不同软件之间的交互,从中获得巨大的杠杆效应。比如我们沟通团队里就有人把它接到了 Slack 和邮箱上,让它去处理大量反馈,并且做出很不错的归纳和综合。

所以现在的情况是:那些非常有动力的人,已经愿意跨过这些门槛,然后从中获得很高回报。

某种意义上说,最难的部分我们已经完成了——我们已经做出了一个真正聪明、有能力、能实际完成任务的 AI。

接下来要做的,是那个相对「容易」的部分:让它变得真正对大众有用,把这些进入门槛一点点拆掉。

Alex:
那从竞争格局来看,Anthropic 现在也有 Claude 应用,既有聊天机器人,也有 Claude Code。某种程度上,他们也已经有了自己的「超级应用」雏形。

你怎么看 Anthropic 为什么更早走到这一步?以及你觉得 OpenAI 追上的可能性有多大?

Greg Brockman:
如果你把时间拨回 12 到 18 个月前,我们其实一直都把「编程」作为一个重点领域,也一直在各种编程竞赛这类很「纯能力型」的测试里拿到最好的成绩。但我们当时投入得不够多的一件事,是最后一公里的可用性。

也就是说,我们没有足够重视这样一个问题:AI 已经很聪明了,能解各种高难度编程题,但它从来没有见过现实世界里的代码库——而真实世界的代码库往往很混乱,远不像它熟悉的那些「干净」环境。

在这一点上,我们当时确实是落后的。但大概从去年年中开始,我们开始非常认真地补这件事。我们专门组建了团队,去看所有这些缺口在哪里,真实世界到底有哪些混乱、哪些复杂性,是我们之前没有真正接触过的。

比如,怎么构建训练数据?怎么搭训练环境?让 AI 真正体验「做软件工程」是什么感觉——被打断、遇到奇怪的问题、各种非理想情况,等等。

我觉得到了现在,我们已经追上来了。当用户真正把我们和竞争对手放在一起正面对比时,很多人会更偏向选择我们。

当然,我们也知道自己在前端体验上还有差距,这部分我们会补上。但整体来看,这就是我们这段时间的方向:不只是做一个模型,再额外套一个产品壳;而是从一开始就把它当成一个完整产品来思考。在做研究的时候,我们就同时在想:它最终会怎么被使用?这是 OpenAI 这段时间内部正在发生的一种转向。

所以我的看法是,我们接下来会有非常强的一波模型升级。光看今年的路线图,我都觉得很振奋,能做成的事情真的很多。

与此同时,我们也在非常聚焦地补齐最后一公里的可用性。

Alex:
自 2022 年以来,OpenAI 一直像是这个领域里无可争议的领跑者。显然,现在的竞争已经不再只是测试成绩上的竞争了。你刚刚自己也用了「我们追上来了」这样的说法。

公司内部的氛围是不是也变了?也就是说,现在和过去那种在 ChatGPT 这样的产品上遥遥领先的感觉不一样了,而是真的进入了一场正面竞争。

外界的一些报道其实也能看出这种变化——比如公司内部开过会,强调 OpenAI 已经没有什么「支线任务」了,所有人都要围绕这个核心方向集中精力。那现在内部的环境和氛围,发生了怎样的变化?

Greg Brockman:
我会说,对我个人来说,OpenAI 最让我感到不安的时刻,恰恰是在我们发布 ChatGPT 之后。

我记得那时在公司的假日派对上,现场弥漫着一种「我们赢了」的氛围。我以前从来没有过那种感觉。当时我的反应是:不对,我们不是这样的人,我们是那个处于劣势的一方。


而且我们一直都是。这个领域里的竞争对手,大多都是已经建立起来的大公司,资金更多、人力更多、数据更多,几乎所有资源都更充足。

那 OpenAI 为什么还能参与竞争?某种程度上,答案就在于:我们从不觉得自己可以高枕无忧。我们始终把自己当成挑战者。

事实上,对我来说,看到市场开始真正呈现出这种竞争格局,看到其他对手也开始出现、并且做得不错,反而是一件很健康的事。

因为在我看来,你永远不能把注意力钉死在竞争对手身上。如果你只盯着他们现在在哪里,那等你走到那里时,他们早就已经往前走了。

而我觉得,过去一段时间其实是反过来的:很多人一直在盯着我们所处的位置,而我们得以继续往前推进。这反而给了我们一种内部上的对齐感和统一感。

我前面提到过,过去我们几乎是把「研究」和「部署」当成两件分开的事来看待;而现在,我们真正想把它们整合起来。对我来说,这是一件非常美妙的事。

所以我会说,我们现在所处的这个阶段,并不是我觉得我们曾经「稳赢」过,或者现在突然陷入危机。你知道的,外界对你的评价,通常不会像他们说得那么好,也不会像他们说得那么糟。

我觉得整体上,我们其实一直都很稳定。而在模型研发这件核心事情上,我对我们的路线图、对我们已经做下去的研究投入,其实是非常有信心的。至于产品端,我觉得我们现在有一种非常好的能量,大家正在聚拢到一起,把这些东西真正交付到世界面前。

Alex:
你前面已经好几次提到,接下来会有一些很强的新模型。那到底是什么?

The Information 报道说,你们已经完成了「Spud」的预训练;而 Sam Altman 也对 OpenAI 内部员工说,几周之内他们应该就会看到一个非常强的模型。那还是几周前说的。团队内部认为,它甚至有可能真正推动经济加速,事情进展得比很多人预想得还快。

所以,「Spud」到底是什么?

Greg Brockman:
它是个很好的模型。但我觉得,重点其实不在某一个单独的模型上。

我们的研发流程大致是这样的:首先是预训练,也就是产出一个新的基础模型,之后所有进一步的改进,都会建立在这个基础模型之上。而这一步,往往都需要公司内部很多团队投入巨大的努力。事实上,过去 18 个月里,我自己大部分时间都花在这里:主要是围绕 GPU 基础设施,支持那些负责训练框架的团队,把这些大规模训练任务真正跑起来。

然后是强化学习阶段。也就是让这个已经学到了大量世界知识的 AI,开始真正运用这些知识。

再接下来是后训练过程。在这个阶段,你会真正告诉它——好,现在你已经知道怎么解题了,那就去在各种不同情境下练习。


最后,还有一个关于行为与可用性的「最后一公里」阶段。

所以,我会把 Spud 看成是一个新的底座、一个新的预训练模型。而且在它身上,可以说是我们过去大约两年的研究,开始真正走向结果了。它会非常令人兴奋。

我想,外界最终感受到的,会是能力上的整体提升。但对我来说,这从来都不只是某一次单独发布的问题。因为等这个版本一出来,它其实也只是我们接下来更多进展的一个早期版本。我们还会在这个改进流程的每一个环节上,继续做得更多。

所以我觉得,我们现在更像是拥有了一台不断加速的进步引擎,而 Spud 只是这条路上的一个节点而已。

Alex:
那你觉得,它能做到哪些今天的模型还做不到的事?

Greg Brockman:
我觉得,它会既能解决更难的问题,也会变得更细腻。它会更好地理解指令,也会更好地理解上下文。

人们有时候会说一种叫「big model smell」的感觉——意思是,当模型真的更聪明、更有能力时,你是能明显感觉到的。它会更顺着你的意图走,更贴合你的需求。

当你问一个问题,而 AI 却没有真正听懂你的意思时,那种感觉现在还是很让人失望。你会忍不住想:这件事你明明应该能自己想明白。


所以我会说,从某种意义上讲,这会是很多「量变」累积起来带来的「质变」。一方面,各项指标上都会有很多提升;另一方面,也会出现一些全新的场景:以前你会因为 AI 不够可靠而懒得用它,现在你会不假思索地直接拿来用。

我觉得这会是一次全方位的变化。我尤其期待看到,它会如何继续抬高能力的上限。我们已经看到它在物理研究这类场景中的表现,我觉得接下来它会能够解决更多开放式问题、跨越更长时间跨度的问题。

同时,我也很期待看到它如何抬高能力的下限——也就是,不管你想做什么,它都会比今天更有用得多。

Alex:
但对普通用户来说,感受到这种变化有时候并不容易。比如 GPT-5 发布之前,外界其实已经有了很多预热和期待;可它真正出来的时候,公众最初的反应某种程度上反而有点失望。后来大家才慢慢发现,在某些具体任务上,它其实非常强。

那对接下来这一代模型,你觉得它会主要在某些职业场景里被明显感受到,还是说,它会成为一种对所有人都比较直观、普遍可感的提升?

Greg Brockman:
我觉得故事可能还是会类似。模型发布之后,一定会有人一上手就觉得:这和我以前见过的东西相比,完全是白天和黑夜的区别。但也会有一些应用场景,本来瓶颈就不在「智能」上。那如果你只是把模型变得更聪明,可能在这些地方,用户未必立刻就能感受到差异。

不过,随着时间推移,我觉得大家最终都会感受到变化。因为真正发生改变的是:你会在多大程度上开始依赖这个系统。

如果你想想我们现在和 AI 的互动方式,其实每个人脑子里都有一个关于「它能做什么」的心理模型。而这个心理模型变化得并不快。通常都是随着经验积累,它偶尔替你完成了一件很神奇的事,你才突然意识到:原来它竟然能做到这个,我以前根本没想到。


比如在医疗信息获取这样的场景里,我们已经看到了类似情况。我有一个朋友,就是用 ChatGPT 去了解自己癌症的不同治疗方案。医生此前已经告诉他,这是晚期,已经没有什么办法可做了。但他用 ChatGPT 去研究了很多不同思路,最后真的因此找到了治疗方案。

像这种情况,其实前提是:你得先对 AI 在这个场景里的帮助能力有某种程度的信任,你才会愿意投入那么多精力去从这个系统里挖出价值。

所以我觉得,接下来我们会看到的是:在任何类似的应用场景里,AI 能帮到你的这件事,会变得对所有人都更加显而易见。

因此,这既是技术本身在变强,也是我们对技术的理解正在变化、正在追上它。

Alex:
也就是说,你会越来越依赖它。在 OpenAI 内部,你们还在开发一个自动化 AI 研究员,据说会在今年秋天推出。那到底是什么?

AI 已进入「腾飞」早期阶段

Greg Brockman:
我觉得,从整体趋势来看,我们现在正处在这项技术腾飞的早期阶段。

Alex:
「腾飞」是什么意思?

Greg Brockman:
腾飞,指的是 AI 在沿着指数曲线不断变强。而其中一部分原因在于:我们已经可以用 AI 去帮助我们改进 AI 本身,所以整个研发过程也在加速。


但我觉得,所谓「腾飞」也不仅仅是技术层面的事,它还意味着现实世界影响力的释放。很多技术的发展都像一条 S 曲线;而如果你把多条 S 曲线放在更长的时间维度上去看,它们最终会汇聚成一种近似指数级的增长。

我觉得我们现在正处在这样的阶段。也就是说,技术本身正在以越来越快的速度推进,这台进步引擎正在不断积累动能。

同时,在外部世界里,也有很多顺风因素在形成:芯片开发商正在获得更多资源投入;大量人在上层做各种应用,尝试把 AI 嵌入不同场景,寻找它与各种具体需求之间的契合点。

所有这些能量都在不断累积,共同把 AI 推入一个「腾飞期」,让它从一种边缘性的存在,逐渐变成推动经济增长的主要引擎。

而这件事,并不只是我们这几面墙之内发生的事情。它关乎整个世界、整个经济体系,如何一起推动这项技术,以及它的实用性不断向前发展。

Alex:
那这个「研究员」具体会做什么?

Greg Brockman:
所谓这个「研究员」,本质上是指:当 AI 能接管的任务比例越来越高之后,我们就应该允许它在更大程度上自主运行。

当然,这背后其实有很多需要仔细思考的地方。它并不意味着:我们把它放出去,让它自己跑一阵子,过会儿回来看看它有没有做出什么好结果。

我觉得,我们依然会非常深度地参与到它的管理之中。就像现在,如果你带一个初级研究员,你要是把他单独晾太久,他大概率会走到一条并没有太多价值的路径上去。但如果有一个资深研究员,或者说一个真正有方向感的人在带,他甚至未必要亲自掌握所有具体操作技能,也仍然可以对这个人产出的东西持续给出反馈、做审阅,并且提供方向上的引导:我到底希望你完成什么。

所以我理解中的这个系统,是我们正在构建的一套机制,它会大幅提升我们产出模型的速度,推动新的研究突破出现,也让这些模型在真实世界里变得更有用、更好用。而且,这一切都会以越来越快的速度发生。

Alex:
它具体会做什么?你会不会直接对它说:「去找到 AGI」,然后它就自己去尝试?

Greg Brockman:
某种程度上,我确实是这么理解的,至少在第一层意义上是这样。但如果从更实际的角度说,我会把它理解为:把我们一位研究科学家从头到尾完整的工作流程,尽可能搬到硅基系统里去执行。

Alex:
还有一种理解「腾飞」的方式是:AI 的进展会从渐进式提升,变成不断积累动能,最终演变成一种几乎无法阻挡的推进过程,朝着比人类更聪明的智能前进。

你会不会担心,就像事情可能朝好的方向发展一样,这种进展本身也可能失控、可能走偏?

Greg Brockman:
我觉得,当然会,这是毫无疑问的。我认为,想要获得这项技术带来的好处,就必须同时严肃地思考它的风险。

如果你看我们在技术开发上的做法,就会发现我们在安全性和防护上投入了很多。一个很好的例子就是 prompt injection(提示注入)攻击。如果你要做一个非常聪明、能力很强、还接入了大量工具的 AI,那你当然要确保,它不会因为别人给出一条奇怪的指令就被带偏、被操纵。

这就是我们投入很多精力去做的事,而且我觉得我们已经取得了非常不错的结果,也有一支非常强的团队在负责这部分工作。


有意思的是,这里面有些问题其实可以和人类做类比。人类同样会受到钓鱼攻击影响,也会被误导,也可能在不了解完整上下文的情况下做事。

我们会把这些类比带入自己的研发过程。每当我们发布一个模型、开发一个模型时,我们都会思考:怎样确保它真正与人类目标保持一致,怎样确保它确实能够帮上忙?这是我们非常在意的一件事。


当然,也还有一些更大的问题,涉及整个世界、整个经济:一切会如何变化?每个人要怎样才能从这项技术中受益?这些问题并不只是技术问题,也不是 OpenAI 单靠自己就能解决的。但没错,我确实会经常思考,不仅要推动技术前进,也要真正确保它能够带来与其潜力相匹配的积极影响。

Alex:
问题在于,这看起来像是一场竞赛。OpenAI 总部这几面墙内发生的事,也会被很多开源玩家快速复制。而这些玩家在安全边界、防护措施上,往往要弱得多。

我记得你以前说过一句话,大意是:创造性的成果,需要很多人把很多事情都做对;但破坏性的结果,可能只需要一个怀有恶意的人。这也是我至少最担心的地方。因为这显然是一场竞赛,而且进展很快。你的很多同行都说过,如果所有人都同意停下来,他们也愿意停。但现在看起来,这场竞赛根本没有减速的迹象。


那这个回报,真的值得承担这样的风险吗?

Greg Brockman:

我认为,这个回报是值得的。但我也觉得,这样的回答还是太粗了,太一刀切了。

从 OpenAI 创立之初开始,我们一直在问:怎样的未来才算是一个好的未来?这项技术要怎样才能真正提升所有人的处境?

你可以把这个问题拆成两个角度。一种是「中心化」的视角:认为要让这项技术安全,最好的办法就是只有一个主体去开发它。这样一来,就没有竞争压力了,你可以慢慢地、谨慎地把事情做对,等准备好了,再决定怎么把它交付给所有人。这种想法当然可以理解,但某种程度上,它也是一个很难让人接受的方案。


而另一种路径,也是我们更倾向的路径,是从「韧性」出发去思考。也就是说,把它看成一个开放系统:有很多参与者都在推动这项技术发展,但重点不只是技术本身,更在于建设围绕这项技术而生的社会基础设施,让它能够被更稳妥地承接。

你可以想想电力的发展过程。电力也是由很多不同的人和机构来生产的,它本身同样有风险和危险性。可与此同时,我们也围绕它建立起了多层次的安全基础设施:有电力安全标准,有不同的使用规范,有不同规模下对应的监管方式。到了非常大的规模时,还会有专门的监管要求。很多人都能够以一种被民主化的方式去使用电力,同时还有检查员、还有一整套配套系统,围绕这种技术的特性逐渐建立起来。


而我觉得,AI 也是一样。我们真正看到的一点是:围绕 AI,必须有一场广泛的社会讨论。如果这项技术真的会到来,并且改变每一个人的生活,那人们就必须参与进来。它不能只是由某一个中心化的小团体,秘密地推进和决定一切。

所以,对我来说,这始终是一个非常核心的问题:这项技术到底应该以什么样的方式展开?而我们真正相信的,就是这样一个围绕技术发展逐渐形成的「韧性生态系统」。

Alex:
所以你的意思是,我们现在正处在「腾飞」的过程中,而我们所有人其实都已经身处其中。英伟达 CEO 黄仁勋最近说,他认为 AGI 已经实现了。你同意吗?

Greg Brockman:
我觉得,AGI 对不同的人来说有不同的定义。而且确实会有不少人认为,我们今天手里的技术就已经算是 AGI 了。

这件事可以争论。但我觉得,真正有意思的地方在于:我们现在拥有的技术,其实仍然是非常「不平滑」的、带有明显断层感的。

在很多任务上,比如写代码之类的事情,它已经绝对是超人的了。AI 就是能做到,而且它确实大幅降低了创造东西时的摩擦。但与此同时,也还有一些非常基础的事情,是人类能轻松做到、而 AI 仍然会吃力的。

所以你到底把分界线画在哪里?某种程度上,这更像是一种「感觉」,一种氛围判断,而不是一个在此刻可以被严格科学定义的问题。


所以对我自己来说,我觉得我们显然正在经历那个时刻。如果你五年前把今天的这些系统展示给我看,我会说:对,这就是我们当时说的那种东西。只是现实长出来的样子,和我们当初想象的非常不一样。它和我们曾经设想的任何形式都不太一样。

所以我觉得,我们需要相应地调整自己的心智模型。

Alex:
所以你的意思是,还没到?

Greg Brockman:
我会说,大概已经到了 70%、80% 吧。所以我觉得我们其实已经非常接近了。

而且我认为,有一件事已经极其清楚:在接下来的几年里,我们一定会迎来 AGI。它的表现可能仍然会有些「锯齿状」,不会是全面平滑、处处完美的。但它能完成任务的下限会被抬得非常高——几乎对于任何需要你在电脑上完成的智力任务,AI 都能做。

所以现在我必须给出一个稍微带点不确定性的回答,因为这里面确实有点像某种「不确定性原理」——你可以从不同定义去争论它。但按照我个人的定义,我觉得我们已经几乎到了。再往前迈一点点,就绝对到了。

关键转折:从 20% 到 80% 的工作接管

Alex:

2025 年 12 月到底发生了什么。因为那看起来像是一个转折点,「让机器不受打断地连续写几个小时代码」这件事,似乎突然从一个理论想法,变成了所有人都开始说:「我觉得我可以信任它,让它自己继续跑一阵子。」

所以那时候到底发生了什么?

Greg Brockman:
当时的新模型发布之后,AI 能完成的任务比例,大概是从你工作中的 20%,一下子提升到了 80%。这是一个极其巨大的转变。因为它不再只是「一个挺不错的小工具」,而是变成了:你必须围绕这些 AI 重新组织自己的工作流。

对我个人来说,我也有一个非常典型的体感时刻。这些年来,我一直有一个测试提示词:让 AI 为我搭一个网站。这个网站其实是我当年学编程时亲手做过的,花了我几个月时间。

而到了 2025 年的时候,这件事大概还是需要花四个小时、来回好几轮提示,才能做得比较像样。但到 12 月的时候,我只问了一次,AI 一次就做出来了,而且做得很好。

Alex:
那这些模型是怎么完成这种跃迁的?

Greg Brockman:
很大一部分原因,是基础模型本身变得更强了。OpenAI 一直在持续提升自己的预训练技术。而在那个时间点上,我们第一次稍微看到了一点:今年余下时间里将会发生什么。但与此同时,它也不只是某一个单点突破的问题。更准确地说,是我们在所有创新维度上都在持续推进。

这些模型很有意思的一点是:某种意义上,你会感觉到它们出现了一次次「跳变」;但从另一个角度看,一切其实又是连续演化的。它并不是突然从 0% 跳到 80%,而是从 20% 提升到 80%。所以某种程度上,你也可以说,它只是变得更好了而已。

而且我觉得,这种进步其实在我们后续的每一个小版本更新里都还在继续。比如从 5.2 到 5.3,我有一位合作很紧密的工程师,原本他完全没法让模型去做他负责的那种底层、硬核的系统工程工作;但到了新版本之后,模型已经可以接过他的设计文档,真正去实现、加上指标监控和可观测性、跑 profiler 做性能分析,再持续优化,最后做到他原本希望自己亲手交付出来的那个结果。

所以我会说,这更像是一种「缓慢推进,然后突然到处都变了」的过程。但这一切,其实都已经由当下正在起作用的能力预示出来了。最迟一年之内,很多事情,有些甚至会快得多,都会变得极其可靠。

Alex:
这是不是也让你自己感到意外?因为我记得不久前你在一次采访里还说过,Codex 这种自动编程工具,本来只是给软件开发者用的。可在今天这场对话更早的时候,你又说,其实所有人都可以使用这类工具。

那是什么让你改变了看法?

Greg Brockman:
我之前其实一直把 Codex 放在「写代码」这个框架里来理解。毕竟它名字里就有 code,很自然会把它看成是给程序员用的工具。而且在 OpenAI 内部,很多人本身就是软件工程师,我们是在为自己造工具,所以按这种方式去想,也非常自然。


但随着这项技术不断进步,我们开始意识到一件事:我们真正做出来的底层技术,其实大部分根本不是关于「代码」的,它本质上是关于「解决问题」的。

它的核心,是管理上下文、搭建执行框架,并思考 AI 应该如何接入现实工作、如何真正把事情做完。而这件事一旦成立,哪怕是在编程场景里,突然之间也意味着任何人都能获得这种能力。因为你真正拥有的是一个可以替你执行工作的系统。只要你有一个愿景,有一个想完成的目标,你能把自己的意图描述清楚,AI 就可以去执行,可以把事情做出来。

但这也会让你开始反问,为什么我只盯着「非编程」或「编程」这种划分?其实还有大量工作,本质上都只是某种机械性技能。比如 Excel 表格、比如做演示文稿。这些事如果 AI 已经拥有足够的上下文,也具备足够的原始智能,它现在其实已经可以做得很好了。

所以,如果我们只是把它变得更容易接近、对人更友好,那它就会从「Codex 是给程序员的」,一下子变成「Codex 是给所有人的」。

Alex:
而在我们看到这波明显进步之后,硅谷很快又出现了另一个几乎悄无声息的现象,就是 Open Claw,对吧?或者更广义一点说,是整个技术圈开始以一种你刚才提到的方式去信任 AI——比如把桌面控制权交给一个 AI 机器人,或者弄一台 Mac mini,把邮件、日历、文件这些权限都给它,然后就让它某种程度上「接管生活」。

后来 OpenAI 又把 Open Claw 的创始人招进了公司。所以你能不能多讲一点这种「帮助你管理生活」的 AI?把 Open Claw 团队招进来,背后对应的就是这样一种愿景吗?

Greg Brockman:
我会说,这项技术最核心的一点在于:弄清楚它到底该如何变得有用,人们到底想怎么使用它,智能体的愿景究竟是什么,它会以什么方式进入人们的生活——这些本身都是很难的问题。

而我在这几代技术演进中反复看到的一件事是:那些真正愿意深度投入、充满好奇心、又有强烈想象力的人,这本身就是一种非常真实的能力,而且会成为新经济里越来越有价值的一种能力。

Open Claw 的创始人 Peter,在我看来就是这样的人,他有非常强的想象力,也有极强的创造冲动。所以从某种程度上说,这件事和某项具体技术有关;但从另一种程度上说,它又根本不只是技术问题。它真正关乎的是:我们怎样把这些能力嵌进人们的生活里,找到它们真正落位的地方。

所以,作为一个技术人,这当然令人兴奋;但作为一个真正关心如何把实用价值交付给用户的人,我们现在也在这件事上加大投入,投入得非常多。

Alex:
你最近关于这件事有一句挺有意思的话。你说,当你开始让这些自治 AI 智能体替你工作时,你会变成「成千上万个智能体组成的舰队的 CEO」,它们在替你完成你的目标、愿景和任务,而你自己不再深陷于各种具体问题是怎么被解决的细节里。

但你也说,从某种意义上讲,这种新的工作方式会让人感觉自己正在失去对问题本身的「脉搏感」。

Greg Brockman:
这到底是不是一件好事?我觉得,它是一个利弊并存的东西。

所以我认为,我们要做的是,一方面承认这些工具真正能带来的力量,另一方面也要尽量缓解它们带来的弱点。比如说,赋予人更大的杠杆、让人拥有更大的行动能力——如果你有一个愿景,有一件想完成的事,那你就可以调动一整支智能体舰队替你去做,这当然是很强大的。


但如果你想想这个世界的运行方式,到最后一定还是有一个需要负责的人。假设你在做一个网站,而你的智能体把事情搞砸了,最终影响到了用户,那严格来说,这并不是智能体的错,而是你的错。所以你必须在意这件事。

我觉得,任何想真正使用这些工具的人,都必须认识到:人的能动性、人的责任,是整个系统的核心组成部分。人如何使用 AI,这件事本身就是非常根本的。

所以我觉得最重要的一点是:作为这些智能体的使用者——我们在 OpenAI 内部也是这样——你不能放弃责任。你不能只是说:「AI 会自己把事情做好。」

Alex:
当然。但你刚才说的是「感觉自己正在失去对问题的脉搏感」,这和「责任」好像又不是一回事。

Greg Brockman:
对我来说,这两者其实是连在一起的。因为重点就在于:如果你是 CEO,但你离细节太远了——比如你在带一个团队、在运营一家公司,却已经失去了对一线状态的感知,那通常不会导向什么好结果。所以我刚才想表达的,不是说「人类终于可以什么都不用知道了」是一件值得追求的事。

当然,有些细节确实可以被放心交出去。就像你找一个总承包商帮你盖房子,有一大堆细节你大概不需要亲自去盯,因为你信任对方会处理好。但归根结底,如果某些关键细节出了问题,你还是应该在意,也还是应该知道。

所以这里有一个非常重要的细微差别:你不能只是盲目地说,「我愿意失去那种对问题的把握感」。相反,我们应该主动地说:我还是需要保有这种感知,去真正理解系统的强项和弱点。

而当你开始从一些更低层、更机械性的事务中抽离出来时,你之所以能这么做,应该是因为你已经与这个系统建立起了信任,确认它确实会把事情做好。

Alex:
关于模型,我最后再问一个问题。你刚才提到了一点模型演进的路径:从预训练,到微调,再到强化学习,让它更擅长一步一步地解决问题,并且能够去互联网上执行任务。

而现在我们已经进入了这样一个阶段:模型通过这个过程学会了使用工具。如果我没理解错的话,接下来这条演进路径的下一步会是什么?

Greg Brockman:
我觉得,我们现在所处的世界,是机器能力不断加深、不断扩展的世界。这里面一部分当然和工具使用有关,但与此同时,我们也需要真正把「工具」本身做得足够好。比如说,如果 AI 已经能进行「电脑操作」,可以像人一样使用桌面系统,那从原则上讲,它就已经能做任何你能做的事情。

但与此同时,我们也必须为机器补上很多基础设施层面的东西。比如,在企业环境里,身份认证和权限管理怎么做?审计轨迹和可观测性怎么做?要追上模型底层能力的发展,还有大量配套技术需要被建出来。


而从整体方向上看,我觉得接下来会包括像「非常自然的语音界面」这样的东西。也就是说,你可以像现在这样自然地和电脑对话,它能真正听懂你,完成你需要它做的事,也能给出有价值的建议。

比如说,它会主动提醒你:你一直在推进的某件事现在卡住了,问题出在这里。或者你早上醒来时,它会对你说:这是你的每日简报,昨晚你的那些智能体一共推进了多少工作。

也许它甚至已经在替你经营一门生意了——我认为这会是这项技术的一个巨大应用场景。创业的民主化,绝对会发生。它会告诉你:这些地方出了问题;有一位客户现在很不满意,而且他想和一个真人聊一聊,你最好亲自去处理一下。这些事,都会发生。


然后,我觉得下一个阶段还包括:人类能够挑战的目标上限,也会被这项技术继续抬高。我们现在其实已经看到了这个趋势的前沿。最让我兴奋的一点,几乎可以拿 AlphaGo 的第 37 手来类比——那一步棋是人类从来不会下出来的,它带有创造性,而且改变了很多人对这项游戏的理解。

这种事会在每一个领域里发生。它会发生在科学、数学、物理、化学里;会发生在材料科学、生物学、医疗、药物发现里;甚至也可能发生在文学、诗歌,以及很多其他领域。它会以我们今天还无法想象的方式,解锁人类在创造性理解和构思上的新空间。

Alex:
可如果模型已经像你说得这么强,为什么这件事到现在还没有真正发生?

Greg Brockman:
我觉得,这里面存在一个「能力滞后差」——也就是模型真正具备的能力,和人们实际在怎么使用它之间,还有很大距离。某种程度上说,我们对模型里到底「装着什么」的理解,本身还在逐渐形成。

所以我认为,即便从现在开始技术不再继续进步,世界也依然会发生一次巨大的变化——由计算驱动、由 AI 驱动的经济,仍然会到来。

但同时,还有另一层原因:我们现在最擅长的,其实是把模型训练在那些「可以被衡量」的任务上。所以一开始,我们从数学题、编程题起步,因为这些任务有非常明确的验证器:答案对不对,可以非常清楚地判断。而过去这段时间里,我们之所以能把模型逐渐带向更开放式的问题,靠的也是不断扩大「什么东西可以被验证、被评估」的范围。

而 AI 本身其实也可以帮助完成这件事。如果 AI 足够聪明、足够理解任务,你给它一个评估标准,它就能逐步学习。但像创意写作这样的任务,比如「这首诗写得好不好」,就很难打分。

因此,我们过去在这类场景中,确实比较难让 AI 通过不断尝试和反馈来真正学会。不过这一切都正在改变,而我们对接下来的路径也已经看得相当清楚了。

Alex:
这倒挺有意思的。Peter Thiel 之前说过一句话,大意是:如果你是一个擅长数学的人,那在这些模型面前,你受到的冲击可能反而比「擅长文字的人」更大。而你当年也是 Math Club 的成员。你不会担心这件事吗?

Greg Brockman:
我觉得,人总是更容易看见自己失去了什么,而不是看见自己得到了什么。因为我们对「我以前是怎么做这件事的」有很深的体验。比如我以前参加数学竞赛,现在 AI 也能做数学竞赛了。但问题在于,这件事从来就不真正关乎「数学竞赛」本身,对吧?那并不是推动人类前进的核心东西。

如果你看看我们现在的工作方式——坐在一个盒子前面,对着另一个盒子打字——一百年前我们不是这样生活的。这不是一种自然状态,也不是我们被卷入的这个数字世界真正应有的样子。

那不是「做人」最本质的部分。真正重要的,是在场、是活在当下、是和其他人建立连接。

而我认为,我们即将看到的是:AI 会释放出大量时间,让人类有更多机会去加强彼此之间的连接,去建立更多人与人之间的纽带。

这一点让我非常兴奋。

Alex:
好。那当你们进一步转向这些更具 agent 特征的应用场景时,外界也开始讨论一个问题:未来是否还需要继续做那么大的训练任务?

尤其是,当模型已经足够好之后,你似乎可以让它直接进入真实世界,然后在很多并不依赖预训练的环节里,获得很大一部分提升。而那些真正需要超大数据中心支撑的,其实主要还是预训练。

你一直都在负责扩展规模、推动这件事。你怎么看这种说法?

Greg Brockman:
我觉得,这种说法忽略了技术演进中非常重要的一点。确实,模型生产流水线上的每一个环节,都会相互放大彼此的效果。所以你会希望所有环节都变得更强。


我们看到的是:一旦预训练变得更强,后面的每一个步骤都会容易得多。这其实很合理。因为模型一开始就更有能力了,所以它学得更快;它在尝试不同思路、从自己的错误中学习时,也会因为底子更强而推进得更快,犯的错更少。

所以,真正大的变化并不是说,我们从「训练一个纯粹封闭、自我推演的理性系统」,变成「只让它去真实世界里试错」。而是我们意识到,不仅要把模型本身做大、做强,也要让它去尝试事情,要理解人们在现实世界里是怎么使用它的,并把这些使用反馈重新接入训练过程里。但这并不会削弱继续推进那部分研究的价值,也不会削弱它的重要性。


我觉得还有一个变化是:过去我们主要关注预训练阶段原始能力的提升,但没有那么重视推理阶段、或者说推断阶段(inference)的能力。而在过去 24 个月里,一个很大的转变就是,我们开始意识到这两者之间需要平衡。

也就是说,你可以拥有一个底座能力非常强的模型,但它也必须在推断和实际运行时足够高效。因为你要做强化学习,要把它真正部署到现实世界里,这些都要求它具备很强的推断效率。

这也意味着,你不一定会把训练规模推到理论上能推到的最大,因为你还必须考虑到后续的大量使用场景。

你真正想要的是:在智能水平与成本之间,乘积最优的那个点。而不是只优化其中一个维度。

Alex:
如果未来主要转向 inference,你们是不是就不再那么需要 Nvidia 的 GPU 了?

Greg Brockman:
我们当然还是非常需要。

Alex:
为什么?

Greg Brockman:
原因有很多。


其中一个是:无论训练和推断之间的比例怎么变化,超大规模训练这件事,仍然只能通过把海量算力集中到一个问题上来完成,而这件事目前没有别的替代方式。

所以我觉得未来更可能发生的情况是:部署侧的算力占比会大幅上升;但与此同时,仍然会有一些时刻,你要进行某一轮特别巨大的预训练任务,那时你还是需要把大量算力集中起来。

而且我也觉得,Nvidia 的团队真的非常出色,他们做的工作非常惊人。所以,是的,我们和他们合作得非常紧密。

Alex:
那会不会有一天,人们开始说:「我们已经预训练得够多了,模型已经足够聪明了」?

Greg Brockman:
我觉得,这有点像是在说:等到人类把眼前所有问题都解决完了,也许我们就可以这么说了。但我认为,我们想实现的事情,它的上限其实高得多。

过去 50 年里,某种程度上,我们对很多目标的野心其实是退缩了的。比如说,有些问题看起来就非常明确——我们能不能让所有人都拥有医疗保障?而且不只是「出了问题再治疗」,而是真正做到预防式医疗,去关注生活方式,尽早帮助人们,在疾病发生之前就发现潜在风险。这类问题,我认为我们其实是可以借助更智能的模型去真正解决的。

当然,也许存在某个层级,在那个层级上,这个问题已经被彻底解决了,那时你可能会问:我还需要一个聪明两倍的模型吗?但与此同时,也一定会有其他问题要求更高层级的智能。

算力不是成本,而是收入引擎

Alex:
我们来聊聊建这些数据中心背后的数字。你们今年早些时候融资了 1100 亿美元。这里面的数学是怎么成立的?这笔钱会直接投向数据中心吗?你们又是怎么考虑未来如何把这笔钱回报给投资人的?聊聊这些计算逻辑。

Greg Brockman:
我觉得,这件事本质上非常简单:我们眼前最大的支出,就是算力。但你不能把算力只看成成本中心,它更像是收入中心。

你可以把它想象成招聘销售团队。你愿意雇多少销售?只要你的产品卖得出去,只要你有一套可以规模化销售这个产品的机制,那么你雇的销售越多,收入就越高。

而我们现在所处的世界就是,我们一再发现,我们根本没法把算力建得足够快,来跟上需求的增长。这一点,我现在就能非常具体地感受到。我们不得不做出非常痛苦的决定:哪些功能能上线,哪些功能暂时不能;算力优先给哪里,不给哪里。

而我认为,随着整个经济向 AI 驱动型经济转变,这种情况会在更广泛的层面上出现。


未来真正的问题会变成:哪些问题能获得那种海量算力?你要怎么扩展,才能让每个人都拥有一个属于自己的个人智能体?怎么让所有人都用上像 Codex 这样的系统?

现在这个世界上,根本就没有足够的算力去支撑这些事情。所以我们是在提前为这个问题做准备。

Alex:
但这毕竟是一个全新的类别,对吧?而且你们是在用一种非常强的确定性去下注——金额之大,几乎是世界从未见过的。当你在创造一个新类别时,你怎么能如此确定它最终会成立?

Greg Brockman:
我觉得,这里面有几个组成部分。

第一,现在其实已经有历史先例了。从 ChatGPT 发布那一刻起,我就记得自己和团队有过一段非常明确的对话。有人问我:我们应该买多少算力?我说:全部。别人又问:不是,认真说,到底买多少?我说:无论我们怎么建设,我都知道我们不可能跟上需求。

而从那之后的每一年,事实都证明了这一点。问题在于,这类算力采购通常都要提前 18 个月锁定,有时候是 24 个月,甚至更久。也就是说,在机器真正交付之前,你就必须先做出判断。这意味着你必须非常强地向前预判。


而我们正在走向的那个世界是:到目前为止,我们的大部分收入仍然来自消费者订阅,这一块未来也仍然会非常重要。当然,我们也在形成其他收入来源。

但现在正在浮现出来的、更大的机会,是知识工作。

而这一点,我们已经在非常具体地看到:几乎每一家企业都开始意识到,这项技术是真的有用,而且如果它们想保持竞争力,就必须采用它。你能看到那种非常自然的动力,大量软件工程师已经在用它了;然后现在又开始出现更广泛的扩散,人们在企业内部把它用到各种知识工作场景里。而这个行业里已经出现的付费意愿、以及你看到的收入增长,都是非常明确的。

这件事现在就正在发生。你只需要把它向前推演。而我们可能比外界多看到的一点是:我们能更清楚地看到这些模型接下来还会如何进步。


把这些因素放在一起,你就会发现:这个经济体本身是一个极其庞大的东西,大到几乎难以想象。而从今往后,这个经济体增长的最高位因素,会是 AI——你能多好地利用 AI,以及你手里拥有多少算力来驱动它。

Alex:
你刚才说,消费者订阅目前还是你们最大的收入来源。那你们的判断是不是,未来这件事会反过来,企业会成为最大的收入来源?

Greg Brockman:
我觉得,现在已经非常清楚地能看到,这个「企业端」正在快速增长。当然,「企业端」这个词本身也在变化。因为它真正指向的,其实是:人们在生产性的知识工作中使用 AI。

而从定价方式来看,我觉得分类未必会像过去那样清晰。比如现在 Codex 的使用方式就是:如果你有 ChatGPT 的消费者订阅,你其实就已经能使用 Codex。

所以我不觉得未来会是那种特别泾渭分明的 B 端、C 端区分。更可能的情况是:作为用户的你,会拥有一个统一的入口——就像你的笔记本电脑一样,它是你进入数字世界的门户。

而真正的收入,本质上也会来自这里。

Alex:
Dario 说过一句话,我觉得他可能是在说你们:有些玩家把风险刻度拉得太高了,而他对此非常担忧。我想他指的就是你们在基础设施上的大规模押注。你怎么看这种说法?

Greg Brockman:
我不同意。我觉得,我们一直都非常审慎,而且我们确实看到了接下来会发生什么。我认为,就算只看今年,所有真正参与进来的人,都会感受到「算力受限」这件事。

而我觉得,我们只是比其他人更早意识到了这一点,更早开始为这项技术将如何展开做准备。

我看到的情况反而是:其他很多参与者大概是到了去年年底才意识到这件事,于是开始慌忙去找算力;但那时其实已经几乎没有算力可买了。

所以我觉得,这种话说出来很容易。但现实是,大家现在都已经意识到:这项技术是可行的,它已经来了,它是真的。软件工程只是第一个清晰的例子而已。

而真正限制我们的,就是可用的计算能力。

Alex:
他还说过,如果他的预测只要偏差一点点,他的公司就有可能破产。你们也面临同样的风险吗?

Greg Brockman:
我觉得,这里面其实有更多「下车口」。如果你开始认真思考下行情形——而我觉得这完全是合理的问题——那你会发现,某种程度上,这个赌注本来就不是押在某一家公司身上的。

它真正押的是整个行业。押的是:你是否相信,这项技术能够被做出来,并且能够交付我们眼前所看到的这巨大价值。

我还是会回到那些最直接的证明点。比如软件工程——如果你不是软件工程师、没有真正用过 Codex,那很难通过阅读去理解这种体验到底有多不一样。那种差异其实很难描述。但我觉得,人们很快就会真正感受到。

六个月前,这种体感更多还只发生在我们内部;后来,外部也开始有了明显的证明点。而再过六个月,我觉得每个人都会感受到。而到那时,我们所有人都会感受到另一种痛感:有很棒的模型出现了,但你根本用不上,因为世界上没有足够的算力。

Alex:
是,但我们在节目里做 2026 年预测的时候,去年年底有一场讨论,Ranjan Roy 当时也在,他说 2026 会是「人人都在使用智能体」的一年。而我当时的反应是:等我亲眼看到、自己也真的开始用上智能体时,我才会相信。

Greg Brockman:
那现在,我们不就已经到了这个时刻吗?你现在会拿它做什么?

Alex:
我会用它在内部搭一些工具,帮助和我一起工作的人更好地同步视频什么时候上线、缩略图应该怎么做之类的事情。我还会把 YouTube 上的一些数据接进来,这样我们就能根据缩略图等因素,对视频表现进行排序分析。某种程度上,这是一套我自己定制出来的软件,而如果按传统方式,我大概率根本不会花钱去买。

我觉得这正是当下很有意思的一点:软件本来是面向大众规模化生产的,但也正因为如此,它里面总会有很多地方并不是为你而做的。而也许 AI 带来的变化,就是它让我们终于可以用一种更自然的方式和软件打交道。

Greg Brockman:
我觉得,这正是关键所在。而且我一直反复在想的一件事是:我们今天构建电脑的方式,实际上把我们拉进了一个数字世界里。

你想想自己花了多少时间在手机上不停刷内容。再想想你花了多少时间在不停点各种按钮,想办法把这个系统连到那个系统上——为什么这些事非得由你自己来做?AI 真正应该做的,是把机器拉近到你身边,让它更贴合你、更理解你想完成什么。

我们的流行文化里一直都有这种想象:你可以直接和电脑说话,然后它替你把事办了。而现在,这件事开始变成现实了,开始真的变成一种你可以做到的事情。而这种变化到底有多惊人,很多时候你必须亲自试过,才能真正理解。所以我确实觉得,我们正处在一个非常特别的时刻。

Alex:
那我想知道,为什么 AI 在公众中的观感会这么差?比如 YouGov 的数据就显示,认为 AI 会给社会带来负面影响的美国人,是认为它会带来正面影响人数的三倍。

你觉得背后的原因是什么?你会担心 AI 的公众形象吗?

Greg Brockman:
我觉得,有一件事是我们必须真正做到的:让这个国家的人看到,AI 为什么对他们是有益的。而且不只是从宏观经济层面、不是只说它会带动 GDP 增长之类的大词,而是:它到底怎样具体改善他们的生活。

实际上,我每天都会听到很多非常具体的故事。比如有一个家庭,他们的孩子一直头疼,也有一些其他健康问题,但 MRI 检查一直没有获批。后来他们用 ChatGPT 去研究症状,意识到自己其实可以据此向保险公司提出一个更有力的申请理由。他们这么做了,结果发现孩子脑子里真的有肿瘤。也正因为他们通过 ChatGPT 获取到了正确的信息,最后孩子的命被救了下来。

这只是一个故事。类似的故事还有很多很多。人们的生活被这项技术深刻地改善,甚至被它救了一命。关键就在于,他们真的在现实中与这项技术建立了合作关系。


但我觉得,这样的故事其实并没有真正传出去。我认为,这种事情正在很多人的生活里发生,但不知为什么,它还没有真正变成主流叙事。

我还注意到,流行文化,尤其是从上世纪 90 年代延续下来的那套想象,对 AI 非常负面,总是在强调它可能出什么问题。可一旦人们真的开始使用 AI,他们会发现它是有实用价值的,是有帮助的。

所以我确实非常在意这样一件事:我们还没有真正成功地帮助人们理解,这一轮技术浪潮为什么会改善他们的生活,为什么会促进人类之间更紧密的连接。

这件事在我心里,是一个非常重要的关注点。而且如果你再把视角放大一点,去看 AI 为什么如此重要,我觉得它未来会成为经济实力和国家安全的重要来源。它会关系到一个国家的竞争力。而像中国这样的其他国家,在 AI 上呈现出的方向感几乎是完全相反的。

所以,是的,我觉得这件事非常重要。我们必须正视它,也必须真正想清楚,怎样让所有人都能分享到这项技术带来的好处。

Alex:
但我们现在也处在一个极不稳定的时刻。大家很担心工作。每次我跟别人聊 AI,他们几乎都会问:我的工作还能保住多久?

然后再说数据中心,公众对它的观感甚至比对 AI 本身还差。你看这些民调会发现,更多人认为数据中心会对环境、家庭能源成本,以及周边居民生活质量带来负面影响,而不是正面影响。

所以我们现在处在这样一个时刻,好工作本来就越来越难找,而人们又看到数据中心进入自己的社区,于是觉得这东西既不环保,也会推高能源成本,还会降低生活质量。

他们错了吗?

Greg Brockman:
我觉得,围绕数据中心,确实存在很多错误信息。

一个很典型的例子就是用水问题。如果你真的去看我们在阿比林(Abilene)的设施,那是世界上规模最大、或者至少是最大之一的超级计算机设施,它一整年的用水量,其实只相当于一个普通家庭一年的用水量。也就是说,用水量其实微乎其微。

但外界有很多错误信息,让人以为这些数据中心会消耗大量水资源。

电力也是类似的情况。我们已经承诺,会自行承担成本,不把电价上涨的压力转嫁给居民。这一点很重要,现在整个行业也都开始做出类似承诺,因为改善本地社区这件事确实非常重要。而当我们建设数据中心时,我们也会真正进入这些本地社区,了解当地发生了什么、我们能做什么来帮助当地。数据中心会带来税收,也会创造就业。它确实会带来很多好处。

所以我觉得,关键还是在于我们以什么方式出现,而这正是我们非常认真对待的一项责任。

Alex:
好,但如果居民电费不上涨,那你们总得把电接进来,而这就可能意味着更多污染。这难道不是一个问题吗?

Greg Brockman:
我觉得,这里面其实有很多更细的层次。

如果你看今天电网的运行方式,会发现其实存在大量「闲置电力」——也就是说,很多电力本来就在那里,却没有被真正利用。与此同时,输电系统本身也需要升级。而且,关键在于,这些升级成本应该由我们来承担,而不是由普通缴费用户来承担,这一点非常重要。还有很多地方,本身就有清洁能源,但这些电力实际上没有被充分利用,甚至某种程度上被白白浪费掉了。

所以,当数据中心的需求进入之后,反而会带来一种真实的动力,推动那些已经老化、过时的电网去升级。而这种升级,其实也会给社区带来真实收益。比如在北达科他州,我们就看到,当地的数据中心建设反而帮助改善了公用事业基础设施,结果居民电价还下降了。

Alex:
好,最后一个政治问题。你给 MAGA Inc. 捐了 2500 万美元,这是一个支持特朗普的政治行动委员会。

Greg Brockman:
你之前也和 Kara 聊过这件事。

注:Kara Swisher,美国知名科技记者,长期报道硅谷与互联网公司,以提问犀利、风格直接著称。

Alex:
对。你当时说:「任何有助于让这项技术真正惠及所有人的事,我都会去做。」如果这让你成了一个「单议题选民」或者「单议题捐款人」也无所谓。但我一直在想的是:对于这种「单议题阵营」来说,归根结底,难道不应该是「让这个国家变得更强」本身,才是任何政治行动最核心的北极星吗?

也就是说,即便某个候选人并不是百分之百支持你正在做的事,但如果他能让这个国家更强,那是不是也应该成为政治支持的重要标准?如果是这样的话,这也是你捐款考量的一部分吗?

Greg Brockman:
我是这样看的:那笔捐款是我和我妻子一起做出的决定。我们也向两党阵营的超级政治行动委员会都捐过款。

我觉得,这项技术来得非常快。未来几年里,它真的会改变一切,会成为整个经济的底层支撑。但它现在并不受欢迎。所以我们非常希望去支持那些真正愿意拥抱这项技术、认真理解这项技术的政治人物。

当然,从更大的层面讲,这项技术本身也确实是在提升我们这个国家的能力。某种意义上,我确实是一个「单议题选民」,因为我觉得这是我最能做出独特贡献的领域。但归根结底,这件事还是在表达一种支持:作为一个国家,我们应该主动拥抱这项技术。

未来的核心能力:不是使用 AI,而是「管理 AI」

Alex:
如果现在有一个对 AI 很害怕的人坐在你面前,他会觉得 AI 会抢走我的工作、会毁掉我的社区、会让世界变化得太快,你会对他说什么?

Greg Brockman:
我最想说的一点是:去亲自试试这些工具。因为只有真正体验过当下已经存在的 AI,你才会真正明白,它到底能为你做什么。

而我们今天已经看到了太多来自这项技术的机会、潜力和赋能。你刚才也说了你现在能拿它做什么,对吧?以前从来没做过网站的人,现在可以做网站了;如果你想做一门小生意,过去你可能会被各种后台流程、运营细节吓住,但现在 AI 已经可以帮你处理很多这类事情。

所以我觉得,对你自己的生活来说,你应该去想:它能不能帮助你管理健康?能不能帮助你照顾你爱的人?能不能帮你赚钱?能不能帮你省钱?这些都会是现实选项。

我觉得,人总是更容易看到「什么会改变」,却不那么容易看到「自己会获得什么」。但我认为,值得给它一个公平的机会,认真去理解天平两端到底各自是什么。

Alex:
顺便说一句,这也是民调里很少被讨论的一点。那些只是「听说过 AI」但自己从没真正用过的人,或者几乎没怎么用过 AI 的人,往往会更负面。而一旦你进入重度用户,甚至只是普通使用者的群体,他们对这项技术的看法通常就会积极得多。

Greg Brockman:
对我自己来说,我们已经思考这项技术很多年了。而现在我看到的现实展开方式,比我们曾经想象的还要更惊人、更有益,也会带来比我们预期更积极得多的影响。

Alex:
最后一个问题。如果有人问你:我该怎么为未来做准备?那你会怎么回答?

而且这个回答不能只是「去用工具」。因为我身边真的有朋友来问我:「我不知道我的工作会怎么样,不知道这个世界会怎么样,我只想知道现在到底该怎么办。」

Greg Brockman:
我还是觉得,第一件事就是去理解这项技术。我们已经看到,真正从这项技术里得到最多的人,往往是那些带着好奇心去接近它的人。他们会真的把它放进自己的工作流里尝试,会努力跨过最开始那道门槛——也就是面对一个空白输入框时,那种「我到底该拿它做什么」的茫然感。

你要逐渐培养出一种能动感:我可以做管理者;我可以设定方向;我可以委派任务;我可以做监督。而且要真正把这种能力发展出来,因为这会成为一个非常基础的能力。

我们打造这项技术,本来就是为了帮助人类、促进更多人类之间的连接,让人们有更多时间去做自己真正想做的事。所以问题最终会变成:你到底想要什么?而真正重要的,是把这件事想清楚,并借助这项技术去实现它。

Alex:
没错。非常感谢你来到节目。

Greg Brockman:

谢谢邀请。

Alex:
也谢谢大家的收听和观看,我们下期《Big Technology Podcast》再见。

[视频链接]

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.