人类离AGI时代,又近了18个月

人类离AGI时代,又近了18个月

ChatGPT问世18个月之后,行业开始叩问未来——“AGI时代”何时到来?

9月19日,云栖大会“通往AGI的大模型发展之路”圆桌对话现场,阶跃星辰创始人、CEO 姜大昕、月之暗面创始人 杨植麟、清华大学人工智能研究院副院长、生数科技首席科学家朱军以及极客公园创始人张鹏,以从业者和亲历者身份,回顾了过去18个月行业的发展,都提到“AGI加速非常快”。

在姜大昕看来,AGI的演进路线分为“模拟世界” “探索世界” “归纳世界”,对应的产业化应用包括GPT-4o、FSD v12和OpenAI o1,“(它们)在这三个方向上都取得了非常大的突破。”

杨植麟对AGI加速的理解来自两个层面,“智商一直在提升” 、“多模态横向发展”。

而朱军不仅认为AGI的进程在加快,在他看来,AGI的加速表现,也包括解析问题的速度变快,这些得益于从业者对多模态的认知更成熟,以及为算力、基础设施资源准备更充分。

AGI进程加快,离不开开拓者OpenAI的牵引。OpenAI在9月12日发布了新模型o1,Sam Altam说这是“新的范式变革的发生”,行业则认为这是AGI发展的关键一步。

站在从业者视角,o1模型推理能力在具体场景下具备了出色的能力,更重要的是它在数据“枯竭”的背景下,探索了一套“强化学习如何泛化”的方法论,姜大昕说“它带来了Scaling Law新的方向”,杨植麟说“(强化学习)很大程度上解决了AI进一步Scaling、数据从哪里来的问题。”

过去18个月,AGI加速越来越快

“过去的18个月,AGI的加速是非常快的”,阶跃星辰创始人、CEO 姜大昕说。

回看过去的一年,从OpenAI的GPT-4一家独大、遥遥领先,到今年开始除了OpenAI o1之外,Anthropic也推出了Claude 3.5、Google则发布Gemma,以及XAI的Grok 2、Meta的Llama 3先后亮相,大模型出现了群雄并起,你追我赶的趋势。

在这种背景下,大模型的能力和质量也在多线程提升,GPT-4o的多模融合上了一个新台阶,包括图像、视觉、音频等独立的模型融合到一个模型当中,“多模融合一定是有助于我们更好的去为我们的物理世界建模。” 姜大昕说。

姜大昕把AGI的演进路线总结为“模拟世界” “探索世界” “归纳世界”,“过去几个月的时间,我们看到GPT-4o、FSD v12和OpenAI o1分别在这三个方向上都取得了非常大的突破。”

对于过去的18个月的总结,月之暗面Kimi创始人杨植麟答案是“智商一直在提升” “多模态横向发展”。

杨植麟说:“智商一直在提升,如果看竞赛数学能力,可能去年是完全不及格,今年已经能做到90多分” “横向上也产生了很多新的突破,最近有特别多新的产品和技术出来,你可以通过一个论文直接生成基本上看不出来是真是假的双人对话,类似这种不同模态之间的转化、交互和生成是会越来越成熟。”

“大模型今年发生了很多重要变化,我也同意AGI的进程在加快”,清华大学人工智能研究院副院长、生数科技首席科学家朱军说。

在朱军看来,AGI的加速表现也包括解析问题的速度变快,“大家对这种(多模态)路线的认知和准备达到了比较好的程度,还有物理的条件,比如说像云的设施,计算的资源准备,当我们掌握了这些之后,再去做解决的问题,速度是越来越快的。” 

OpenAI o1的意义:强化学习

OpenAI新发布的o1模型,将大模型的推理能力拉到了理科博士的水平。

“它第一次证明了语言模型可以有人脑慢思考的能力,它可以自我反思、纠错,直到找到正确解决问题的途径”,“它还带来了Scaling Law新的方向,o1试图回答强化学习如何泛化。”姜大昕说。

目前在学术界,针对AGI按照能力等级将其划分为L1、L2、L3、L4、L5,其中L1代指聊天机器人、L2则具备深度思考推理能力、L3是数字世界走向物理世界的智能体、L4需要具备发现、创造新知识的能力、L5代表组织者,AI已经具备组织协同能力。

“(OpenAI o1)代表着显著的质变”,朱军说,“o1在L2级别的特定任务下,可以达到人类很高阶的智能水平,确实代表着整个行业的进步。”

对于新的o1模型,外界评论颇为正向,那么内部视角又是如何?Sam Altman将其定义为“新的范式变革的发生”。

“我觉得它的意义很大,它提升了AI的上限,关键就是能不能通过强化学习进一步Scaling”,杨植麟说,“如果我们看AI历史上70-80年的发展,唯一有效的就是Scaling,唯一有效的就是加更多的算力。”

在杨植麟看来,过去GPT-4模型能力是一种确定性的提升,o1则不是确定性的提升。

“之前大家可能担心说互联网上大部分优质数据都被使用完了,也没有更多数据可以挖掘。原来的范式可能会遇到问题,AI要进一步Scaling,数据从哪里来?(强化学习)很大程度上解决了这个问题,或者至少证明了它初步可行” “这样就会越来越多的人投入做这件事情。最终去做到10倍于GPT的效果,完全有可能。” 

创业、投资与下一个18个月

朱啸虎在“中国现实主义AIGC故事”中说,“我信仰AGI、信仰应用,信仰能马上商业化的。”

什么量级数据的产品才能商业化,当创业者转变为投资人,会如何看现在AI项目的数据指标,又是什么样的项目值得被投?

杨植麟的答案是“产品本身价值” “产品增量价值”以及“足够大的市场规模”。

“DAU和留存率肯定是最重要的指标,但作为一个产品,首先是要有价值,这个本质可能跟AI没有太大关系” “ChatGPT之外还会有大量的机会,相比于它要产生增量价值,能做在ChatGPT里面做不了的事情” “要随着技术的发展,这个市场规模越来越大,不是越来越小”,杨植麟说。

过去的18个月,从ChatGPT,到今天o1,不管是应用还是模型,能力项都在不断地拓宽和提升,从业者也基本形成了AGI加速的共识,那么未来的18个月,通用人工智能会走到哪一步?

朱军说,“我们要做(L4级)科学发现和创新,需要的能力目前散落在各个角落,还缺一个系统把这些东西集成在一起。如果激进一点,未来18个月在L4上也会有显著的进展。”

杨植麟则把自己的目标和OpenAI进行了对齐,继续在强化学习这条路上探索Scaling。

“接下来最重要的里程碑,是开放性的强化学习,o1可能一定程度上说明这个方向有比之前更强的确定性,这会是一个重要的里程碑,也是AGI路上现在仅剩唯一一个重要的问题了。”

姜大昕和杨植麟在强化学习上也有共识,不过他还有另外一个期待——“视频理解生成一体化”。“这样就可以彻底建立一个多模的世界模型,可以帮助我们真正的产生非常长的视频,也就是解决Sora目前的技术缺陷。还有,它可以作为机器人的大脑,帮助智能体更好探索物理世界。”

以下为对话实录(在不改变原意的情况下,有删减调整)

张鹏:大家早上好,我是极客公园的张鹏。今天非常荣幸,也非常开心,能有这样的机会来到云栖大会,同时也能够和几位在国内大模型领域的探索者,一起探讨模型技术的进展。

刚才在吴总的演讲中,我相信很多人都感受到了他对大模型和这一波AGI发展的强烈信心,甚至明确指出,这不仅仅是移动互联网的延展,可能是一场对物理世界的全新变革。当然,我觉得我们这个环节可能需要对他的结论进行思维链的解构,第一步就是要看看模型技术的进展如何。在过去的18个月里,和未来的18个月里,有哪些总结和展望?

我们先从对过去的看法开始。ChatGPT的发布引发了全球对AGI的理解,至今也差不多18个月了。不知道各位对此有何感受?模型的发展是在加速,还是在减速?我们都在观察你们这些“打游戏的人”,今天请到“打游戏的人”现场分享。我们请姜大昕来分享一下,你怎么看AGI的发展,是加速还是减速?

姜大昕:我觉得过去18个月的发展是在加速的,速度非常快。

回顾过去18个月发生AI事件时,可以从两个维度来看:一个是数量,一个是质量。从数量上看,几乎每个月都会有新的模型、新的产品和应用涌现。单从模型来看,OpenAI在2月份发布了Sora,5月份推出了GPT-4o,上周又发布了o1。过去一年,我们感觉GPT-4独领风骚,遥遥领先,而到了今年,局面变成了“群雄并起”,你追我赶,所以总体上感觉大家都在提速。

有三件事情给我留下了深刻印象。第一件事情是GPT-4o的发布,它在多模融合领域达到了一个新的台阶。在GPT-4o之前,有GPT-4v,它是视觉理解模型,视觉生成模型,还有声音模型。这些原本孤立的模型,到了GPT-4o这里,都融合到了一起。为什么这种融合非常重要?因为我们的物理世界本身就是多模态的,融合有助于更好地为物理世界建模,模拟这个世界。

第二件事情是特斯拉发布的FSD V12,大家知道它是一个端到端的大模型,可以把感知信号直接转化为控制序列。智能驾驶这个领域非常具有代表性,它是真实应用场景从数字世界走向物理世界的范例。因此,我认为FSD V12的成功不仅在于智能驾驶本身,它的方法论为未来智能设备与大模型结合、探索物理世界指明了方向。

第三件事是o1的发布,它第一次证明了语言模型可以具备“人脑的慢思考”能力,也就是所谓的系统2的能力。系统2能力是理解和归纳世界的基础条件。

我们一直认为AGI的演进路径可以分为模拟世界、探索世界,最后是归纳世界。而过去几个月里,GPT-4o、FSD V12和o1分别在这三个阶段和方向上都取得了很大的突破,也为未来的发展指明了方向。因此,不论从数量还是质量来看,这些进展都非常值得关注。

张鹏:杨植麟,你的感受怎么样?你是投身其中的人,和我们这些“看游戏”的人一定有所不同。

杨植麟:整体来看,确实是处于加速发展的阶段,核心可以从两个维度看AI的发展。

第一个维度是纵向维度,即智商的不断提升。现在主要是文本模型,能力提升明显。比如说去年模型的数学竞赛成绩可能完全不及格,而今年已经能拿到90多分。代码能力方面,模型已经能够击败许多专业的编程选手。

另一个维度是横向发展,除了文本模型之外,其他不同的模态也在发展,这些模态的横向扩展使模型具备了更多的技能,能够完成更多任务。

再来看具体的技术指标,比如语言模型支持的上下文长度,去年这个时间点,许多模型只能支持4到8K,但现在128K已经成为标配。智商的提升和许多优化手段相结合,让AI的发展进一步加速。

横向上,视频生成等新突破不断涌现,比如Sora,它的影响力非常大,完成了视频生成。最近还有很多新的产品和技术涌现,甚至可以通过一篇论文生成看似真实的双人对话等。模态之间的转化、交互和生成变得越来越成熟,整体是在加速过程中。

张鹏:这些技术确实在扩展它们带来的变化和创新。虽然我们还没有看到某个具体的超级应用崛起,但从技术上看,进展非常明显。朱军老师,你怎么总结过去18个月AGI技术的经历?有哪些可总结的进步台阶?

朱军:在AGI的领域,最关注的还是大模型。今年大模型发生了很多重要的变化,我非常同意刚才提到的技术进展在加快。我想补充一点,解析问题的速度也在加快。

回顾一下语言模型的历程,从2018年杨植麟他们开始做,到今年已经走了五六年的路。去年上半年主要关注语言模型,下半年开始讨论多模态,从多模态的理解到多模态的生成,尤其是视频生成技术的发展最为明显。

今年2月份,很多人被技术的快速发展震惊了,甚至开始质疑技术是否完全公开,技术突破是如何实现的,讨论非常多。但事实上,这个行业在用了大约半年的时间后,已经做到了将这些技术投入实际应用,而且效果非常好,尤其是在时空一致性上的表现非常突出。

这次加速的核心原因在于,大家对技术路线的认知和准备达到了比较好的程度。物理条件的成熟也起到了重要作用,比如云设施和计算资源的准备。

与当初ChatGPT推出时相比,当时很多人并没有做好接受这项技术的准备,导致很多时间花在了学习和掌握上。当大家掌握了这些技术后,发现进展的速度越来越快。当然,不同的能力在用户层面的表现可能会有所差异,甚至在不同行业的速度上也存在快慢差异。但从广泛角度来看,技术进展的曲线越来越陡峭。对于未来更高阶AGI的发展,我保持乐观,我认为未来的进展速度将比过去更快。

张鹏:从三位的角度来看,如果有人说AGI的发展变慢了,你们可能一句话就是“你还想要怎样?” 过去18个月的进展已经让每个人目不暇接了。刚刚发布的o1模型也在专业领域引发了广泛讨论。我们正好有机会听听大家的看法。姜大昕,你怎么看待o1?很多人认为这是AGI发展阶段的一个重要进步,你如何理解这个进步?

姜大昕:确实,我看到了一些非共识的声音。有些人认为意义重大,有些人则觉得没什么特别。但如果你实际使用过o1,第一印象就是它的推理能力非常惊艳。我们进行了很多测试,发现它的推理能力确实上了一个新台阶。关于它的意义,我能想到两点。

第一,o1第一次证明了语言模型可以具备人脑的慢思考能力,也就是系统2的能力。系统1是直线型思维,而系统2能够探索不同的路径,自我反思和纠错,不断试错,直到找到正确的答案。之前的GPT-4可以把复杂的问题拆解成多个步骤来解决,但仍然是直线型的。而系统2的区别在于,它能够尝试不同路径。这次o1通过将模仿学习和强化学习结合,使得模型同时具备系统1和系统2的能力,这一点非常重要。

第二,o1带来了Scaling Law的新方向。它尝试回答强化学习如何泛化的问题。强化学习不是新概念,DeepMind从AlphaGo到AlphaFold都走的是强化学习路线,但这些强化学习场景都是为特定领域设计的,比如AlphaGo只能下围棋。而o1的出现则使得强化学习的通用性和泛化能力上了一个新的台阶,且达到了更大规模。所以我认为,o1带来了新的Scaling范式,可以称之为新的Scaling路径。虽然目前它还不算特别成熟,但这恰恰让人觉得兴奋,就像OpenAI在告诉我们,它找到了一个上限非常高的技术路径。如果仔细思考这背后的方法,你会相信这条路是可以走下去的。

因此,从能力上看,o1证明了语言模型可以具备系统2的能力;从技术上看,它带来了新的Scaling范式,这其意义非常重大。

张鹏:听起来虽然有一些非共识的声音,但你对o1是非常看好和认同的。朱军老师,你怎么看待o1带来的进展?你如何评价它的意义?

朱军:我认为o1代表了一个显著的质变。学术界对AGI做了一个分级,从L1到L5。L1是聊天机器人,L2是推理者,能够做复杂问题的深度思考和推理,L3是智能体,可以与数字和物理世界进行交互和改变,L4是创新者,能够发现和创造新的知识,L5是组织者,可以更高效地协同和组织资源。

o1执行L2级任务,已经达到了人类高阶智能水平,从分级的角度来看,它确实是行业的巨大进步。

技术上,正如姜大昕所说,o1结合了强化学习和其他技术,这些技术在研究领域已经有很多尝试,但这次它在大规模模型上的效果得到了验证。这对于行业的工程实现有很大触动,也会激发更多的探索和研发。正如刚才所提到的,我认为进展会非常快,因为我们已经做好了很多准备。我也期待这个领域中,L2的能力将进一步优化,甚至实现更高阶的进展。

张鹏:你对这个进展的定义已经非常高了,认为在L2阶段,AGI已经有了显著的进步和阶段性成果。而之前我们还在L1阶段,未来还要进一步前进,直到实现L3阶段,才能全面系统性地改变物理世界。

这次o1发布后,Sam Altman也称这是一次范式革命。Sam Altman向来擅长演讲和表达,我们想听听你的看法,你如何理解他说的这次范式变革?你是否认同这是一次范式革命?

杨植麟:我觉得它的意义确实很大,主要在于提升了AI的上限。AI的上限指的是你现在是否可以提升5%、10%的生产力,还是10倍于GPT。这其中最关键的问题是,你能不能通过强化学习进一步进行Scaling,这是完全提升AI能力上限的核心。如果我们回顾AI 70-80年的发展历史,唯一真正有效的路径就是Scaling,唯一有效的方式就是增加更多算力。

在o1出现之前,其实已经有很多人在研究强化学习,但当时没有一个非常明确的答案。强化学习如果与大语言模型、以及现在的Pre-Training(预训练)和Post-Training(后训练)整合在一起,能否持续提升?这是一个悬而未决的问题。

比如,GPT-4这一代模型的提升更多是确定性的提升,也就是说我在同样的范式下,通过扩大规模来实现进步。这肯定是会有提升的,但o1的提升并不是完全确定性的提升。所以在此之前,大家会担心,现在互联网上大部分优质数据已经被用完了,继续使用这些数据也无法挖掘出更多东西。因此,原来的范式可能会遇到瓶颈,AI有效的进一步Scaling(扩展)数据到底从哪里来?我认为,o1的出现很大程度上解决了这个问题,或者至少证明了它初步可行。这意味着,会有越来越多的人投入到这项工作中。

最终,要实现10倍于GPT的效果完全是有可能的。我认为这是一个非常重要的开端,而对于许多产业格局以及创业公司来说,这次范式的变化也将带来新的机会。

这里有一个非常关键的点,就是训练和推理算力的占比会发生很大的变化。当然,这并不是说训练的算力会下降,训练的算力可能还会持续提升,但与此同时,推理算力的提升速度可能会更快。这个比例的变化本质上会带来很多新的机会。

这里面将会有很多新的创业公司的机会。如果你是一家已经达到一定算力门槛的公司,你可以在算法的基础创新上做很多工作,甚至可以在基础模型上取得突破。这非常重要。对于算力相对较少的公司,也可以通过后训练的方式,在某些领域做到更好的效果,这也会带来更多产品和技术的机会。整体而言,这次变化打开了很多创业相关的想象空间。

张鹏:这次范式变化的核心在于,在Scaling Law上解决了我们接下来应该Scaling什么样的东西,看到了一条新的路径。你刚才提到的未来扩展的创新路径空间,可探索的东西变多了,而不是一个收缩的、预设的状态。今天三位对o1带来的变化都很兴奋,但这也是大家现在比较关心的问题。

我想问问朱军老师,在强化学习加入这个体系并成为新的范式之后,我们能看到泛化这个能力的明确路径吗?因为就目前来看,o1在局部的能力表现很棒,提升也很明显,但泛化路径明确吗?这个确定性足够吗?

朱军:这个问题很值得思考。o1在每个特定任务上取得突破后,是否可以推动它的泛化或者更广泛的能力提升呢?从强化学习的角度来看,o1的技术实现路径并没有明确告诉我们怎么做到这一点。

张鹏:不像ChatGPT推出时那么开放透明。

朱军:是的,但通过科研的积累和对其方法的解读,我们可以看到它用到了一些技术。

强化学习过程中监督数据的方式和之前的结果监督不同。每一步的思考过程都需要被标注,这类数据的获取非常困难,你需要专业人士生成高价值的数据。同时,在强化学习的实际应用中,特别是在更泛化和开放的场景中,定义Reward Model(奖励模型)并不容易。比如在定理证明或编程中,Reward Model是明确的,因为有正确的答案。

但是在自动驾驶等领域,很多场景下难以清晰界定“好”或“坏”。问题不是简单的对与错,有时是对生成内容、对美学或其他标准的评价,每个人的感受不同,因此在这种情况下,技术的泛化面临很多挑战。我们如何定义Reward Model?如何收集相关数据?此外,还有如何高效实现这些技术。

不过,现在我们已经看到了曙光,大家也开始沿着这个方向努力。再加上更强大的基础设施,比起上一代AlphaGo向其他领域的迁移,泛化的速度可能会更快。我们现在有更好的模拟器,甚至包括AGI生成环境的构建。这些进步结合在一起,让这条路比之前更容易取得效果和提升。这是我对泛化问题的看法。

张鹏:现在还没有一个公开且明确的路径能保证完全实现泛化,但这个过程本身存在很多探索的空间。我再追问一下杨植麟,你怎么看这个状态?对像你这样的创业公司来说,这是好事还是坏事?在你看到这些变化时,心理状态是什么?你会如何分析这个环境?

杨植麟:这是一个非常好的机会。你会发现,新的技术变量和技术维度都出现了,这些变化或多或少已经与我们之前的一些投入相关。现在它变成了一个主题,我们在这个主题下有非常多的新机会。

朱军老师刚才提到了泛化的问题,此外还有一些基础的技术问题没有完全解决,因为底层涉及训练和推理的Scaling,同时在这个过程中也会出现许多性质上的新挑战。

我觉得,今天这些性质还没有被完全探索清楚,包括刚才提到的过程监督问题,过程中的一些幻觉现象可能会对效果造成很大影响。这些都值得研究。但如果能够解决这些问题,AI的能力将会上升一个台阶。对于我们来说,通过这些技术创新可以形成一些突破的机会。

张鹏:不确定性反而是好事,有确定的方向但不确定的路径对创业公司来说可能是一个优势,否则就没有创业公司的空间了。回到姜大昕这边,杨植麟提到的算法、算力、数据这三个因素在AGI领域被视为关键的三角,这次看起来在算法层面有了一些范式变化。反过来看,算力和数据会产生怎样的连锁反应?你能帮我们推理一下吗?

姜大昕:算法、算力、数据的关系是一个铁三角,这个没有改变。强化学习确实是算法上的一个重大变化,带来的结果有确定的、有大概率的,还有不确定的。

确定的就是刚才两位提到的,在推理侧方面,计算需求成倍增加,同时对推理芯片的要求也显著提高。我们可以想象,OpenAI在o1背后使用了H100芯片来做推理,每个问题可能需要耗费十几秒甚至几十秒。如果我们要加快这个过程,对推理芯片的性能要求自然也会提高。

另一个大概率会发生的事情是,训练强化学习阶段所需要的算力可能并不会比预训练少,甚至可能更多。算力需求还会持续增加,尤其是在强化学习阶段生成的数据量可能是没有上限的。我们听说,OpenAI在训练这类模型时用了上万张H100卡片,持续训练了几个月,现在训练还没有完成,这代价是非常高的。因此,如果我们追求的是通用的、能够泛化的推理模型,而不是为某个特定场景设计的强化学习模型,那么所需的算力仍然很大。

在主模型方面,我们也需要考虑是否继续Scaling,提升参数量,带来更好的推理能力。比如,GPT-4已经达到了万亿级参数,如果继续增加参数,边际收益会逐渐下降。但强化学习有可能加倍这些收益,是否可以将总收益再拉正?如果这个推论成立,那么算力的增长又回到了平方维度,计算量将等于参数量乘以数据量。因此,无论是推理端还是训练端,强化学习带来的算力需求都会继续增长。

数据方面,在强化学习中主要有两类数据:一类是少量人工生成的高价值数据,另一类是海量的机器生成数据。数据量可以非常大,但数据的质量同样关键。你如何构建数据生成算法,以及如何使用主模型,这些都非常重要。

张鹏:刚才大家对o1带来的范式变化做了非常好的分析。今天三位都是创业者,正在各自的领域发展并带领团队。我想问一下杨植麟,Kimi在今年引发了大家的关注,发展得非常好。你觉得这波AI的变化,接下来会对AI产品产生什么样的连锁反应?你自己是如何看待这些变化的?它们会如何发生?

杨植麟:这是个很好的问题。目前我们还处于产业发展的早期阶段,有一个特点就是技术驱动产品的比例较大。很多时候,你会根据当前技术的发展情况,最大化地提取它的潜力。所以我认为这个问题非常重要。我们需要根据新的技术进展,重新思考现在的产品能做出什么变化。

当前的技术发展,我觉得有几个关键点。首先,新的PMF(产品市场匹配)机会可能会出现。这在于两个因素的平衡。

第一个因素是,系统2思考的延迟增加,这对用户来说是一种负面体验,因为每个人都希望快速得到结果。第二个因素是,它能够提供更好的输出,甚至能完成更复杂的任务。

因此,新的PMF产生的过程,是要在延迟增加带来的负面用户体验和更高质量的输出之间找到平衡点。你需要确保增量的价值高于用户体验的损失,这一点非常重要。在更高价值的场景,特别是生产力场景中,率先会出现一些应用场景。因为在娱乐类的场景中,用户可能很难接受这种延迟的增加,这是一点很重要的考量。

同时,我认为产品形态也会发生变化。随着思考范式的变化,同步、实时的聊天产品形态在一定范围内也会有所调整。未来的AI不仅仅是思考20秒、几十秒,它可能需要调用各种工具,完成分钟级、小时级,甚至天级别的任务。因此,它可能更像一个真实的助手,帮助你逐步完成任务。产品形态的设计也会随之发生重大变化,所以我认为这里面有非常大的想象空间。

张鹏:我们刚才聊到了o1带来的变化,也看到了AGI领域的其他变化,比如空间智能。今天我们也看到自动驾驶、机器人等具身智能的进展。朱军老师,你怎么看待这些AI相关条线的最新技术进展?它们对未来产品或技术最终落地产业会有怎样的推动?有没有阶段性的总结和观察?

朱军:大模型或者大规模预训练技术还是代表了整个范式的变化。我们讨论了很多,涵盖了从语言到多模态,再到具身智能、空间智能等领域。其实,关键还是在于如何让智能体具备交互和学习能力,这是智能发展的必然方向。决策与交互是智能中非常核心的能力,我们每时每刻都在做决策,面对的始终是未知和开放的环境。因此,在智能的发展路径上,大家都是朝着这一方向努力的。

所有这些进展,包括o1、视频生成、3D等技术,都有两个明确的方向。首先,是面向消费者和数字内容,能够让人们参与其中、讲述故事,并具备交互性。这在数字内容上肯定是非常重要的。其次,是面向实体世界和物理世界的生产力提升,不仅仅是为了展示好看的内容,更是要与物理世界结合。

现在,最好的结合点是机器人。已经有很多成功的例子展示了这一点,我们看到使用预训练范式,机器人的能力具有了通用性。比如,我们在实验室中对四足机器人进行了测试,过去它在不同的环境下需要人工调参,现在通过仿真环境生成合成数据进行大规模训练,训练后的机器人能够适应各种环境,就像更换了一个新的大脑。

这只是一个初步的例子,大家也在关注更复杂的控制和决策问题,比如空间智能。AGI L3阶段是智能体阶段,在经历了L1、L2阶段的进展之后,接下来就是L3阶段,让机器人更好地进行推理规划,并与环境进行高效交互。未来,我们将看到机器人能够接受复杂指令,完成复杂任务,通过内嵌的思维链和过程学习来执行任务,那时智能能力将会有极大的提升。

张鹏:我突然想到一个问题,作为创业公司,尤其像你这样需要投入大量成本来开发基础模型的公司,你觉得过去18个月,尤其是o1的出现,是否对你的心态有了改变?未来创业公司的空间是否更大,机会是否更多?你的心态如何变化,你怎么看待未来技术创业的走向?

姜大昕:从两个角度来看,一个是创新点,强化学习的出现确实与之前的范式不同。之前GPT的范式中并没有什么特别新的东西,但o1仍处于初始阶段。正如刚才两位提到的,强化学习如何与大模型结合并实现泛化,这是一个值得探索的问题。我们在做搜索路径时,是否需要人工路径干预来找到更好的路径?题目从哪里来?答案如何找到?这些都是新的、未知的领域,需要进一步探索。我相信在未来一段时间内,这些探索将加速,也一定会有更多的创新机会。

另一方面,关于算力的挑战,我之前也提到过,无论是推理端还是训练端,我们需要的算力依然非常大,尤其是当我们追求的是通用且能够泛化的推理模型时,所需的算力并不小。正如我们常常调侃得那样,“卡伤感情,没卡没感情,用卡费感情。” 但是,如果我们的目标是AGI,那么无论付出多少代价,都必须坚持下去。

张鹏:之前我们认为,如果按照原有的Scaling Law继续走下去,只有少数玩家能够参与进来。现在,资源门槛是否有所降低?算力方面的竞争是否会持续?你如何整合资源,让计算效率更高?

姜大昕:我觉得可以分为两种不同的创新。一种是基础模型,目标是奔着AGI去,这需要非常大的投入。我们看到国外的巨头每年都有上千亿美金的预算规划。另一方面,还有大量的创新空间集中在应用层面。GPT-4所展示的智能已经在处理数字世界和物理世界的问题上取得了进展。现在,o1又将强化学习泛化到了更高的层次,正如杨植麟所说,它的上限变得更高了,因此,创新机会仍然很多。

张鹏:我再问问杨植麟,你目前有C端产品,最近很多投资人都在看DAU、留存率等指标,来决定是否投资一家公司。如果你站在投资人的角度,作为一位对AI了解的技术背景投资者,你会看哪些数据来做出投资决策?

杨植麟:这是一个很好的问题。首先,DAU和留存率等数据肯定是重要的指标,但我会分成几个层面来看。第一个层面是产品是否有价值,是否满足了用户的真实需求。这个与AI无关,它是产品本身的基本属性。比如留存率就是一个前置的指标。第二个层面与AI更相关,不仅要有价值,还要有增量价值。相比市面上已有的AI产品,或者像通用的ChatGPT,你的产品需要能够产生增量价值,提供ChatGPT做不到的,或者做起来体验不好的功能,这才是增量价值。这种增量价值可能来自交互的不同,或者不同的入口,也有可能是背后对应的不同资源。因此,通过这种方式产生增量价值是非常重要的。

第三,不仅要有增量价值,还需要随着技术的发展,市场规模能够越来越大,而不是逐渐缩小。如果你专门研究某个非常细分的领域,未来可能面临需求减少的风险。但如果你现在已经能够产生一定的PMF(产品市场匹配),而且还有扩展到更大市场的潜力,那么这就是一个很好的创业机会。

张鹏:听起来数据是需要看的,但在数据之前,产品的逻辑要成立,如果逻辑成立,数据就能证明这个产品是值得投资的。

杨植麟:对。

张鹏:我还有一个问题,虽然预料未来总是很难,但我想知道,未来18个月你期待看到什么样的进展?你觉得会有哪些令人兴奋的变化?

朱军:现在的技术进展速度很快,很多时候我们对未来的预测其实都过于保守。回到你的问题,我预计未来18个月里,L3智能体的进展将非常令人兴奋。比如世界模型的创建和生成、虚实融合,尤其是在特定场景下决策能力的提升。它会利用推理、感知等能力来取得突破。与此同时,最近我在分析L4相关的科学发现和创新能力。我们发现,许多能力是分散在各个角落的,仍然缺乏一个能够将这些能力集成在一起的系统。

如果更激进一点,我认为L4在未来18个月内也会有显著的进展,特别是在科学发现和创新领域。L4还包括创意表达,比如艺术创作、视频生成等,它们能够放大大家的想象力,帮助我们将抽象的想法具象化。因此,我认为未来L3和L4都会有一些突破的苗头。

张鹏:到年底前,你有哪些值得期待的进展,能提前透露吗?

朱军:到年底前,我希望我们的视频模型能够更高效、更可控地为大家所用。高效意味着更低的算力成本,能够服务更多的用户;可控意味着用户能够持续表达自己的创意,进行多次交互,不断启发自己,最终目标是实现实时生成。这样一来,用户体验和用户量都会有巨大的提升,这是我今年重点要突破的方向。长远来看,未来18个月我们将进入虚实融合的场景。

张鹏:杨植麟呢?你未来18个月,或者未来三个月有什么进展可以分享吗?

杨植麟:接下来的重要里程碑是开放性的强化学习,能够在产品上与用户交互,在真实环境中完成任务并自我进化。o1一定程度上证明了这个方向的确定性,它是AGI路上剩下的唯一关键问题,这个问题非常重要。

张鹏:你期待未来18个月内,能够在这个问题上取得明确的突破和进展?

杨植麟:是的,AI领域的18个月已经足够长了,会有很多进展。

姜大昕:我非常期待强化学习能够进一步泛化。另一个方向是视觉领域,虽然我们期待已久,但在视频生成上仍然面临很大挑战。到目前为止,视觉理解和生成模型还是分开的。GPT-4在解决了很多问题后,唯独不能生成视频。如果我们能够解决视频生成和理解一体化的问题,就可以建立一个完整的多模态世界模型,帮助我们生成非常长的视频,并解决Sora目前的技术难题。此外,这一技术还能作为机器人的大脑,帮助智能体更好地探索物理世界,这是我非常期待的。

本文来自微信公众号“腾讯科技”,作者:苏扬 周小燕 李安琪,36氪经授权发布。