文| 周鑫雨、邓咏仪
整理 | 王欣逸、魏宁
编辑|苏建勋
2026年1月10日,在由清华大学基础模型北京市重点实验室、智谱AI发起的AGI-Next前沿峰会上,当下中国大模型最重要的四位主力,罕见地聚在了一起:
刚刚在1月8日顺利登陆港股,同时也是这场闭门会主办方的智谱,其创始人兼首席科学家唐杰是现场第一个分享嘉宾。
不久前官宣加入腾讯的姚顺雨,第一次出现在公共场合中。在腾讯近期完成关键的一次模型团队重组之后,这名前OpenAI研究员,出任CEO办公室首席科学家。
和姚顺雨同属大厂战队的,是阿里Qwen技术负责人林俊旸,阿里历史上最年轻的P10。他背后的阿里通义实验室,目前开源模型的衍生数量和下载量,已经位列全球开源模型第一。
闭门会上的另一股重要力量,是近期处在舆论焦点的六小虎。现身闭门会的月之暗面CEO杨植麟,最近刚刚官宣了新一轮5亿美元的融资。
如果说2025年,中国乃至世界AI形成的最大共识是什么,必然有一条是——基础模型的能力高低,决定着接下来多场竞争的输赢:能否成为下一个超级入口、下一个伟大公司……
闭门会的四位主角,背后公司阶段、业务模式各异,但2025年来一系列动作,都有一个共同主题:稳固基模第一梯队的地位,同时让模型驱动业务的发展。
一年以前,以DeepSeek的横空出世为节点,中国大模型靠快节奏的迭代、持续的开源接力,在国际上获得了不错的声量。
但在会上,唐杰向中国开发者泼了一点冷水:“美国和中国大模型之间的差距,说不定并没有缩小,因为美国还有大量闭源模型没有开源。”
AGI的下一代路线到底要往何处去?几位嘉宾对下一阶段AGI的范式定义,并不相同,这也决定了他们探索路线的差异。
在唐杰看来,DeepSeek出现后,对Chat(对话)这一范式的探索已经基本结束了。后DeepSeek时代的模型训练范式,他形容智谱“bet(赌)”了Coding和Reasoning——集推理、Agentic、Coding能力于一体的GLM-4.5,是他们押注的一个成功成果。
对“Scaling Law信徒”杨植麟而言,下一阶段,Scaling仍然是重点。但新的变化是,Scaling不仅仅意味着堆算力,而是在架构、优化器、数据层面做技术改进,目的是为了让模型,拥有更好的“Taste”:“Taste是我们很相信的东西,模型的智能会产生很多不同的Taste——这让模型不会趋同。”
下一阶段,AI的自主学习,则是四位嘉宾共同看好的方向。
不过,大家的一个共识是,随着AGI探索范式的变化,制定一个衡量模型智力的新标准,会非常重要。
杨植麟定义的AI智力水平,是Token效率(Token Efficiency)和长文本(Long Context)的结合:“这意味着在不同的Context长度下,你的模型优势有多大。”
唐杰也有类似的看法。他观察到,如今疯狂的RL、Scaling,收益已经大不如从前。因此,他定义了一个衡量智力水平的新范式,Intelligence Efficiency,用于衡量模型投入和智力收益的ROI。
实际上,驱动不同AI探索范式的,更多是彼此的目标选择:到底是追求模型的智力顶峰,还是注重落地?这决定着模型的训练策略——是垂直整合,还是分化训练。
在这个问题上,两位大厂代表林俊旸、姚顺雨都有共识:未来,ToC和ToB的分化会越来越明显,而AGI的本质,是服务真实的人类场景。
姚顺雨认为,To C场景下,垂直整合是成立的——不管是豆包还是ChatGPT,模型和产品必须强耦合迭代,才能做出好的用户体验。但To B场景恰恰相反:模型公司专注把模型做强,应用公司则追求用最强的模型来提升生产力,两者是分化的。
林俊旸则更愿意相信,这种分化是自然发生的。“公司没有那么多基因之分,ToB、ToC都是服务真实人类。”他提到,Anthropic不是因为Coding特别厉害才成功,而是因为频繁和企业客户交流,发现了真实需求——如今,美国的API消耗量中,Coding占据了绝对主导。
以下为AGI-Next圆桌对话内容整理,经《智能涌现》编辑整理:
李广密:顺雨,你能展开聊聊对模型分化这个主题的想法吗?
硅谷在分化,中国模型也在开源。比如Anthropic做了Coding,Google Gemini就没有全都做,而是先把全模态这个点做得很好,你的老东家(OpenAI)在重点做To C。你自己的经历横跨中美,体感是怎样的?
姚顺雨:我有两个大的感受。第一,科技整合这条路,以及就是模型和应用分层的这条路,也开始出现了分化。
我先说下To C和To B的分化。当大家想到AI的Super App,现在就是两个:ChatGPT和Claude,可以认为是To C和To B的典范。很有意思的是,我们今天用ChatGPT的感受,和去年相比,对大部分人来说变化已没有那么强烈了。
但相反,一年前Coding的革命还没开始,这一年,夸张点说,Claude已经在重塑整个计算机行业的做事方式,人不再是写代码,而是用英语和电脑交流。
核心在于,对To C来说,大部分人大部分时候其实不需要用到这么强的智能。可能模型写抽象代数的能力变强了,但多数人感受不到,大家更多还是把它当作一个搜索引擎的加强版。
但在To B,智能越高,就代表生产力越高,能赚的钱越多。
还有一个明显的点,To B市场很多人愿意为最强的模型付溢价。一个模型200美元/月,次强的50美元/月,很多美国人愿意花这个溢价,因为这能帮他提升工作效率。一个像OpenAI 4.5这样非常强的模型,可能10个任务直接做对八九个,差一点的模型可能只做对五六个。那额外的问题就是说,你还得花额外精力去监控,你不知道这五六个是哪五六个。
所以,我发现了一个很有意思的现象是,在To B市场,强模型和弱模型的分化会越来越明显。
第二点观察是,垂直整合和模型应用分层的分化。过去大家认为,有垂直整合能力会做得更好,但今天不一定。模型层和应用层需要的能力不一样,对To B生产力场景来说,更大的预训练模型是关键,而这对产品公司来说很难做。
反过来,要把一个好模型用好,或者说模型有溢出的能力,也需要在应用侧和环境侧做很多事。
我们会发现,在ToC应用上,垂直整合是成立的。无论是ChatGPT还是豆包,模型和产品都是强耦合、紧密迭代的。
但对To B来说,趋势似乎是相反的:模型公司专注把模型做得越来越强;同样地,而应用层则想去利用最好的模型赋能不同的生产力环节。
李广密:你近期有了新身份,在中国市场,你理想的bet(押注)是什么?有哪些鲜明的这个特点或者关键词,可以给大家分享的吗?
姚顺雨:腾讯是一个To C基因更强的公司,我们会思考如何让大模型给用户提供更多价值。我们发现,很多时候To C的瓶颈(bottleneck)不是更大的模型或更强的强化学习,而是额外的上下文(context)和环境(environment)。
我常举一个例子,你问模型“我今天该吃什么”,无论去年还是今年问ChatGPT,结果可能都很差。
这个问题想变好,需要的不是更强的模型或搜索引擎,而是更多的额外输入。模型如果知道今天很冷,我想吃点暖和的;知道我老婆在另一个地方,她想吃什么……有了这些context(上下文),回答的质量就会完全不同。
比如,我们可以把微信聊天记录转发给元宝,给模型更多有用的输入,这会给用户带来很多额外价值。
至于To B,在中国确实是很难的事情,很多做Coding Agent的公司其实也是要去打海外市场。这方面,我们会思考怎么把自己先服务好。
大公司做Coding和创业公司的一个区别是,大公司本身就有各种各样的应用场景和提升生产力的需求。如果我们的模型能在这些内部场景做得更好,不仅模型会有独特优势,公司能更好发展,更重要的一点是,能捕捉到真实世界里更多样化(diverse)的场景数据。
像Anthropic、OpenAI是创业公司,他们需要找数据厂商去标数据,但数据厂商能招的人、能想到的场景总是有限的,多样性会受限。
但如果你是一个10万人的公司,就可能有很多有意思的尝试,去真的把真实世界的数据利用好,而不是仅仅依赖标注商或蒸馏(distillation)。
李广密:俊旸,你怎么看接下来千问的生态位?
林俊旸:公司也不一定有那么多基因之分,可能被一代一代的人塑造。比如顺雨到了腾讯之后,腾讯可能变成一个有顺雨基因的公司(笑)。
今天To B 和 To C 都是在服务真实的人类。所以这个问题本质是:应该怎么让人类世界会变得更好?就算To C的产品,也会再分化,比如更偏向medical(医疗),更偏向law(法律)。
我愿意相信Anthropic(能做得更好),不是因为它Coding很厉害,而是因为他们跟B端的交流非常多。我跟美国很多API厂商交流,他们都没想到,Coding的Token消耗量居然会这么大,在中国,Coding的Token消耗其实还没有那么大。
今天Anthropic更多在做跟finance相关的一些东西,这也是他们在跟客户的交流中看到的机会。
所以大家的分化可能是自然的分化。我更愿意相信AGI,然后顺其自然。
李广密:杨强老师怎么看分化的问题?
杨强:一直以来,学术界是观望者,工业界在领头往前疯跑,导致现在很多学术界的人也在做工业界的事。
这是一件好事。天体物理学刚开始的时候,以观测为主,然后才出现理论。当有众多的大模型进入稳态的时候,学术界应该跟上来。
学术界要解决的,就是工业界可还没来得及解决的一些问题,比如智能上限在哪里?给你一定的资源,你能做到多好?更细一点,资源怎么分配?哪些分配在训练上,哪些分配在推理上?
九十年代初我就做过一个小实验,如果在记忆上有一定的投入,记忆能够在多少程度上帮助推理?这个帮助会不会变成反向的?记忆太多会不会反而成为噪音?有没有一个平衡点?这些方法论上的问题今天还是适用。
我最近也在想另外一个问题。计算机有一个重要的定理,叫“哥德尔的不完备定理”,大概的意思是一个系统(大模型)是不能自证清白的,它必定有一些不可消灭的幻觉。
所以问题就来了:多少资源能换取多少幻觉的降低?或者错误率的降低?中间是有一个平衡点的。这个平衡点特别像经济学中风险和收益的平衡,也叫“无免费午餐定理”。
这些问题特别适合学术界和工业界一起来做研究。
刚才唐杰老师也提到持续学习,它里面有时间的概念,大模型在持续学的过程当中,怎么样保证学习能力不下降?
人类有一个方法是:睡觉。我建议大家去看一本书,叫《我们为什么睡觉》,是MIT的两个教授写的,里面提到每天晚上睡觉,其实是在清理噪音,使得第二天学习的准确率持续的提升,不至于是两个错误率的叠加。
这些理论的研究,孕育着新的计算模式。我们今天可能比较关注Transformer Agent Computing。但是有必要去做一些新的探索,工业界和学术界要拉齐。
李广密:智谱今天更像是走了Anthropic的路线,Coding非常强。唐杰老师对分化这个主题有什么看法?
唐杰:2023年,我们是第一个做出Chat(对话)系统的,所以当时我们第一个想法,就是赶紧把Chat上线了。但等2023年8、9月上线时,十来个大模型都一起上线了,而且每一家用户都没有那么多。
当然今天(用户)分化得更严重。后来,经过一年的思考,原因在于,Chat不是在真的解决问题。在我们原来的预判中,Chat会替代搜索。到今天,我相信很多人开始用模型替代搜索,但是并没有替代谷歌。谷歌反过来把自己的搜索革命了。
在这个角度上,Chat的仗,自从DeepSeek 出来后,已经结束了。我们应该思考的是下一个Bet是什么。(2025年)年初的时候,我们团队争论了好久,决定bet on(押注)Coding,后来我们就把所有的精力放在Coding 上。
李广密:Bet是一个特别有意思的事。我的感受是,过去一年中国不仅开源很强,而且大家有了自己的Bet(押注),而且接下来有可能分化。因为大家不只是在追求通用能力,同时都有自己的资源禀赋,把擅长的点做得更好。
今天,预训练已经过去了三年,RL也成了共识,硅谷都在讨论接下来新的一个范式,自主学习。
顺雨在OpenAI待过,OpenAI推进了Transform和RL两个范式。对下一个范式,你是怎么思考的?
姚顺雨:现在自主学习是一个非常热门的词,硅谷大街小巷咖啡馆里面,大家都在谈论,形成了一个共识。
根据我的观察,每个人对这个东西的定义和看法都不一样,我讲两点:
第一,自主学习不是方法论,而是数据或者任务。自主学习到底在什么样的场景下,基于什么样的奖励函数去做?你在聊天的时候,变得越来越个性化,是一种自主学习;写代码的时候,越来越熟悉每个公司独特的环境或者文档,也是一种自主学习;你探索新的科学,在这个过程中从了解有机化学是什么,到成为这个领域的专家,也是一种自主学习。
每一种自主学习的挑战,或者说方法论都不太一样。
第二,我不知道这个现象是不是非共识,但这已经发生了。ChatGPT已经在利用用户的数据不断弥合人聊天的风格,这是不是一种自我学习?今天Claude这个项目95%的代码,已经是Claude自己写的了,它在帮助自己变得更好,这是不是一种自我学习?
2022年、2023年,我去硅谷宣传工作。我当时写了第一页slide,是说AGI最重要的点是自主学习。AI系统本质上都有两部分,首先它是一个模型,其次它有个代码库,你怎么去用这个模型?是用来做推理,还是做Agent?都有相应的代码库。
我们今天看Claude这个系统本质上有两部分,一部分是部署环境的代码,另一部分是操作有一大堆代码。这些自主学习的例子,可能还局限在每一个特定的场景下,没有让人感觉到非常大的威力。
我个人的看法是,自主学习更像是渐变,不是突变。
李广密:你觉得在2026年,自主学习可以看到哪些信号?还有哪些实际的问题要突破?
姚顺雨:很多人说2026年看到自主学习的信号,2025年就看到信号了,Cursor每几个小时都会用最新的用户数据去进行学习,包括新的模型,也在使用这些真实环境下的数据去训练。
大家觉得这些进展还没有特别石破天惊,是因为受限于他们没有预训练能力,他们的模型效果确实还不如OpenAI,但显然这是一个自主学习的信号。
最大的问题是想象力。我们很容易想象,强化学习或者推理范式��果实现,大概是什么样。我们可以想象OpenAI o1,在数学题上本来是10分,现在变成了80分。通过强化学习,o1能够有非常强的思维链去做数学题。
如果2026年或者2027年,一个新的模型或者新的系统实现了自我学习,我们应该用什么样的任务,它应该是什么样的效果,让你相信它实现了。它是一个赚钱的交易系统?还是解决了人类之前没法解决的科学问题?我们可能需要先想象到它长什么样。
李广密:OpenAI已经有两次范式的这个创新了,你觉得如果26、27年有新的范式出来,全球范围内,你感觉哪一家公司继续lead这个范式创新的概率最大?
姚顺雨:可能OpenAI概率更大。但是因为它商业化等各种变化,它的创新基因已经被削弱了。但它可能还是最有可能诞生新范式的地方。
林俊旸:从更实际的角度讲,RL这个范式也还在早期阶段,RL的compute还没有scale的那么的充分,很多潜力没发挥出来,我们也能看到很多Infra的问题发生。
但全球范围内,类似的这个问题也都还存在。
关于下一代的范式,我觉得一个是自主学习,之前跟一个朋友聊到,就说“人类不能让AI变得更厉害”,比如说你跟AI 不断交互,只会让它上下文变得越来越长,然后 AI 变得越来越笨。这是一个很烦人的事情。
Test-time scaling(测试时扩展)能否真正发生,吐更多token然后变得更强,这值得我们思考。我至少觉得o系列它一定程度上实现了这个事情,有没有可能今天大家做超越的事情很难,但可能通过Coding去实现。
今天大家去做那种 AI scientist 这个事情其实还挺有意义的,因为你在挑战一些很难的,甚至是做人类未曾做到的这个事情,有没有可能通过三天的去进行实现?
从这个角度上来说的话呢,AI 肯定是需要这个自主进化的,但究竟你是不是要更新参数?这个见仁见智,可能大家都有不同的这个技术手段去实现这个事情。
第二点是,AI有没有可能实现更强的主动性。现在AI必须由人类去prompt才能启动,未来有没有可能环境就能prompt它,让它自己自主思考去做事?
但这里引发了一个新的问题,就是安全的问题。我非常担心的不是AI讲一些不该说的话。最担心的事情是他做一些不该做的事,就比如说他今天主动的产生一个想法,往这个会场里边扔一颗炸弹,这种事情。我们肯定是不希望这些不安全的这个事情发生,但就像培养小孩一样,我们可能要给他注入一些正确的这个方向。但主动学习可能是挺重要的一个范式。
李广密:是的,那个俊旸又提了一个(AI学习的)主动性,主动性可能是26年非常关键的一个bet。
如果自主学习26年看到信号,你感觉可能是在哪些任务上会先看到?是模型会训练模型,最强的模型可以提升自己了?还是说会有自动化的 AI 研究员了?
林俊旸:我觉得自动化的, AI研究员甚至都不是那么需要自主学习。未来可能很快,AI训练AI 这件事情就可以实现。
我看着我们的同学每天在干的事情,就觉得很快能把他们替代掉。但可能是更持续的理解用户这件事情,比如个性化就挺重要的,过往在做推荐系统的时候,用户信息是持续的输入,会让你整个系统变得更强。
但是在 AI 覆盖到人类生活方方面面的时候,真正的个性化的衡量指标是什么?我们其实不太知道。所以更大的技术挑战是说,我们今天的evaluation不知道该怎么做。
李广密:如果实现“记忆”,会是2026年实现技术突破的跨越吗?
林俊旸:我个人观点,大量的所谓技术突破,性的话都是一些观测问题,它其实都是在线性的发展,只是人类对它这个感受非常的强烈而已。包括像 ChatGPT 的出现,其实对我们做大模型的来说,都属于线性增长。
现在做Memory的技术方案对不对?很多方案也没有什么对错之分,但是做出来这个效果,至少我拿我们自己这个献个丑。就是我们自己的 memory,它看起来好像知道我过去干什么,但只是记住了过去的事情,并不显得很聪明。
但memory 到某一个这个临界点的时候,会不会真的像生活中的人一样,或者像《Her》那部电影,通过理解你的memory,知道人类的感受,多多少少还需要一年时间了。
很多时候其实技术也没有发展那么快,只是大家比较卷,觉得每天都有新东西,但其实技术就是在线性的发展,
每天看我们做得事情,真挺土的,那些Bug真不好意思拿出来跟大家讲。如果这么做,我们已经做到这样的成绩,可能未来算法infra结合得更好后,会更大有可为。
李广密:有请杨强老师。
杨强:我一直以来是做这个联邦学习的,联邦学习的主要思想就是说多个中心,大家协作。我现在越来越多地看到,很多就是有本地资源不足,但是本地的数据又有很多隐私和安全的要求。
我们就可以想象,现在大模型的能力越来越强,通用大模型和本地的这种特殊性小模型,或者是领域专家的模型,如何协作?
这种协作变得越来越可能,像美国Zoom,就是黄学东他们做的AI系统,他做了一个很大的基座,这个基座大家都可以插进来,它可以在Decentralise(去中心化)的状态下,能够既保护隐私,又能够和通用大模型有效地沟通、协作。
这种开源模式特别好,一个是知识的开源,一个是Code方面的开源,模型阶段。尤其是像医疗、金融这样的场景下,会越来越多看到这样的现象发生。
李广密:有请唐老师。
唐杰:持续学习、Memory,甚至多模态,都有可能出现新的范式变革。
为什么会产生这样的范式?原来其实工业界跑得远远快于学术界。我记得去年和前年回到清华,很多老师卡的数量几乎为零。工业界有1万片,学校是0片或者1片,倍数是1万次。
但是现在,很多学校已经有很多卡了,而且很多老师已经做了很多大模型的相关研究,包括硅谷那边,有很多老师都开始做模型架构、持续学习相关的研究。原来我们总觉得工业界在dominating这些,2025年底到2026年初的时候,这一现象已经不大存在了。
学校和工业界之间可能还有10倍的差,但它已经孵化出种子了。第一,学术界有创新的基因。
第二,一个创新的出现,一定是因为对某件事有大量的投入,并且efficiency出现了瓶颈。现在大模型已经投入巨大,但是efficiency并不高。
现在继续Scaling肯定有收益,2025年初可能需要10个T的数据,现在需要30个T,甚至我们可以Scaling到100个T,但是Scaling后,你的收益有多少?计算成本有多少?如果你不创新,花掉10个亿、花掉了20个亿,但收益很小,就不值得了。
另外一方面,对于新的智能创新,假如说我们每一次都要重训一个基座,重训RL,收益效率会变小。
未来我们也许可以定义一个衡量收益的新范式,一方面既然要提升智能的上限,最笨的办法就是Scaling。另一方面,应该定义Intelligence efficiency,智能的效率,用更少的Scaling,获得同样智能的提升。
所以2026年范式的改变一定会发生,我们也在努力,希望这个变化发生在我们身上。
李广密:我跟唐老师一样也非常乐观,每个领先的模型公司,每年的计算量有10倍左右,大家手上的计算资源多了,而且人才也涌入得越来越多,大家手上的卡变多,可能就是某个试验工程,某个点就出来了。
大家对2026年Agent有一个很大预期,就是它能自动化人类一周到两周的工作量,而不再是一个工具,这可能是Agent创造经济价值的关键一年。
硅谷的几个公司,都是从模型到AGI,端到端都做了。顺雨,你花了很多时间做Agent的研究,2026年,Agent真的能帮人类自动化1-2周的工作吗?从模型公司的出发点,你怎么思考这个问题?
姚顺雨:To B和To C可能不太一样。To B方面,Agent正处在不断上升的曲线上,目前没有变慢的趋势。
Anthropic这个公司很有意思,它不做什么花哨的创新,就是把预训练做大,把RL做好,然后去解决真实世界的任务,模型就会越来越聪明,带来更多价值。做To B,其实所有目标是更一致的:模型智能越高,解决任务越多,带来的收入越大。
这和To C不同。OpenAI做To C的问题我们都知道,ToC的DAU和模型智能,很多时候是不相关的,甚至有相反的关系。
这个是Anthropic能够聚焦的另一个很重要原因:只要真的把模型越做越好。那他的收入越来越高,所有事情全部都是非常 align(协同)的。
目前除了模型本身,还有两个瓶颈。一个是环境和部署(Deployment)问题。
在 OpenAI 之前,我在一个To B的客服公司实习过,还是有很多收获。即使今天模型不再变好,只要把现有模型部署到世界上各种各样的公司,可能就能带来今天10倍或100倍的收益,对GDP产生5%-10%的影响,但今天,它对 GDP 的影响还远远不到1%。
另一非常重要的是教育。人和人的差距在拉大,不是AI替代了人,而是会用AI工具的人替代了不会用的人。
就像当年电脑刚被发明出来,你如果去转身去学习编程,你还在使用计算尺,在使用使用算法呢,那那是差异巨大的。
可能今天中国能做的一个最大的,有意义的事情,其实就是更好的教育,就教大家怎么更好的去使用像Claude的或者或者ChatGPT这样的产品。当然,Claude可能在中国用不了,但是我们可以用kimi或者智谱这样国产的模型。
李广密:俊旸,千问也有一个生态嘛,做Agent的,以及扶持生态的通用Agent的对比,你可以分享下吗?
林俊旸:这里可能涉及产品哲学的问题。当然,Manus这样的产品确实很成功,套壳是不是未来,确实是个问题。
我比较同意“模型即产品”这个观点。我跟一些TML(Thinking Machine Lab)的人聊,他们有个观点是Researcher is Product。很多researcher自己就能成为产品经理,端到端把东西做起来。
今天我们自己内部的 researcher,都想做更多面向真实世界的一些东西。
我相信接下来的Agent,是可以做到刚刚所说的这些事情,跟刚刚提的self-involvement、主动学习都有强关系。
比如说他能干这么长这个时间,他其实自己就得在这个过程当中进化,并且他还要决定去干什么。
因为他收到的这个指令是一个非常 general 的一个任务,所以我们现在的 agent ,其实已经开始越来越像是那种托管式的 agent, 而不是说我我要不断来回交互的形式,这对模型能力要求很高,比如说模型就是这个 agent,agent 就是这个产品本身。如果他们都是这个一体化的话。
从这个角度上来说的话,如果不断提升模型能力的这个上限,包括 Test Time Scaling 做上去的话。他确实能够做到这个事情。
还有一个点是环境交互。
我们现在交互的都还是电脑环境,不够复杂。我有朋友是做AI for science的,比如你干AlphaFold的事情,制药,你就算用今天的AI,可能帮不到你那么到,因为你要做实验,你不能只在电脑里做,要去指挥机器人做实验才能得到反馈。
按照现在这个人类的这个效率,其实其实非常低的,我们甚至还要雇佣很多外包,在这个这个实验环境里面去做实验。
如果AI能和真实物理世界交互,那才是我想象中Agent能做长时间工作的情景,而不是说仅仅是在电脑当中。
一些在电脑环境里做的,我觉得可能今年很快就可以完成,但接下来三到五年,要完成的Agent任务可能和具身智能会结合起来,这会更有意思一点。
李广密:我想追问一个更尖锐的问题,从你的角度看来,通用的 Agent 这个机会是创业者的吗?
林俊旸:我不能因为我做基础模型,我就去做这个创业导师。我只能借这个成功人士的那句话吧,Peak(Manus联合创始人)说,通用Agent最有意思的事情在于解决长尾问题,或者是说今天 AI 更大的魅力是在长尾。
头部的问题其实很容易解决,当年做推荐的时候呢,其实我们就看到,那个推荐其实非常的集中,商品都是在这个头部,但我们其实是想把尾部这个东西推过去,但是我当时做就非常的遭殃。
我作为一个干 NLP 和多模态的人,去干这个解马太效应,基本上是这个奔着死路去的。我觉得今天的所谓的 AGI 其实就在解这个问题。
一个用户,寻遍各处我都找不到能够帮我解这个问题的。但就在那一刻,我感受到了AI 的能力,就是全世界任何一个角落,我寻遍各处都找不到,但是你却能帮我解决。可能这就是AI最大的魅力。
要不要做通用Agent呢?如果你是“套壳”高手,套得比模型公司还好,那可以去做。但如果没有这个信心,这个问题可能还是留给模型公司自己做。因为他们遇到问题时,只要训一训模型、烧一烧卡,可能问题就解决了,所以见仁见智吧。
李广密:其实解决长尾的问题,模型公司就说算力加数据,好像你解决起来也挺快的,对吧。
林俊旸:今天RL(强化学习)最有意思的这个地方,是我们发现修问题比以前容易,以前以前修问题很难。
我举一个 B 端客户的一个情况,他们说我们自己要做 SFT(监督微调)。你能不能告诉我这个通用数据怎么配比?每次我们都很头痛,因为我们觉得对方不太会做 SFT(监督微调),他那个数据其实不好,但他可能觉得他的数据有用。
那今天有了 RL(强化学习) 之后,你可能真的很很小的一个数据点,甚至你都不需要这个标注,你只要有这个 query 有这个 reward(奖励函数)这个东西稍微训一训,然后合并起来其实也也非常容易。
杨强:我觉得Agent的出现应该有四个阶段,取决于目标和规划是由人定义还是AI自动定义。
我们现在处在最初级的阶段:目标是人定义的,规划也是人做的。所以现在的Agent 的definition(定义)、这些软件系统,基本上是更高级的Prompt language。
我预料的未来会出现,大模型会观察人的工作,把人的过程数据利用起来,最终实现目标和规划都由大模型来定义,Agent应该是由大模型内生的一个系统。
李广密:有请唐杰老师。
唐杰:有几个方面决定了Agent未来的走势:
第一,Agent本身有没有解决人类的事情,而这个事情是不是有价值,价值有多大?
比如说,原来的Agent,像GPTs出来也做了很多Agent,再那时候你会发现那个Agent非常简单,最后发现prompt就解决了,这时候大部分Agent慢慢就死掉了。
所以,第一个是解决Agent这个事情多有价值,以及真的能够帮到人。
第二,做这个事情咱们Cost有多大。如果Cost的特别大,这个时候也是一个问题,就像刚才俊旸说的,也许调用一个API就能把这个问题解决了。
但是反过来,假如调API就能解决,这个API本身有可能觉得当这件事情价值很大的时候,就会把它做进去,这是个矛盾,非常矛盾,基座的应用永远是矛盾。
最后,做应用的速度。如果说我有个时间窗,能够拉开半年的时间窗,迅速把这个应用满足了,半年以后,要么迭代,要么怎么接,怎么能往前走也是一个方面。
大模型到现在更多的是在拼速度、拼时间,也许我们代码正确了,也许我们就会在这方面走的更远一点,但也许失败以后就半年,半年就没了,今年我们只是在Coding,在Agent这一块做了一点点,现在我们Coding的调用量都还不错,更多的也是一个方向,做Agent未来也是一个方向。
李广密:多谢,因为过去模型公司既要追通用能力,可能它的优先级上没有花那么多精力去探索,通用能力追上来之后,我们更多地期待2026年智谱、千问有更多自己的Claude时刻,和Memory时刻,这是非常值得去预期的。
第四个问题,也是需要展望未来,我挺想问,在三年和五年以后,全球最领先的AI公司是中国团队的概率有多大,从今天的跟随者变成未来的引领者,需要哪些关键条件?
顺雨经历过硅谷跟中国的市场,你对概率的判断和需要哪些关键条件的判断是怎么样的?
姚顺雨:概率还挺高的,我还是挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。
我觉得可能有几个比较关键的点,一个可能是中国的光刻机到底能不能突破,如果最终算力变成了Bottleneck(瓶颈),我们能不能解决算力问题,目前看起来,我们有很好的电力优势,有很好的基础设施的优势。
主要的瓶颈,一个是产能,包括光刻机,以及软件生态,对这个问题解决会是很大的帮助。
另一个问题,除了To C之外,能不能有更成熟或者更好的To B的市场,或者有没有机会在国际的商业环境竞争。今天我们看到很多做生产力或者做To B的模型或者应用,还是会诞生在美国,因为支付意愿更强,文化更好。
今天在国内做这个事情很难,所以大家都会选择出海或者国际化的事情,这两个是比较大的客观上的因素。
更重要的是主观上的概念,最近我在跟很多人聊天,我们的感受是在中国有非常多非常强的人才,任何一个事情只要被证明能做出来,很多人都会非常积极地尝试,并且想做得更好。
中国想要突破新的范式,或者做非常冒险事情的人可能还不够多,这里面有经济环境、商业环境包括文化的因素。
如果再增加一点,主观上要有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者新的范式突破的事情。
目前来看,一个范式一旦发生,我们可以用很少的卡、很高的效率去局部做得更好,我们到底能不能引领新的范式?这可能是今天中国唯一要解决的问题。
因为其他所有的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。
李广密:我再Follow顺雨一个问题,你对中国Lab里面的研究文化有什么要呼吁的吗?你也感受过OpenAI,DeepMind,中国跟美国的研究文化有什么差异的地方?
作为一个AI Native的公司,这对有哪些根本性的影响?有什么呼吁和建议吗?
姚顺雨:每个地方的研究文化都很不一样,美国实验室的区别可能比中美实验室的差别还要大,在中国也一样。
我个人觉得有两点,一点是说在中国,大家还是更喜欢做更安全的事情,比如说今天预训练这个事情已经被证明可以做出来了,其实这个事情也非常难做,有很多技术问题要解决,但只要这件事情一旦被证明能做出来,我们都很有信心几个月或者一段时间内就把这个问题搞清楚。
但如果今天让一个人说探索一个长期记忆或者持续学习,这个事情大家不知道怎么做、不知道能不能做起来,这个事情还是比较困难的。可能不只是大家更喜欢做确定性的事情、不太愿意做创新性的事情。
很重要的一点是文化的积累或者整体的认知,其实是需要时间沉淀的事情。
OpenAI在2022年就开始做这个事情了,国内2023年开始做了,对这个东西的理解会有一些差异,或者说中国没有这么大。
很多也就是时间问题,当你积累了文化或者底蕴更深的时候,潜移默化的程度可能会影响人的做事方式。但是它很微妙,很难通过榜单去体现。
中国对于刷榜或者数字看的更重一些,包括DeepSeek做的比较好的一点是,他们可能没有那么关注榜单的数字,可能会更注重:第一,什么是正确的事情;第二,什么是你自己能体验出好或者不好的。
这还是挺有意思的,因为你看Claude模型可能在编程或者软件工程的榜单上也不是最高的,但大家都知道这个东西是最好用的。这需要大家能够走出这些榜单的束缚,能够坚持自己觉得是不是正确的过程。
李广密:多谢顺雨。请俊旸说说概率和挑战。
林俊旸:这个问题是个危险的问题,理论上这个场合是不可以泼冷水的。
如果从概率上来说,我可能想说一下我感受到的中国和美国的差异,比如说美国的Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是OpenAI还是其他,他们大量的Compute投入到的是下一代的Research当中去。
我们今天相对来说,捉襟见肘,光交付可能就已经占据了我们绝大部分的Compute,这会是一个比较大的差异,这可能是历史以来就有的问题。
创新是发生在有钱的人手里,还是穷人手里,穷人不是没有机会,我们觉得这些富哥真的很浪费卡,可能训了很多也没什么用,但今天穷的话,比如今天所谓的算法Infra联合优化的事情,如果你很富,就没有什么动力去做这个事情。
刚才顺雨提到光刻机的问题,未来有可能还有一个点,如果从软硬结合的角度,是不是真的有可能做出来下一代的模型和芯片,是不是有可能是一起把它给做出来?
我在2021年的时候在做大模型,因为阿里做芯片,他们的人找我,说能不能预测一下三年之后这个模型是不是Transformer架构,三年之后模型是不是多模态?为什么是三年呢?他说我们需要三年时间才能流片。
我当时的回答是,三年之后,在不在阿里巴巴,我都不知道。但我今天还在阿里巴巴,果然还是Transformer,果然还是多模态,我非常懊悔,为什么当时没有催他去做。
当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。
这个机会有没有可能再来一次?我们虽然是一群穷人,但穷则生变,创新的机会会不会发生在这里?
今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。
美国人天然有非常强烈的冒险精神。一个很典型的例子是当时电动车刚出来,甚至天棚漏水的情况下,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情。
但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。
今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。
李广密:如果拍一个数字呢?三年到五年后,中国最领先的那个公司,是一家中国公司的概率。
林俊旸:我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。
李广密:我再Follow一个问题,比如说中国的模型跟美国的模型差距,有的地方在追上来,有的地方他们的算力在拉大,你对于Gap变大的恐惧感强吗?
林俊旸:今天你干这一行就不能恐惧,必须得有非常强的心态,对于我们的心态来说,能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。
还是看你的初心是什么。刚才顺雨提到一个点,你的模型不一定那么强,在C端里边是OK的。
我可能转换成到另一个角度思考这个问题,我们的模型为人类社会带来了什么样的价值?只要我相信我这个东西能够为人类社会带来充分的价值,能够帮助人类,就算不是最强的,我也愿意接受。
李广密:多谢俊旸。有请杨老师,因为您经历过很多AI周期,也看过很多中国AI公司变成世界最强,您对这个问题的判断是怎么样的?
杨强:我们可以回顾一下互联网的发展。一开始也是从美国开始,但中国很快就赶上了,而且像微信这样的应用,是世界第一的。
我想,AI是一个技术,它并不是一个终端的产品,但我们中国有很多聪明才智,会把这个产品发挥到极致,不管是To B还是To C,但我可能更看好To C,因为百花齐放,中国人集思广益。To B可能会有一些限制,像付费意愿、企业文化等也在改变。
我最近也在观察商业方向,跟商学院的一些同学探讨,比方说美国有一个公司叫Palantir,它的一个理念是,不管AI现在发展到什么阶段,我总是能在AI里面发现一些好的东西应用在企业上,中间肯定有gap(鸿沟),我们要给它弥合。
它有一个办法叫本体。我观察了一下,大概的思想是我们之前做的迁移学习,把一个通用的Solution,应用到一个具体的实践当中,用本体做知识的迁移,这个方法非常巧妙。当然它是通过一种工程的方法,叫前端工程师FDE来解决的。
不管怎么样,像这种就非常值得我们学习,中国的企业像AI Native的公司应该发展出这样一些To B的Solution来,我相信会的。所以To C肯定是百花齐放的,To B也会很快跟上来。
李广密:多谢杨老师。有请唐老师。
唐杰:首先确实要承认在中美,无论是做研究,尤其是企业界的AI Lab,和美国是有差距的,这是第一个。
中国现在慢慢变得越来越好,尤其是90后、00后这一代企业,远远好过之前。
有一次我在一个会上说我们这一代最不幸运,上一代也在继续工作,我们也在工作,所以我们还没有出头之日,很不幸的是下一代已经出来了,世界已经交给下一代了,已经把我们这一代无缝跳过了。这是开玩笑的。
中国也许的机会:
第一,一群聪明人真的敢做特别冒险的事,现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。
第二,咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。
像刚才俊旸说的,我还在做交付,如果把这个环境建设得更好,让一群敢于冒险的聪明人有更多的时间去做创新,也许是我们政府,包括我们国家可以帮忙���善的事情。
第三,回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。
环境肯定不会是最好的,永远不要想着环境是最好的,我们恰恰是幸运的,经历了环境从原来没那么好,到慢慢变得更好的时代,我们是经历者,也许就是财富、收获最多的人。如果我们笨笨地坚持,也许走到最后的就是我们。
感谢大家!
李广密:感谢唐老师。我们也很想呼吁,应该把更多资源资金投入到中国的AGI行业,有更多的算力,让更多AI年轻的研究员搓卡,有可能搓个三五年,中国就有几个自己的Ilya Sutskever,这是我们未来三五年很期待的。
非常感谢大家!