73. AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

倍速播放下载节目

00:00

01:27:01

节目详情

今天这集是我和广密【全球大模型季报】第4集。这期2024年Q3季报，提前和大家见面。

我们正进入的9月会是AGI的一个大月，OpenAI造势已久且绝密的项目“草莓（Strawberry）”将在不久后揭开它神秘的面纱。此外，Anthropic也会推出Claude 3.5 Opus，这两个模型将是AGI进程是否顺利的关键风向标。

这些项目很可能暗示了硅谷AGI范式已经静悄悄地发生剧烈转移。

本集节目带来了对AGI发展路径的最大猜想——硅谷AGI范式正在发生转移，self-play RL（强化学习）开启了新赛道。大部分人还没意识到，在纯靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后，多家硅谷明星公司已经把它们的资源重心押宝在一条新路径上：self-play RL（自博弈强化学习）。只不过，这个范式转移还未形成共识。Self-play RL到底是什么？它如何有别于传统路径？它能成为继续Scaling Law的一把神奇钥匙吗？

这集节目是关于self-play RL的一篇高质量科普，也希望为大模型从业者带来方向性的启发。

除了self-play RL，我们着重探讨了硅谷一级市场的明星赛道（Coding、视频生成、通用机器人），以及OpenAI与科技巨头近况。希望我们【全球大模型季报】能帮大家了解最前沿的AGI动态，并且能持续给大家带来启示。

本集是《张小珺Jùn｜商业访谈录》和《海外独角兽》的串台节目。

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

坏的推演猜测，GPT-5不乐观；好的推演猜测，RL开启新赛道

02:30 语言模型预训练的范式或许遇瓶颈，模型scaling边际效益开始递减
05:21 为什么不一定能支持模型在GPT-4o基础上大幅跃升？现在处于“真空死亡地带”？
06:43 我最担心的是，纯靠语言模型的经典Scaling Law /Pre train这个物理规律遇到瓶颈，或者在更大参数比如2-3T以上的情况下开始失效了
09:37 如果scaling law在模型变大的过程中不work，现在有三条潜在路径：1、多模态尤其是视觉（但还没有证据说能从视觉模态训练涌现智能能力）；
2、10万卡集群（但10万卡集群充分互联的难度比预期难，可能是全人类最难的项目之一）；
3、强化学习self-play RL（这是范式级别的大转变！）
12:53 如果我是AI公司CEO，我会200%资源all in RL这条路
13:40 概念解释：Reinforcement Learning，简称RL，中文强化学习（Ilya用一句话概括强化学习：让AI用随机路径去尝试一个新任务，如果效果超出预期，就更新神经网络的权重让AI记得多使用成功的实践，再开始下一次尝试）
19:05 代码和数学可以变得很强，能不能泛化到更多领域没有证据
22:39你也可以把语言和预训练比作人类基因组，携带着人类几千年进化的基因，强化学习RL就是人类成长的一生
24:55 必须很聪明的模型才能有能力做self-play RL的探索
27:07 Anthropic Claude 3.5是这一波标志性的产品，他们不搞Sora/搜索，主线是RL；业内少数人意识到RL的重要性是最近两个月
28:35 硅谷明星公司现阶段的资源投入？1-2家公司把RL当作最高优先级
28:56 2024年9月OpenAI和Anthropic即将要发布的，什么值得期待？
29:42 AGI范式大转移之下，还会有GPT-6和GPT-7吗？（可能明年会看到很小的模型比今天GPT-4o要聪明非常多，一个期待是实现AGI不一定需要巨量参数的模型）
30:33 新范式的困境和卡点
32:52 Character.AI出售给Google预示AGI竞赛上半场结束，下半场开始，创始人Noam从Google进入self-play RL下半场
34:36 新范式下，还需要那么多GPU吗？很多人关心英伟达股价
37:06 AGI范式转移只在最核心的researcher中有共识，几百人，还没扩散
38:55 Claude 3.5 Sonnet显著提升，带动了编程工具Cursor的火爆出圈
40:08 OpenAI在造势的草莓、Q*，猜测背后都是强化学习RL
41:55 国内公司应该应该all in 200%跟进RL
42:44 语言模型和RL是乘级关系

硅谷AI一级市场的四个明星赛道

45:12 硅谷的AI赛道：围绕LLM周边有3-4个圈，搜索、代码Coding、视频、机器人

1、Coding：在硅谷出现了4-5家独角兽（Devin、Augment 、Magic、Poolside，都已经20-30亿美元估值），最近编程工具Cursor出圈
2、视频：这个赛道诱人，但格局不稳定、决胜窗口长
3、通用机器人：想赌具身领域也有个OpenAI，现在是基础科学突破的问题，没看到在机器人领域的“通用泛化能力”出现
57:00 美国通用机器人的明星项目（Pi、The Bot是业界公认最头部的项目，除此之外融资金额很大、声量也比较高的是Skild AI、Figure AI）
58:31 国内vs硅谷机器人：硅谷投robot foundation model一个大脑，像Andorid；在国内投整机，OV和小米
01:01:56 LLM->多模态->具身智能->世界模型，这是AI发展路径
01:05:54 LLM vs 移动互联网，叙事逻辑是什么？哪些明线与暗线？

01:07:04 有没有可能，今天不做强化学习的公司未来都跑不出来
01:08:05 站在现在，重新评论一下中国LLM？“月亮和六便士”

OpenAI和科技巨头

01:12:37 OpenAI
1、有点浪费技术领先的红利，产品没接住
2、联合创始人Greg Brockman、John Schumann离职
3、Ilya离开应该是bet on两个路线（多模态/强化学习，大概率是RL）
01:17:10 Q*和草莓和RL应该是一件事，草莓是代号，RL是方法
01:18:07 回答红杉美国合伙人 David Cahn发布最新文章《AI’s $600B Question》
01:20:00 在2024年Q3，AI叙事还有哪些非共识？
01:22:45 Character.AI之后，哪些AI公司还会被收购？做个预测
01:23:38 2000年互联网hype破灭后只留下Amazon一家公司，今天AI hype如果破灭了，谁是下一个Amazon?
01:24:24 AGI第一幕是科技巨头受益，第二幕还没完全展开

【全球大模型季报】系列

2023年：口述全球大模型这一年：人类千亿科学豪赌与参差的中美景观

2024年Q1：和广密聊AGI大基建时代：电+芯片=产出智能

2024年Q2：口述全球大模型这半年：Perplexity突然火爆和尚未爆发的AI应用生态

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

展开

大家都在听

乱翻书

乱翻书是一档关注商业、科技和互联网的圆桌对话节目，关心How和Why，以及少有人注意到的What。内容主要方向是科技考古、行业观察和前沿思考，研究公司的创新、竞争和兴衰循环，希望能够为你提供信息增量。「乱翻书」主理人是潘乱，代表作品有《腾讯没有梦想》、字节跳动/快手早期关键节点的系列特写。

消费圈内人

消费圈内人

消费圈内人

TIANYU2FM

每期对谈一个陌生行业。我们是天宇和天域，一名自由作者和一名创业者。我们是挚友，也是一起求知的伙伴。这是一档为了开拓眼界，走出自己局限而设立的播客，通过与人的对谈来试图与未知的领域和知识产生互动。主持人简介：天宇 | 大白（声调偏低）：从事中日流行文化与媒介研究（文章见于澎湃新闻私家历史、网易新闻历史频道等）天域 | 杰激（声调偏高）：服装电商公司创始人

源宇宙

一档北大社会新人聊工作与生活的播客节目，每月分享两期心灵对话。主持人源源21年从北大毕业，嘉宾来自全球各地，背景各异。我们关注年轻人最真实的焦虑和最具体的选择，关注时代灰尘落在每个人身上的印记，关注你我波涛汹涌的内心世界。在这里，也许没有艰深的概念、抽象的理论、宏大的洞见，但是满载真诚。我们坦诚地分享困惑、探索解法。我们在云朵和荒山之间架起一堆野火，借助思维的光亮，一次一次改写旷野的边界。炭火正暖。我们等你，在夜里、在雨中、在山水相逢。谁的青春不迷茫？其实我们都一样。

知本论

这是一档由中信出版旗下知识服务品牌——中信书院打造的泛投资类知识播客。我们生活的世界，已经被信息、观念、态度、数据、标签重新建构。我们相信，知识可以成为打开财富世界的一把钥匙。在这档节目里，我们会和很多投资领域的大咖、经济学者，以及有知识有料的嘉宾，聊聊投资、财富和经济世界的相关话题。希望与你一起，以知识为资本，用价值的逻辑，重新看世界。

文旅圈内人

文旅圈内人

平台首档专注文旅赛道的商业类播客文旅行业是一个边界很模糊的行业，衣食住行，吃喝玩乐，皆可文旅！因此，文旅也成了信息差最大的行业之一，无论是对消费者，甚至是从业者！在这档节目中，我们邀请泛文旅圈内各个领域的资深从业者，一起分享和探讨他们的行业观察，经验技巧。打破行业信息差，分享优质旅行资讯、圈内信息；以业内人的视角，洞察热点新闻，探讨人文新知。「本节目适合的人群」 1、文旅创业者 2、文旅职场资深打工人 3、刚涉足或准备涉足文旅行业的初创团队「主持人」 Robin，14年专注于文旅行业的猎头老兵，始终保持对人的好奇，从业生涯与超过30,000名泛文旅圈中高端从业者进行过深入交流 Hiei黑黑，沉浸式体验设计专家，2010年起先后参与并主持了100余场室内外实景体验项目的创作与落地，致力于让各种场景“好玩”起来～

咖啡 OR TEA

「咖啡 OR TEA」是一档杂谈类成长型播客。每两周更新一期，上线时间为周五晚8点。主播沈夏夏和张哈哈是两个认识多年的老友，坐标天津。希望通过这档播客把天津人的快乐音符传递给你。真诚表达，用心交流是我们的主旋律；结识志趣相投的朋友是我们的小确幸。在这里，我们每期都会围绕着一个主题，分享经历、谈论观点、展开辩论。愿我们的进步，有你的参与！感谢聆听「咖啡 OR TEA」，在忙碌的日子里，不要忘记，多喝热水！

创业内幕 Startup Insider

创业内幕 Startup Insider

纪源资本出品的非严肃商业访谈

空无一物

“空无一物”是由三个无业游民发起的一档以赚钱、生活、成长三点为主轴，融入历史、战争、西方文化、投资等视角，结合当下去探讨我们该如何在这个社会更好的“生活（生存）”

嗨嗨海龟！

嗨嗨海龟！

欢迎来到“嗨嗨海龟”！我们是一群在海外生活长达十年的海龟们组成的小团队，为大家定期带来我们对于留学，旅居海外，以及不同文化下的生活所持有的独特的思考与感悟。如果你也想来分享你的故事和经历，如果你也想一起讨论某些话题，如果你也想为更多人提供不同的视野，欢迎添加我们（Bujuanshenghuo），一起为这个聒噪的环境提供不一样的乐趣～

评论(0条)

快来抢沙发吧！

打开蜻蜓查看更多

打开APP，高品质·离线听

沪ICP备06026464号-4 网络文化经营许可证

沪网文[2014]0587-137号

信息网络传播视听许可证：0911603

©2011-2019 qingting.fm ALL Rights Reserved.

应用名称：蜻蜓FM | 开发者：上海麦克风文化传媒有限公司

版本号：9.5.0 | 应用权限 | 隐私协议