75. 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

倍速播放下载节目

00:00

01:14:10

节目详情

上集节目，广密在OpenAI o1问世之前，准确地预言了代号为“Strawberry”（草莓）的项目走向，以及它背后暗示的AGI范式已经转移，强化学习开启了新赛道。

这集节目录制在o1问世之后，我第一时间和边塞科技创始人、清华叉院信息研究院助理教授，同时也是前OpenAI研究员的吴翼聊了聊。他的研究方向正是强化学习。吴翼从技术视角全方位地解读了o1模型，并且分享了只有内部视角才能看见的真实的OpenAI。

我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）

01:50 2019年在OpenAI做研究员
03:04 那个年代所有PHD都希望去Google Brain和DeepMind
03:46 OpenAI o1-preview初体验，很意外在用户使用端做这么大规模的推理
07:20 pre-training（预训练）能挖的金矿越来越少，以强化学习为基础的post-training（后训练）是另一个大金矿，使迈向AGI的梯子多了几节
09:00 o1-preview版本是GPT-3时刻，到没到ChatGPT时刻要看正式版本
10:33 o1应该核心关注两个要点和背后的技术原理
13:54 强化学习能否探索出Scaling Law有希望，但很复杂
15:06 强化学习三要素：reward model+搜索和探索+prompt，每一块都很难
16:42 2014年开始，UC Berkeley集体转向，押注强化学习
19:36 RL算法的演进：从DQN（Deep Q-Network）到PPO（Proximal Policy Optimization）
23:45 相信会带来通用能力而不是垂类能力提升
24:47 长文本是实现AGI的第一步，推理能力是第二步
29:57 通过o1-preview能反向复原哪些技术细节？
34:00 reward model不太可能有一个单独的小组闭着眼睛训练，是耦合的
38:30 思维链、安全、幻觉和算力
41:25 为什么这么项目叫“Q*”？后来又叫“草莓”？梗都很有意思
49:49 o1不代表垂直模型，依然相信会出现全能的大统一模型
57:57 关于Scaling Law，2019年OpenAI内部讨论的细节
01:00:26 2019年的OpenAI处于“闭着眼睛挖矿的状态”
01:03:20 OpenAI当年如何做管理：搞大新闻、发博客，KPI是博客关注量
01:10:28 2020年离开OpenAI后悔吗？

o1发布前的预言单集：AGI范式大转移：和广密预言草莓、OpenAI o1和self-play RL｜全球大模型季报4

【更多信息】

联络我们：微博@张小珺-Benita，小红书@张小珺jùn

更多信息欢迎关注公众号：张小珺

展开

大家都在听

乱翻书

乱翻书是一档关注商业、科技和互联网的圆桌对话节目，关心How和Why，以及少有人注意到的What。内容主要方向是科技考古、行业观察和前沿思考，研究公司的创新、竞争和兴衰循环，希望能够为你提供信息增量。「乱翻书」主理人是潘乱，代表作品有《腾讯没有梦想》、字节跳动/快手早期关键节点的系列特写。

消费圈内人

消费圈内人

消费圈内人

TIANYU2FM

每期对谈一个陌生行业。我们是天宇和天域，一名自由作者和一名创业者。我们是挚友，也是一起求知的伙伴。这是一档为了开拓眼界，走出自己局限而设立的播客，通过与人的对谈来试图与未知的领域和知识产生互动。主持人简介：天宇 | 大白（声调偏低）：从事中日流行文化与媒介研究（文章见于澎湃新闻私家历史、网易新闻历史频道等）天域 | 杰激（声调偏高）：服装电商公司创始人

源宇宙

一档北大社会新人聊工作与生活的播客节目，每月分享两期心灵对话。主持人源源21年从北大毕业，嘉宾来自全球各地，背景各异。我们关注年轻人最真实的焦虑和最具体的选择，关注时代灰尘落在每个人身上的印记，关注你我波涛汹涌的内心世界。在这里，也许没有艰深的概念、抽象的理论、宏大的洞见，但是满载真诚。我们坦诚地分享困惑、探索解法。我们在云朵和荒山之间架起一堆野火，借助思维的光亮，一次一次改写旷野的边界。炭火正暖。我们等你，在夜里、在雨中、在山水相逢。谁的青春不迷茫？其实我们都一样。

知本论

这是一档由中信出版旗下知识服务品牌——中信书院打造的泛投资类知识播客。我们生活的世界，已经被信息、观念、态度、数据、标签重新建构。我们相信，知识可以成为打开财富世界的一把钥匙。在这档节目里，我们会和很多投资领域的大咖、经济学者，以及有知识有料的嘉宾，聊聊投资、财富和经济世界的相关话题。希望与你一起，以知识为资本，用价值的逻辑，重新看世界。

文旅圈内人

文旅圈内人

平台首档专注文旅赛道的商业类播客文旅行业是一个边界很模糊的行业，衣食住行，吃喝玩乐，皆可文旅！因此，文旅也成了信息差最大的行业之一，无论是对消费者，甚至是从业者！在这档节目中，我们邀请泛文旅圈内各个领域的资深从业者，一起分享和探讨他们的行业观察，经验技巧。打破行业信息差，分享优质旅行资讯、圈内信息；以业内人的视角，洞察热点新闻，探讨人文新知。「本节目适合的人群」 1、文旅创业者 2、文旅职场资深打工人 3、刚涉足或准备涉足文旅行业的初创团队「主持人」 Robin，14年专注于文旅行业的猎头老兵，始终保持对人的好奇，从业生涯与超过30,000名泛文旅圈中高端从业者进行过深入交流 Hiei黑黑，沉浸式体验设计专家，2010年起先后参与并主持了100余场室内外实景体验项目的创作与落地，致力于让各种场景“好玩”起来～

咖啡 OR TEA

「咖啡 OR TEA」是一档杂谈类成长型播客。每两周更新一期，上线时间为周五晚8点。主播沈夏夏和张哈哈是两个认识多年的老友，坐标天津。希望通过这档播客把天津人的快乐音符传递给你。真诚表达，用心交流是我们的主旋律；结识志趣相投的朋友是我们的小确幸。在这里，我们每期都会围绕着一个主题，分享经历、谈论观点、展开辩论。愿我们的进步，有你的参与！感谢聆听「咖啡 OR TEA」，在忙碌的日子里，不要忘记，多喝热水！

创业内幕 Startup Insider

创业内幕 Startup Insider

纪源资本出品的非严肃商业访谈

空无一物

“空无一物”是由三个无业游民发起的一档以赚钱、生活、成长三点为主轴，融入历史、战争、西方文化、投资等视角，结合当下去探讨我们该如何在这个社会更好的“生活（生存）”

嗨嗨海龟！

嗨嗨海龟！

欢迎来到“嗨嗨海龟”！我们是一群在海外生活长达十年的海龟们组成的小团队，为大家定期带来我们对于留学，旅居海外，以及不同文化下的生活所持有的独特的思考与感悟。如果你也想来分享你的故事和经历，如果你也想一起讨论某些话题，如果你也想为更多人提供不同的视野，欢迎添加我们（Bujuanshenghuo），一起为这个聒噪的环境提供不一样的乐趣～

评论(0条)

快来抢沙发吧！

打开蜻蜓查看更多

打开APP，高品质·离线听

沪ICP备06026464号-4 网络文化经营许可证

沪网文[2014]0587-137号

信息网络传播视听许可证：0911603

©2011-2019 qingting.fm ALL Rights Reserved.

应用名称：蜻蜓FM | 开发者：上海麦克风文化传媒有限公司

版本号：9.5.0 | 应用权限 | 隐私协议