[人人能懂] 从潜在行动、结构化生成到奖励解耦

00:00
31:47
主播信息
爱可可爱生活

爱可可爱生活

Nice Day!
关注
AI可可AI生活
229
来自 @爱可可-爱生活 的第一手AI快报,用最简单易懂的语言,带你直击最前沿的人工智能科研动态。无论你是科技小白,还是行业达人,这里都有你想知道的AI故事和未来趋势。跟着我们,轻松解锁人工智能的无限可能! #人工智能 #科技前沿
APP内查看主播
节目详情

我们总希望AI更像一个聪明的伙伴,而不是一个笨拙的机器。但怎样才算“聪明”?本期节目,我们将透过几篇最新的研究,一起窥探AI学习智慧的深层秘密。我们会聊到,AI如何像婴儿一样,在无声的世界里自己“悟”出万物的规律;又如何像个特工,在“聊天模式”和“任务模式”间无缝切换;我们还会探讨,如何用一把精妙的尺子,量出AI学到的究竟是“真本事”还是“假把式”,以及如何避免它在多重目标下“偏科”,甚至沦为一个只会讨好规则的“马屁精”。

00:00:39 AI学会了“无师自通”,世界将有什么不同?

00:06:21 给AI装上一个“万能遥控器”

00:12:57 AI上课也分“顿悟”和“补课”?一把尺子量出它学到了多少真本事

00:19:54 AI“偏科”怎么办?谈谈多目标奖励的艺术

00:25:33 “好学生”与“马屁精”,AI如何学会做个人

本期介绍的几篇论文:

[LG] Learning Latent Action World Models In The Wild

[FAIR at Meta]

https://arxiv.org/abs/2601.05230

---

[LG] XGrammar 2: Dynamic and Efficient Structured Generation Engine for Agentic LLMs

[Shanghai Jiao Tong University & CMU]

https://arxiv.org/abs/2601.04426

---

[LG] Excess Description Length of Learning Generalizable Predictors

[UC Berkeley & Anthropic]

https://arxiv.org/abs/2601.04728

---

[CL] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

[NVIDIA]

https://arxiv.org/abs/2601.05242

---

[CL] Learning to Simulate Human Dialogue

[Stanford University]

https://arxiv.org/abs/2601.04436

展开
大家都在听
评论(0条)
快来抢沙发吧!
打开蜻蜓 查看更多