Vol.19 当我们谈论大语言模型的时候我们在谈论什么

00:00
32:56
听完整版
主播信息
里维糖

里维糖

Talk is cheap, show me your podcast.
关注
代码时光机
45
代码和文字、影像一样,它们都关乎表达,关乎认识世界的某种方式。用代码表达出的软件、算法乃至整个互联网世界深刻地参与构成了我们的现代世界。作为一个程序员,对二进制和互联网的世界有很多好奇和了解,百无禁忌,随处可聊:历史、故事和第一性原理,创作去术语化的内容是我的努力——了解软件和计算机的不必是程序员。 assert 周更
APP内查看主播
节目详情

用超简单的方式解释大语言模型的本质原理。

这期节目可以当作第一期节目的增强补丁,对LLM做了进一步的详细说明,包括如下的基本问题:

1. LLM是用什么形式阅读人类语言的?

2. 知识以何种形式在LLM中流动?

3. Transformer和注意力机制是什么?

4. (单头)注意力机制的计算过程。

为了尽可能减轻术语带来的心理负担,我尽可能地用例子和直观描述来代替学术描述,不免带来叙述上的不严谨,欢迎评论区对此打补丁。、

节目中提到的,Google的两篇最重要的论文是:

[1] Mikolov, Tomas. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 3781 (2013).

[2] Vaswani, A. "Attention is all you need." Advances in Neural Information Processing Systems (2017).

下面是AI生成的时间轴:

02:02 解密大语言模型:揭示其内部实现机制与写作能力

04:02 大语言模型的编码奥秘:从文本到信息的转换之道

06:04 大语言模型的基石:磁向量编码与人类语言理解

08:12 从文字到向量:理解大语言模型内部的语言处理方式

10:58 GPT三:理解人类语言的磁向量表示和信息处理方式

13:43 GPT-3:了解一千七百万个参数的计算方法和原因

16:25 深度学习中的Transformer模型:理解注意力机制的本质

19:12 深度学习中的 Tranformers:注意力模块的原理和应用

21:56 深度剖析Transformer中的注意力机制:从单头到多头的实现细节

24:40 机器学习中的向量运算:理解点乘、点程和注意力机制

27:24 Transformer模型中的注意力机制:高效的信息提取与并行计算

30:07 Transformer的注意力机制:如何提高信息提取效率?

展开
大家都在听
评论(0条)
快来抢沙发吧!
打开蜻蜓 查看更多