本课程涵盖了Transformer的核心组成部分,包含Transformer编码器和解码器的实现。 课程结合代码解读知识点,同时通过形象生动的例子,为学习者理解Transformer模型提供参考和借鉴。 实践项目无需依赖任何深度学习框架,完全从零开始,使用基础的Numpy等科学计算库实现Transformer,旨在深化学习者对模型本质的理解与掌握。 最后,使用Transformer模型实现在机器翻译任务中的应用,加深对模型的理解
章节 | 内容 | 代码实现 |
---|---|---|
第一章 | 引言introduction | 词嵌入低维映射到高维 |
第二章 | Transformer简述Transformer | 相对位置向量 , WordVec |
第三章 | Encoder结构Encoder | 交叉注意力Cross-Attention |
第四章 | Decoder结构Decoder | bertapply-bert、gptapply-gpt |
第五章 | 项目实践 | 机器翻译项目案例、Transformer结构拆解、使用 NumPy 和 SciPy 实现通用注意力机制 |
第一章 引言introduction
-
- 序列到序列(Seq2Seq)模型概述
-
- Encoder-Decoder模型概述
-
- Attention 的提出与影响
第二章 Transformer简述Transformer
-
- Attention 机制
-
- Transformer概述
-
- Transformer vs CNN vs RNN
-
- 输入嵌入(Input Embedding)
-
- Multi-Head Attention vs Multi-Head Self-Attention
第三章 Encoder结构Encoder
-
- 编码器(Encoder)
-
- 多头自注意力(Multi-Head Self-Attention)
-
- 交叉自注意力(Cross Attention)
-
- Cross Attention 和 Self Attention 主要的区别
第四章 Decoder结构Decoder
-
- 解码器(Decoder)
-
- 掩码(Mask)
-
- 模型的训练与评估
-
- 高级主题和应用
第五章 Project
-
- 项目案例实践项目
-
- 使用NumPy和SciPy实现通用注意力机制使用NumPy和SciPy实现通用注意力机制
-
- 一键运行Transformer板块Transformer组件实现
-
- Multi-head attention多头注意力机制
-
- Self attention自注意力机制实现
- 如果你想参与到项目中来欢迎查看项目的 Issue 查看没有被分配的任务。
- 如果你发现了一些问题,欢迎在 Issue 中进行反馈🐛。
- 如果你对本项目感兴趣想要参与进来可以通过 Discussion 进行交流💬。
如果你对 Datawhale 很感兴趣并想要发起一个新的项目,欢迎查看 Datawhale 贡献指南。
姓名 | 职责 | 简介 |
---|---|---|
罗清泉 | 项目负责人 |
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议