Transformer
在大模型时代下,Transformer是如何击败RNN,成为NLP领域的主流架构的?让我们一起探索Transformer的奥秘吧!

Transformer模型

1 Transformer背景

模型被提出时间:

1
2017年提出,2018年google发表了BERT模型,使得Transformer架构流行起来,BERT在许多NLP任务上,取得了Soat的成就。

模型优势:

1
2
1、能够实现并行计算,提高模型训练效率
2、更好的特征提取能力

2 Transformer的模型架构

架构图展示:

2.1 整体架构

主要组成部分

1
2
3
4
1、输入部分
2、编码器部分
3、解码器部分
4、输出部分

2.2 输入部分

1
2
word Embeddding + Positional Encoding
词嵌入层+位置编码器层

2.3 输出部分

1
2
1、Linear层
2、softmax层

2.4 编码器部分

结构图:

组成部分:

1
2
3
4
1、N个编码器层堆叠而成
2、每个编码器有两个子层连接结构构成
3、第一个子层连接结构:多头自注意力层+规范化层+残差连接层
4、第二个子层连接结构:前馈全连接层+规范化层+残差连接层