张量索引切片操作

由于Pytorch中张量索引操作较多, 有时会在连续的网络层变化中迷失, 所以对常见操作进行一些归纳, 时不时巩固

大模型

Teacher Forcing

对Transformer的整体认知

大模型