第1章
欢迎来到Transformer的世界

2017年,Google的研究人员发表了一篇论文,提出了一种用于序列建模的新型神经网络架构[1]。这种架构称为Transformer,在机器翻译任务上,该架构在翻译质量和训练成本方面都优于循环神经网络(RNN)。

同时,一种名为ULMFiT的高效迁移学习方法表明,在非常庞大且多样化的语料库上训练长短期记忆(LSTM)网络可以产生最先进的文本分类器,并且只需要很少的标注数据[2]

这些研究催生了如今两个最著名的Transformer模型类别:生成预训练Transformer(Generative Pretrained Transformer,GPT)[3]和基于Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)[4]。通过将Transformer架构与无监督学习相结合,不需要从头开始训练这些模型即可完成特定任务,并打破了几乎所有NLP基准。自GPT和BERT发布以来,涌现了很多Transformer模型,具体模型和时间线如图1-1所示。

要想更上一层楼,我们不仅需要知其然,还需要知其所以然。因此我们需要先解释一下如下概念:

图1-1:Transformer大事记

●编码器-解码器框架

●注意力机制

●迁移学习

本章我们将介绍通用于所有Transformer模型的核心概念,讲述它们擅长的任务,最后介绍由对应工具和库组成的Hugging Face生态系统。

我们先从编码器-解码器框架和Transformer兴起之前的架构开始。