什么是 Transformer

**Transformer** 是由 Google 团队的 Ashish Vaswani 等人在 2017 年 6 月发表的论文 Attention Is A

2023-12-07 技术

**Transformer** 是由 Google 团队的 Ashish Vaswani 等人在 2017 年 6 月发表的论文 Attention Is All You Need 中提出的 NLP 经典之作，这个模型可以算是近几年来 NLP 领域的一个重大的里程碑，在它之前 seq2seq + Attention 就表现很强了，结果这篇论文一出来就引起了不小的轰动，它竟然不需要任何 RNN 等结构，只通过注意力机制就可以在机器翻译任务上超过 RNN，CNN 等模型的表现。

图片来源

Transformer 和 RNN 比较

在机器翻译任务中，虽然说在 Transformer 之前 Encoder-Decoder + Attention 结构已经有很好的表现了，但是其中的 RNN 结构却存在着一些不足。

首先，RNN 模型不擅长并行计算。因为 RNN 具有序列的性质，就是当模型处理一个状态时需要依赖于之前的状态，这个性质不利于使用 GPU 进行计算，即使用了 CuDNN，RNN 在 GPU 上也还是很低效的。
而 Transformer 最大的优点就是可以高效地并行化，因为它的模型内部的核心其实就是大量的矩阵乘法运算，能够很好地用于并行计算，这也是 Transformer 很快的原因之一。
另一个不足就是 RN

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

Transformer﻿ 和 RNN 比较

版权声明

推荐阅读

Transformer 和 RNN 比较