首页 > 焦点 > 正文

Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界_环球短讯

2023-06-13 15:58:51来源：华尔街见闻

2017年6月12日，Attention is All You Need，一声炸雷，大名鼎鼎的Transformer横空出世。

(相关资料图)

它的出现，不仅让NLP变了天，成为自然语言领域的主流模型，还成功跨界CV，给AI界带来了意外的惊喜。

到今天为止，Transformer诞生6周年。而这篇论文被引数高达77926。

英伟达科学家Jim Fan对这篇盖世之作做了深度总结：

1. Transformer并没有发明注意力，而是将其推向极致。

第一篇注意力论文是在3年前（2014年）发表的。

这篇论文来自Yoshua Bengio的实验室，而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。

它是「RNN+上下文向量」（即注意力）的组合。

或许很多人都没有听说过这篇论文，但它是NLP中最伟大的里程碑之一，已经被引用了29K次（相比之下，Transformer为77K）。

2. Transformer和最初的注意力论文，都没有谈到通用序列计算机。

相反，两者都为了解决一个狭隘而具体的问题：机器翻译。值得注意的是，AGI（不久的某一天）可以追溯到不起眼的谷歌翻译。

3. Transformer发表在2017年的NeurIPS上，这是全球顶级的人工智能会议之一。然而，它甚至没有获得Oral演讲，更不用说获奖了。

那一年的NeurIPS上有3篇最佳论文。截止到今天，它们加起来有529次引用。

Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。

对此，Jim Fan认为，在一项出色的工作变得有影响力之前，很难让人们认可它。

我不会责怪NeurIPS委员会——获奖论文仍然是一流的，但影响力没有那么大。一个反例是ResNet。

何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧，得到了正确的认可。

2017年，该领域聪明的人中，很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样，很少有人能预见自2012年以来深度学习的海啸。

OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣，并表示，

介绍注意力的论文（由@DBahdanau , @kchonyc , Bengio）比「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看，这两篇论文都非常普通，但有趣的是恰好都是为机器翻译而开发的。

你只需要注意力！

Transformer诞生之前，AI圈的人在自然语言处理中大都采用基于RNN（循环神经网络）的编码器-解码器（Encoder-Decoder）结构来完成序列翻译。

然而，RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性，无法实现并行。

Transformer的现世可谓是如日中天，让许多研究人员开启了追星之旅。

2017年，8位谷歌研究人员发表了Attention is All You Need。可以说，这篇论文是NLP领域的颠覆者。

论文地址：https://arxiv.org/pdf/1706.03762.pdf

它完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，进而实现了并行计算。

甚至，有人发问「有了Transformer框架后是不是RNN完全可以废弃了？」

JimFan所称Transformer当初的设计是为了解决翻译问题，毋庸置疑。

谷歌当年发的博客，便阐述了Transformer是一种语言理解的新型神经网络架构。

文章地址：https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

具体来讲，Transformer由四部分组成：输入、编码器、解码器，以及输出。

输入字符首先通过Embedding转为向量，并加入位置编码（Positional Encoding）来添加位置信息。

然后，通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征，最后输出结果。

如下图所示，谷歌给出了Transformer如何用在机器翻译中的例子。

机器翻译的神经网络通常包含一个编码器，在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。

然后，利用自注意力，从所有其他的词中聚合信息，在整个上下文中为每个词产生一个新表征，由实心圆表示。

接着，将这个步骤对所有单词并行重复多次，依次生成新的表征。

同样，解码器的过程与之类似，但每次从左到右生成一个词。它不仅关注其他先前生成的单词，还关注编码器生成的最终表征。

2019年，谷歌还专门为其申请了专利。

自此，在自然语言处理中，Transformer逆袭之路颇有王者之风。

归宗溯源，现在各类层出不穷的GPT（Generative Pre-trained Transformer），都起源于这篇17年的论文。

然而，Transformer燃爆的不仅是NLP学术圈。

万能Transformer：从NLP跨到CV

2017年的谷歌博客中，研究人员曾对Transformer未来应用潜力进行了畅享：

不仅涉及自然语言，还涉及非常不同的输入和输出，如图像和视频。

没错，在NLP领域掀起巨浪后，Transformer又来「踢馆」计算机视觉领域。甚至，当时许多人狂呼Transformer又攻下一城。

自2012年以来，CNN已经成为视觉任务的首选架构。

随着越来越高效的结构出现，使用Transformer来完成CV任务成为了一个新的研究方向，能够降低结构的复杂性，探索可扩展性和训练效率。

2020年10月，谷歌提出的Vision Transformer (ViT)，不用卷积神经网络（CNN），可以直接用Transformer对图像进行分类。

值得一提的是，ViT性能表现出色，在计算资源减少4倍的情况下，超过最先进的CNN。

紧接着，2021年，OpenAI连仍两颗炸弹，发布了基于Transformer打造的DALL-E，还有CLIP。

这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。

再到后来的DALL-E进化版DALL-E 2，还有Stable Diffusion，同样基于Transformer架构，再次颠覆了AI绘画。

以下，便是基于Transformer诞生的模型的整条时间线。

由此可见，Transformer是有多么地能打。

2021年，当时就连谷歌的研究人员David Ha表示，Transformers是新的LSTMs。

而他曾在Transformer诞生之前，还称LSTM就像神经网络中的AK 47。无论我们如何努力用新的东西来取代它，它仍然会在50年后被使用。

Transformer仅用4年的时间，打破了这一预言。

新硅谷「七叛徒」

如今，6年过去了，曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了？

Jakob Uszkoreit被公认是Transformer架构的主要贡献者。

他在2021年中离开了Google，并共同创立了Inceptive Labs，致力于使用神经网络设计mRNA。

到目前为止，他们已经筹集了2000万美元，并且团队规模也超过了20人。

Ashish Vaswani在2021年底离开Google，创立了AdeptAILabs。

可以说，AdeptAILabs正处在高速发展的阶段。

目前，公司不仅已经筹集了4.15亿美元，而且也估值超过了10亿美元。

此外，团队规模也刚刚超过了40人。

然而，Ashish却在几个月前离开了Adept。

在Transformers论文中，Niki Parmar是唯一的女性作者。

她在2021年底离开Google，并和刚刚提到的Ashish Vaswani一起，创立了AdeptAILabs。

不过，Niki在几个月前也离开了Adept。

Noam Shazeer在Google工作了20年后，于2021年底离开了Google。

随后，他便立刻与自己的朋友Dan Abitbol一起，创立了Character AI。

虽然公司只有大约20名员工，但效率却相当之高。

目前，他们已经筹集了近2亿美元，并即将跻身独角兽的行列。

Aidan Gomez在2019年9月离开了Google Brain，创立了CohereAI。

经过3年的稳定发展后，公司依然正在扩大规模——Cohere的员工数量最近超过了180名。

与此同时，公司筹集到的资金也即将突破4亿美元大关。

Lukasz Kaiser是TensorFlow的共同作者人之一，他在2021年中离开了Google，加入了OpenAI。

Illia Polosukhin在2017年2月离开了Google，于2017年6月创立了NEAR Protocol。

目前，NEAR估值约为20亿美元。

与此同时，公司已经筹集了约3.75亿美元，并进行了大量的二次融资。

现在，只有Llion Jones还在谷歌工作。

在论文的贡献方面，他风趣地调侃道：「自己最大的意义在于——起标题。」

网友热评

走到现在，回看Transformer，还是会引发不少网友的思考。

AI中的开创性论文。

马库斯表示，这有点像波特兰开拓者队对迈克尔·乔丹的放弃。

这件事说明了，即使在这样的一级研究水平上，也很难预测哪篇论文会在该领域产生何种程度的影响。

这个故事告诉我们，一篇研究文章的真正价值是以一种长期的方式体现出来的。

哇，时间过得真快！令人惊讶的是，这个模型突破了注意力的极限，彻底改变了NLP。

在我攻读博士期间，我的导师 @WenmeiHwu 总是教育我们，最有影响力的论文永远不会获得最佳论文奖或任何认可，但随着时间的推移，它们最终会改变世界。我们不应该为奖项而奋斗，而应该专注于有影响力的研究！

本文作者：桃子、好困，来源：新智元，原文标题：《Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界》

标签：

相关阅读

Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界_环球短讯

Transformer的出现，不仅让NLP变了天，成为自然语言领域的主流模型，还

2023-06-13
是枝裕和：有些爱其实也很残忍

是枝裕和：有些爱其实也很残忍（主题）北京青年报记者张嘉谦逊、低调、

2023-06-13
全球热讯:制片人张萌回应：《后浪》话题和争议并存

制片人张萌回应：《后浪》话题和争议并存华西都市报-封面新闻记者荀超

2023-06-13
环球时讯：心怀老习俗——传年画的世家

在天津市西青区的杨柳青霍氏古一张画店，霍树林（左）和父亲霍庆有交流

2023-06-13
盛世华晨介绍多多带货加入机构有什么优劣势？全球观热点

在拼多多这个平台上面，有很多的小伙伴们会去开店带货，毕竟现在大

2023-06-13
全球今热点：静电鱼水瓶座星运详解【周运5月15日~5月21日】

事业：水瓶座周一在职场中容易想得比较多，过于在意他人对自己的评价，

2023-06-13
Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界_环球短讯

Transformer的出现，不仅让NLP变了天，成为自然语言领域的主流模型，还

2023-06-13
美政府正在秘密研拟在台美国公民的撤侨预案？外交部回应全球热推荐

【环球时报-环球网报道记者陈青青】在6月13日举行的外交部例行记者会上

2023-06-13
618在百度逛苏宁易购是什么体验？苏宁易购全品类将接入百度电商

苏宁易购将全品类上百万款商品接入百度电商，并覆盖搜索、直播、视频、

2023-06-13
是枝裕和：有些爱其实也很残忍

是枝裕和：有些爱其实也很残忍（主题）北京青年报记者张嘉谦逊、低调、

2023-06-13
全球热讯:制片人张萌回应：《后浪》话题和争议并存

制片人张萌回应：《后浪》话题和争议并存华西都市报-封面新闻记者荀超

2023-06-13
人民论坛网评 | 解锁调查研究的“正确打开”方式

现代快报网是由凤凰出版传媒集团旗下的现代快报倾力打造的江苏新闻门户

2023-06-13
【地评线】紫金e评：压实“三夏”生产针脚绣好壮美丰收画卷

现代快报网是由凤凰出版传媒集团旗下的现代快报倾力打造的江苏新闻门户

2023-06-13
环球时讯：心怀老习俗——传年画的世家

在天津市西青区的杨柳青霍氏古一张画店，霍树林（左）和父亲霍庆有交流

2023-06-13
ThinkPad笔记本蓝屏该如何处理

这款软件的亮点还是蛮多的，内存小运行稳定，且不需额外收费，最近很多

2023-06-13
如何解决physxdevice.dll文件缺失问题

physxdevice dll通常位于以下路径：C: Windows System32 PhysX Eng

2023-06-13
天选3蓝屏如何避免

关于天选3蓝屏怎么办，不少小伙伴可能还不太清楚，其实这个问题还是挺

2023-06-13
提示加载autodll.dll错误解决方法

如果该错误是在安装程序或游戏时出现的，可以尝试重新安装程序或游戏，

2023-06-13
惠普战66蓝屏重启怎么办

惠普战66蓝屏重启怎么办怎么用？这是近几天很多用户都在求助的问题，这

2023-06-13
解决缺少pnrpnsp.dll问题的方法全球看点

PNRPNSP DLLapp是Windows操作系统中的一个系统核心文件，该文件是基于P

2023-06-13
乐东：加强“非遗”系统性保护促进可持续发展天天视讯

6月11日上午，2023年乐东黎族自治县“文化和自然遗产日”系列活动在乐

2023-06-13
2023年“创客中国”海南赛启动企业与创客可线上报名

新海南客户端、南海网6月13日消息（记者姚皓）日前，海南省工业和信息

2023-06-13
矿场挖掘机好玩吗矿场挖掘机玩法简介头条焦点

期待已久的手游矿场挖掘机即将登陆九游，这款手机游戏吸引了大批玩家的

2023-06-13
天天快播：蜘蛛侠迈尔斯莫拉莱斯好玩吗蜘蛛侠迈尔斯莫拉莱斯玩法简介

期待已久的手游蜘蛛侠迈尔斯莫拉莱斯即将登陆九游，这款手机游戏吸引了

2023-06-13
满江红征战好玩吗满江红征战玩法简介

期待已久的手游满江红征战即将登陆九游，这款手机游戏吸引了大批玩家的

2023-06-13
猩红蜂巢什么时候出公测上线时间预告|全球动态

导读：最近很多玩家都在关注猩红蜂巢这款手游，想知道具体的公测时间，

2023-06-13
天天快资讯丨模拟人生旅途好玩吗模拟人生旅途玩法简介

期待已久的手游模拟人生旅途即将登陆九游，这款手机游戏吸引了大批玩家

2023-06-13
张继科已经“安全”落地？景甜不追究，“不雅照”抵债已成过去式|观天下

6月13日，张继科事件已经过去2个月有余，热度一降再降，基本看不到任何

2023-06-13
《疯狂梗传》醉倒街头找12个醉酒之处通关攻略

《疯狂梗传》醉倒街头找12个醉酒之处通关攻略攻略分享给大家，这款游戏

2023-06-13
三星浏览器怎么关闭隐私模式三星浏览器重置隐私和安全设置教程

三星浏览器怎么关闭隐私模式三星浏览器重置隐私和安全设置教程,

2023-06-13
全球实时：重磅！天津大病保险拟出新规，公开征求意见！

日前天津市医疗保障局发布公告对《天津市大病保险办法》及实施细则公开

2023-06-13
世界实时：“刘鑫不服，申请再审”

北京时间6月13日，江歌母亲江秋莲微博发文称，其收到山东省高级人民法

2023-06-13
陕西西秦刺绣——针下锦绣指上乾坤

人民日报社消息走进陕西省宝鸡市千阳县闫家村的农家院落，一幅“鸟衔樱

2023-06-13
省管国企！河南铁建投集团招聘50人-环球热头条

6月12日，正观新闻·郑在办记者从河南省铁路建设投资集团有限公司获悉

2023-06-13
焦点热议:传统茶里的“年轻态”——第五届中国国际茶叶博览会现场观察

传统茶里的“年轻态”——第五届中国国际茶叶博览会现场观察□新华社记

2023-06-13
适老化改造能做什么？走进北京牛街街道，看老人的不便如何解决

北京日报客户端记者莫凡“人老先老腿”，因为身体机能的下降，老人在日

2023-06-13
河北廊坊商贸物流产业“加速跑”

日处理进出港快件超500万件，京津冀区域内快递次日达比率提高至95%以上

2023-06-13
福建闽侯县以商标品牌战略推进乡村振兴和经济高质量发展全球今日讯

小橄榄成就大产业福建闽侯县以商标品牌战略推进乡村振兴和经济高质量发

2023-06-13
22名美军人员在叙利亚东北部直升机事故中受伤新要闻

当地时间12日晚，美国中央司令部在社交媒体上发布报告称，叙利亚东北部

2023-06-13
盛世华晨介绍多多带货加入机构有什么优劣势？全球观热点

在拼多多这个平台上面，有很多的小伙伴们会去开店带货，毕竟现在大

2023-06-13
观天下！武汉质检中心创建数量再创新高

武汉质检中心创建数量再创新高与产业发展契合度进一步提升本报讯（马文

2023-06-13
河南漯河开设专门窗口提供暖心服务

一把手现场办公促成难办事专人办河南漯河开设专门窗口提供暖心服务□朱

2023-06-13
吉林省桦甸市商务局举办跨境电商培训活动

中国商务新闻网是商务部国际商报社主办，国家互联网信息办公室批准的国

2023-06-13
共建西安都市圈共享电商大红利

中国商务新闻网是商务部国际商报社主办，国家互联网信息办公室批准的国

2023-06-13
天天微头条丨意大利今年硬质小麦产量有望超4百万吨

中国商务新闻网是商务部国际商报社主办，国家互联网信息办公室批准的国

2023-06-13
波黑塞族共和国将启动网络安全事件应急系统建设项目

中国商务新闻网是商务部国际商报社主办，国家互联网信息办公室批准的国

2023-06-13
浙商证券：23年国内挖机更新需求触底龙头公司业绩有望拐点向上全球微头条

浙商证券发布研究报告称，按挖掘机第8年为更新高峰期测算，2023年国内

2023-06-13
加纳黄金产量位居非洲首位

中国商务新闻网是商务部国际商报社主办，国家互联网信息办公室批准的国

2023-06-13
世界热资讯！干货！文化产业园区高质量发展论坛嘉宾观点集锦

第十九届中国（深圳）文化产业博览交易会期间，由文化和旅游部产业发展

2023-06-13
书画 | “N观——王子锟个展”在北京荣宝斋当代艺术馆拉开帷幕

花鸟从帷幔里探出“脑袋”，藤蔓和鲜花“爬”满轿撵，鲜花穿透沙发贸然

2023-06-13
《拳皇15》发布免费DLC角色“高尼茨” 将于6月20日上线_环球热头条

《拳皇15》发布了第二赛季免费更新DLC角色“高尼茨”（CV：赤城進）的

2023-06-13
《侍魂：晓》第二次B测已于今日(6月13日)开启曾因开发原因延期_环球今头条

SNK今天宣布，《侍魂：晓》第二次B测于6月13日开启们主要用于公测之前

2023-06-13
惠州彩民孩子高考前夜喜中599万元-天天热议

记者从惠州市福彩中心获悉，赶上今年高考的“良辰吉日”，惠州彩民抢先

2023-06-13
直播电商助力黑土地数字化转型辛选集团举办龙江好物选品会_全球观速讯

6月9日下午，由黑龙江省商务厅、黑龙江省林业和草原局、辛选集团共同主

2023-06-13
今日热搜：《波斯王子》开发者：做出更多现代的内容但体验核心依然正统

在此前与夏日游戏节上公布后，《波斯王子：失落的王冠》并没有受到许多

2023-06-13
Team17开设新工作室专注开发二战FPS《人间地狱》全球快播

游戏发行商日前开设了全新工作室Cover6Studios，以帮助开发商Expressio

2023-06-13

精彩推荐

美政府正在秘密研拟在台美国公民的撤侨预案？外交部回应全球热推荐

阅读排行

相关词