Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界_环球短讯
2017年6月12日,Attention is All You Need,一声炸雷,大名鼎鼎的Transformer横空出世。
(相关资料图)
它的出现,不仅让NLP变了天,成为自然语言领域的主流模型,还成功跨界CV,给AI界带来了意外的惊喜。
到今天为止,Transformer诞生6周年。而这篇论文被引数高达77926。
英伟达科学家Jim Fan对这篇盖世之作做了深度总结:
1. Transformer并没有发明注意力,而是将其推向极致。
第一篇注意力论文是在3年前(2014年)发表的。
这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。
它是「RNN+上下文向量」(即注意力)的组合。
或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。
2. Transformer和最初的注意力论文,都没有谈到通用序列计算机。
相反,两者都为了解决一个狭隘而具体的问题:机器翻译。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译。
3. Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。然而,它甚至没有获得Oral演讲,更不用说获奖了。
那一年的NeurIPS上有3篇最佳论文。截止到今天,它们加起来有529次引用。
Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。
对此,Jim Fan认为,在一项出色的工作变得有影响力之前,很难让人们认可它。
我不会责怪NeurIPS委员会——获奖论文仍然是一流的,但影响力没有那么大。一个反例是ResNet。
何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧,得到了正确的认可。
2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样,很少有人能预见自2012年以来深度学习的海啸。
OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣,并表示,
介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看,这两篇论文都非常普通,但有趣的是恰好都是为机器翻译而开发的。
你只需要注意力!
Transformer诞生之前,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。
然而,RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性,无法实现并行。
Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。
2017年,8位谷歌研究人员发表了Attention is All You Need。可以说,这篇论文是NLP领域的颠覆者。
论文地址:https://arxiv.org/pdf/1706.03762.pdf
它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。
甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了?」
JimFan所称Transformer当初的设计是为了解决翻译问题,毋庸置疑。
谷歌当年发的博客,便阐述了Transformer是一种语言理解的新型神经网络架构。
文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
具体来讲,Transformer由四部分组成:输入、编码器、解码器,以及输出。
输入字符首先通过Embedding转为向量,并加入位置编码(Positional Encoding)来添加位置信息。
然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征,最后输出结果。
如下图所示,谷歌给出了Transformer如何用在机器翻译中的例子。
机器翻译的神经网络通常包含一个编码器,在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。
然后,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示。
接着,将这个步骤对所有单词并行重复多次,依次生成新的表征。
同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词,还关注编码器生成的最终表征。
2019年,谷歌还专门为其申请了专利。
自此,在自然语言处理中,Transformer逆袭之路颇有王者之风。
归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。
然而,Transformer燃爆的不仅是NLP学术圈。
万能Transformer:从NLP跨到CV
2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:
不仅涉及自然语言,还涉及非常不同的输入和输出,如图像和视频。
没错,在NLP领域掀起巨浪后,Transformer又来「踢馆」计算机视觉领域。甚至,当时许多人狂呼Transformer又攻下一城。
自2012年以来,CNN已经成为视觉任务的首选架构。
随着越来越高效的结构出现,使用Transformer来完成CV任务成为了一个新的研究方向,能够降低结构的复杂性,探索可扩展性和训练效率。
2020年10月,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN),可以直接用Transformer对图像进行分类。
值得一提的是,ViT性能表现出色,在计算资源减少4倍的情况下,超过最先进的CNN。
紧接着,2021年,OpenAI连仍两颗炸弹,发布了基于Transformer打造的DALL-E,还有CLIP。
这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。
再到后来的DALL-E进化版DALL-E 2,还有Stable Diffusion,同样基于Transformer架构,再次颠覆了AI绘画。
以下,便是基于Transformer诞生的模型的整条时间线。
由此可见,Transformer是有多么地能打。
2021年,当时就连谷歌的研究人员David Ha表示,Transformers是新的LSTMs。
而他曾在Transformer诞生之前,还称LSTM就像神经网络中的AK 47。无论我们如何努力用新的东西来取代它,它仍然会在50年后被使用。
Transformer仅用4年的时间,打破了这一预言。
新硅谷「七叛徒」
如今,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了?
Jakob Uszkoreit被公认是Transformer架构的主要贡献者。
他在2021年中离开了Google,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA。
到目前为止,他们已经筹集了2000万美元,并且团队规模也超过了20人。
Ashish Vaswani在2021年底离开Google,创立了AdeptAILabs。
可以说,AdeptAILabs正处在高速发展的阶段。
目前,公司不仅已经筹集了4.15亿美元,而且也估值超过了10亿美元。
此外,团队规模也刚刚超过了40人。
然而,Ashish却在几个月前离开了Adept。
在Transformers论文中,Niki Parmar是唯一的女性作者。
她在2021年底离开Google,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs。
不过,Niki在几个月前也离开了Adept。
Noam Shazeer在Google工作了20年后,于2021年底离开了Google。
随后,他便立刻与自己的朋友Dan Abitbol一起,创立了Character AI。
虽然公司只有大约20名员工,但效率却相当之高。
目前,他们已经筹集了近2亿美元,并即将跻身独角兽的行列。
Aidan Gomez在2019年9月离开了Google Brain,创立了CohereAI。
经过3年的稳定发展后,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。
与此同时,公司筹集到的资金也即将突破4亿美元大关。
Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中离开了Google,加入了OpenAI。
Illia Polosukhin在2017年2月离开了Google,于2017年6月创立了NEAR Protocol。
目前,NEAR估值约为20亿美元。
与此同时,公司已经筹集了约3.75亿美元,并进行了大量的二次融资。
现在,只有Llion Jones还在谷歌工作。
在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」
网友热评
走到现在,回看Transformer,还是会引发不少网友的思考。
AI中的开创性论文。
马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃。
这件事说明了,即使在这样的一级研究水平上,也很难预测哪篇论文会在该领域产生何种程度的影响。
这个故事告诉我们,一篇研究文章的真正价值是以一种长期的方式体现出来的。
哇,时间过得真快!令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP。
在我攻读博士期间,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可,但随着时间的推移,它们最终会改变世界。我们不应该为奖项而奋斗,而应该专注于有影响力的研究!
本文作者:桃子、好困,来源:新智元,原文标题:《Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界》
标签:
相关阅读
-
Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界_环球短讯
Transformer的出现,不仅让NLP变了天,成为自然语言领域的主流模型,还
2023-06-13 -
Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界_环球短讯
Transformer的出现,不仅让NLP变了天,成为自然语言领域的主流模型,还
2023-06-13
精彩推荐
阅读排行
相关词
- Team17开设新工作室 专注开发二战FPS《人间地狱》 全球快播
- 今亮点!义乌一教师体罚学生 官方通报 已解除涉事教师聘用合同!
- 国有四维礼义廉耻四维不张国乃灭亡隶书怎么写_国有四维礼义廉耻四维不张国乃灭亡
- 会员营销管理系统哪家好?多少钱? 世界速递
- 《拳皇15》发布免费DLC角色“高尼茨” 将于6月20日上线_环球热头条
- 【快播报】以国际视角讲述音乐故事 《音乐史》出版助力艺术普及
- 新动态:土家吊脚楼:榫卯技艺传承 展现山乡风情
- 全球今热点:静电鱼 水瓶座星运详解【周运5月15日~5月21日】
- 虚拟世界里电影如何推动现实_环球看点
- 直播电商助力黑土地数字化转型 辛选集团举办龙江好物选品会_全球观速讯
- 全球简讯:瑞典克朗兑换人民币汇率今日最新查询(2023年6月13日)
- 致力学术传承 青年学者共论“当代儒学之思” 全球快看点
- 何炅老婆孩子照片高清_何炅老婆孩子照片_全球讯息
- 《红海行动2》“深入海底” 程耳《人鱼》预订王一博
- 关注:5月超半数标品信托产品获正收益 整体平均收益率回撤明显
- 天天热消息:干货丨实验室常用试剂的有效期确定及延长方法
- 税费支持政策“点燃”夜间经济
- IRQL_NOT_LESS_OR_EQUAL蓝屏可能的硬件问题有哪些|热点评
- 玩偶熊派对什么时候出 公测上线时间预告-环球视讯
- 币币骑士什么时候出 公测上线时间预告
- secproc_ssp_isv.dll缺少怎么办-每日讯息
- 环球热门:奔跑的“三夏” 全国麦收进度过八成 科技赋能特色产业
- 世界微资讯!向前走什么时候出 公测上线时间预告
- 全球观热点:ATM蓝屏该如何处理
- 每日热门:wsmauto.dll丢失的解决方法
- 【天天聚看点】前4月完成交通固定资产投资1万亿元 同比增长13.4%
- clarun.dll丢失怎样修复 环球快播
- 财政部发文:加强企业国有资本基础管理
- “日特估”持续!日经225指数收涨1.88%,突破33000点
- 有梦想就出发:理德外汇卓越创业培训EET 安徽站盛大启幕!
- 全球报道:Win10蓝屏无法开机可能的硬件问题有哪些
- 口袋力量棒球好玩吗 口袋力量棒球玩法简介|当前热门
- 恒盛策略|港股再掀回购潮!南下资金年内扫货1300多亿
- 马桶故障24小时送新上门 京东618“以旧换新”服务高效省心
- 快消息!深圳南山流行音乐节掀起大湾区夏夜狂欢
- 非遗 | 传承人手塑“文物” 让遗产“活”在动手体验中 天天快看点
- 【世界独家】石家庄市桥西区市场监督局公布不合格食品(小台芒)核查处置情况
- 北京惠合嘉美医疗美容门诊部有限公司被罚款21000元-全球新消息
- 头条焦点:独立游戏开发商Playdigious成立新发行部门 将专注于独立游戏
- 天天最新:钢丝绳的安全系数是什么意思呢_钢丝绳的安全系数是什么意思
- 魔术师大作战官网在哪下载 最新官方下载安装地址|全球热闻
- 每日速读!山北街道双河村社区:人大代表深入基层让履职更接地气
- 【全球热闻】ST起步三度延期回复问询函,公司拟被处罚5700万
- 高质量发展调研行|唱响海洋牧歌——广东“蓝色经济”发展驶入快车道-世界球精选
- 广东省市场监管局组织质量认证下乡-微资讯
- 油电同价 颠覆燃油 | 宋Pro DM-i 冠军版携世界认可驾临广州|环球新消息
- 世界观点:水产类股集体走高,大湖股份涨停,深远海养殖发展迎助力
- 白云 | 非遗传承进社区,烙画技术薪火传
- 安化发现酷似娃娃鱼的中国瘰螈|全球今头条
- 环球百事通!甲状腺穿刺怎么做视频_甲状腺穿刺怎么做
- 【全球新视野】责任“压下去”服务“强起来”河南濮阳经开区优化营商环境创发展新优势
- 浙江一公司发文:禁止婚外情,违者辞退!最新回应来了
- iassvcs.dll丢失没反映怎么办
- 每日关注!心系老技艺——追风筝的传人
- Bluescreenview分析蓝屏原因的准确性如何
- 金爵奖开幕论坛探讨中国电影的未来之路:观众需要会讲故事的电影
- 蔡甸藕带:白若玲珑玉 丝缕皆故乡
- 信息:甘肃72处岩画文物完成数字化 已建成数字影像数据库
- 濮存昕向观众“掏心窝子” 是生活教会了我
- 焦点精选!技嘉B85MD2V运行3Dmax蓝屏可能的修复方案有哪些
- 电脑丢失phonon.dll的解决方法 全球短讯
- 海南高考明起评卷!这些信息对报志愿有用|当前要闻
- 微头条丨海南椰岛选举段守奇为董事长
- cpu多少度会蓝屏|全球简讯
- 6月13日 13:18分 中芯集成-U(688469)股价快速拉升
- 最新资讯:首届香氛香水“金桂奖”启动
- 超变攻沙传奇什么时候出 公测上线时间预告
- 全球观点:装修完的房子多久才能入住(装修完的房子多久可以入住)
- 四氯化碳灭火器主要用于扑救什么火灾(四氯化碳灭火器主要用于扑救哪些火灾)
- msctfui.dll丢失没反映怎么办-每日观察
- 凝聚多方合力 建设和谐乡村
- 球球魔法门好玩吗 球球魔法门玩法简介
- 全球实时:球球魔法门什么时候出 公测上线时间预告
- 热点评!关于对《海水中硝酸盐标准样品》等53项拟立项国家标准样品研复制计划项目公开征求意见的通知
- 内蒙古包头市市场监管局公布不合格食品【手工馓子(咸味)】核查处置情况 速看料
- 烈日大作战!防晒衣不一定都防晒,苏消保“硬核”支招,教你如何选购→
- 照片管理软件app排名(照片管理软件)
- 香港城市售票网购票怎么取票(香港城市售票网网址)
- 万润科技(002654)盘中异动 股价振幅达10.69% 上涨7.46%(06-13)
- 世界看热讯:猫生煎熬好玩吗 猫生煎熬玩法简介
- 我的疯狂高中好玩吗 我的疯狂高中玩法简介_天天滚动
- 湾湾乐坛,好聚好散那么难? 每日看点
- 江歌母亲:刘鑫不服二审判决申请再审
- 国海证券:长期看好人形机器人智能化迭代升级的产业趋势|环球观点
- 汛期来临,这份防汛安全知识请收好
- 中国光伏企业一位高管在德国慕尼黑机场被带走 光伏协会凌晨回应:当事人已回酒店
- 学会沟通,让孩子落落大方! 今日热闻
- 全球看点:【奔跑的“三夏”】中国丰收地图:风吹麦浪的盛夏
- 抢抓农时种水稻
- 池艺璇为什么离开央视|快报
- 当前速读:发改委:第二批国家产教融合试点工作将于今年下半年启动
- 打卡是什么意思网络_打卡是什么意思
- 央行降息发力稳增长,房贷利率有望下调
- 环球时讯:菜鸟国际快递北美迅猛起网 核心城市已实现“跨境10日达”
- 中国光伏企业一位高管在德国慕尼黑机场被带走 光伏协会凌晨回应:当事人已回酒店
- 五月快递发展指数同比增长近四成 世界热推荐
- switch蓝屏解决方法
- 奔腾X40与大迈X5哪个好?详细比较揭秘优劣!
- 金外滩集团领导赴端正公房公司调研房屋安全管理工作_快报
- 连续四年扣非后净利润为负数,跨境通回复问询函-最新资讯
- 文化产业园 各有新看点-天天即时看
- 英镑/日元亚盘技术分析(2023年6月13日)
- 前4月完成交通固定资产投资1万亿元(新数据 新看点)|环球热消息
- 热门:发改委:将进一步加大对职业教育产教融合的支持力度
- 重点聚焦!自动驾驶「无图化」到底是不是个伪命题
- 拯救者蓝屏收集错误信息怎么解决
- 世界消息!马龙:小波特仍然是年轻球员 他是我们未来的重要组成部分
- 当前时讯:手机玩具清洁官网在哪下载 最新官方下载安装地址
- 快讯:北京昌平区将完善新能源汽车产业政策体系,支持车企建设交付中心
- 观速讯丨appxstreamingdatasourceps.dll文件丢失如何修复?
- win10蓝屏进不去系统怎么办
- cmd蓝屏该如何修复
- 如何修复遭损坏cdm.dll方法 天天速讯
- 【天天播资讯】不同种类的沙拉酱
- “建功‘两场硬仗’凝聚奋进力量”主题征文活动开启
- 合并塔防好玩吗 合并塔防玩法简介-环球微速讯
- 重庆市江北区市场监管局积极开展“世界认可日”系列活动-天天快资讯
- 为了和中国“竞争”,美国要重新“入群” 全球新资讯
- 《龙之信条2》发布新实机预告 本作地图大小约为前作的四倍
- 当前资讯!文化和旅游部开展文旅市场信用经济发展试点工作
- 当前短讯!《刺客信条:代号Jade》手游新预告 展示战斗画面等
- 天天快播:吉林省敦化市市场监管局开展端午节前食品安全专项检查
- 快看点丨推塔我最快什么时候出 公测上线时间预告
- 全球要闻:史低2629元 Redmi K50至尊版512G上架
- 和风传说游戏《祇:女神之道》将登陆PS5/Steam 具体日期未定
- 招商银行成功发行全球首笔蓝色浮息美元债券_全球今热点
- 海藻颗粒面膜怎么调比例_海藻颗粒面膜怎么调-全球播报
- 天天热讯:安徽省怀远县市场监管局开展粮食购销企业大督查
- 世界快看点丨语文阅读题答题套路参考书(语文阅读题答题套路)
- 安徽省霍山县开展“世界认可日”主题宣传活动_世界播资讯
- 当前速讯:《星球大战:法外狂徒》实机演示 时长长达10分钟
- 安徽省六安市市场监管局集中征集涉企违规收费问题线索_天天快讯
- 世界即时看!丹佛掘金队夺得本赛季NBA总冠军 也是历史上第一次获得总冠军
- 马龙:我们不会满足于只有一个总冠军
- 世界动态:动作冒险新作《Pragmata》将再次延期 发售日待定
- 经检方提起公诉,杨峰涉嫌受贿、洗钱案开审|世界热议
- 环球报道:南洲街开展“党建引领护健康,我为群众办实事”系列活动
- 孙鸿:驰骋田间的女农机手
- 今日看点:泓淋电力:6月12日融资买入529.22万元,融资融券余额7360.67万元
- 租客不交物业费房东可以停水电吗
- 无法打开启动配置数据存储 系统找不到指定的文件_无法打开启动配置数据存储拒绝访问
- 每日消息!6月13日原油市场行情:市场关注通胀数据,油价下探前低
- EDG内讧的4条证据,众人心疼leave家境不好,结果反被嘲讽_天天热点
- 修复in_mp3.dll缺失的最佳方案
- 淮南:专场招聘会助力解决军人后顾之忧
- 怎样可以申请停息挂账需要什么材料?债务委托停息挂账真的吗? 每日热议
- 文化产业园 各有新看点
- 全球看点:北方长龙:6月12日融资买入282.92万元,融资融券余额3580.69万元
- 《双向奔赴》——关爱新就业形态劳动者②:孤旅
- 音乐类综艺:为培养年轻人提供舞台