英伟达最大的风险,在很少人关注的角落里!
今年的英伟达确实“猛”,不遗余力拼算力似乎已经成了科技巨头们的共识,部分原因在于,不少大模型都以对算力需求较高的Transformer为架构,而如果在不断迭代的过程中,Transformer逐步被对算力需求少的架构取代,这是否也将成为英伟达的“潜在风险”?
投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews,在9月3日发布的专栏文章指出,Transformer在训练时支持并行化,与GPU的“爆火”时间点吻合。
GPU拥有更多流处理器,适合对密集数据进行并行处理和并发计算,非常适合且支持基于Transformer的计算工作流负载。
毫无疑问,Transformer的架构非常强大,彻底改变了AI界,但缺点也明显,当文章长度变长,计算复杂度就变得非常高,同时,随着模型规模不断扩大,所需计算量呈指数级增加,这两点都让Transformer的算力需求激增。
Toews指出,为了弥补Transformer存在的问题,包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。
Toews直言,尽管这些架构距离挑战Transformer的“王座”仍有较大差距,但不可否认的是,AI发展过程中新鲜的事物接连出现,不断更新换代的过程中,或许没有什么是永远屹立不倒的。
当算力需求激增之时,从某种程度上说,谁手握英伟达GPU,谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代,那对最大“卖铲人”英伟达来说将构成一定威胁。
Transformer的庞大计算成本
2017年6月12日,《Attention is All You Need》论文横空出世,让大模型领域变天的Transformer架构出现了。截至9月4日,Transformer诞生超过6周年,而这篇论文被引用高达87345次。

分析指出,基于Transformer不断扩展的大模型们,都是以处理性能和功耗方面的高昂成本为代价。因此,虽然人工智能的潜力可能是无限的,但物理和成本却是有限的。
为什么Transformer对算力的要求如此之高?
Toews解释称,主要有以下两个原因:1.注意力(attention)机制的计算复杂度,2.越发庞大的模型规模:
Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系,无论它们的距离有多远。
注意力机制需要将序列中每个词与其他所有词进行配对比较,这导致运算量随序列长度的平方增长,即计算复杂度为O(n^2)。这种平方级复杂度使得随着文本长度增加,所需计算成本急剧上升。
与此同时,Transformer架构可以更好地扩展大模型,所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级,需要大量算力支持。随着模型规模的扩大,所需算力呈指数级上涨。
谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示,由于需要投资AI基础设施,资本支出将比去年的创纪录水平“略高”。
微软最新报告显示,该公司季度资本支出超出预期,首席财务官Amy Hood称原因为加大AI基础设施建设。
微软在今年年初又向OpenAI砸了100亿美元,为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群,以训练其大语言模型。
英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空,现在下单要等2024年第一季度甚至第二季度才能排上队。
Toews指出,上述种种都不难看出,基于Transformer的模型对计算资源的需求之大,以至于当前的人工智能热潮引发了全球GPU供应短缺,硬件制造商无法跟上激增的需求。
Transformer面临的难题
同时,Toews指出,Transformer处理的句子长度受限,已有的方法大多使用截断的方式,这会导致信息损失,因此如何实现长文本的预训练是目前的一大难题。
而这场AI军备竞赛注定还将持续下去,如果 OpenAI、Anthropic或任何其他公司继续使用Transformer架构,那么它们模型的文本序列长度会受限。
Toews指出,人们已经进行了各种尝试来更新Transformer架构,仍然使用注意力机制,但能够更好地处理长序列。然而,这些改进后的Transformer架构(如Longformer、Reformer、Performer、Linformer和Big Bird)通常会牺牲部分性能,因此未能获得采用。
Toews强调,没有一样事物会是完美的,历史的发展也不会停下脚步,尽管Transformer在现在占据绝对的优势地位,但它也并非没有缺点,而这些缺点为新的架构打开了大门。
“王位”挑战者出现了?
Toews认为,现在寻找可以替代"Transformer"的架构成了最有潜力的领域,而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。
Toews强调,斯坦福和Mila的研究人员提出了一种名为Hyena的新架构,具有代替Transformer的潜力,它是一种无注意力、卷积架构,可以匹配注意力模型的质量,同时可以降低计算成本。在次二次多项式NLP任务上表现出色:
据称,Hyena可达到与GPT-4同等的准确性,但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构,具有成为图像分类的通用深度学习运算符的潜力。
Toews表示,需要注意的是,最初的"Hyena"研究是在相对小的规模下进行的。最大的"Hyena"模型具有13亿个参数,而GPT-3有1750亿个参数,而GPT-4据说达到1.8万亿个参数。因此针对"Hyena"架构的一个关键测试将是,在将其扩展到当前"Transformer"模型规模的情况下,它是否能继续表现出强大的性能和效率提升。
Toews认为,而液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员从微小的秀丽隐杆线虫(Caenorhabditis elegans)中汲取灵感,创造了所谓的 “液态神经网络” (liquid neural networks)。
据称,液态神经网络不仅速度更快,而且异常稳定,这意味着系统可以处理大量的输入而不至于失控。
Toews认为这种较小的架构意味着液态神经网络比"Transformer"更加透明且更易于人类理解:
毕竟,对于人类来说,更容易解释具有253个连接的网络发生了什么,而不是拥有1750亿个连接的网络。
当架构不断改进,逐渐减少了对算力的依赖,是否也意味着会对未来英伟达的营收产生影响?
免责声明:本网所发所有文章,包括本网原创、编译及转发的第三方稿件及评论,均不构成任何投资建议,交易操作或投资决定请询问专业人士。
作者:葛佳明
文章来源: 华尔街见闻
相关阅读
-
英伟达DLSS 5采用生成式AI提升游戏真实感 黄仁勋:图形技术领域的GPT时刻
伟达首席执行官黄仁勋在周一的GTC大会主题演讲中发布了NVIDIA DLSS 5,这是这家芯片制造商AI图形技术的新版本,旨在在降低算力资源消耗的同时,使电子游戏画面更加逼真。
-
全程回顾黄仁勋“全栈AI”演讲:万亿美元新蓝图启动
北京时间周二清晨,英伟达创始人兼首席执行官黄仁勋在超过两个小时的“全栈AI”演讲中,勾勒出算力巨头未来一年的发展蓝图。
-
AI云公司Nebius获英伟达20亿美元投资 股价单日飙涨两位数
周三(3月11日)美股盘中,人工智能云公司Nebius Group涨近14%,先前英伟达宣布将向该公司投资20亿美元。
-
英伟达重磅投资Thinking Machines 将部署1吉瓦算力训练AI模型
人工智能初创公司Thinking Machines Lab周二表示,已与英伟达达成一项多年期合作协议,英伟达将对其进行一笔重大投资,同时该公司还将采购至少1吉瓦规模的英伟达下一代处理器,用于训练并运行其前沿AI模型。
-
黄仁勋:对OpenAI的300亿美元投资“可能是最后一次” OpenAI有望在今年年底前启动IPO
英伟达首席执行官黄仁勋表示,公司近期对OpenAI的300亿美元投资,可能将是其在该公司上市前的最后一次投资。他预计,OpenAI有望在今年年底前启动IPO。
-
英伟达扩张生态圈:分别向两家光学技术公司投资20亿美元
当地时间周一(3月2日),英伟达在官网宣布,与Lumentum和Coherent达成战略协议,将分别向这两家光学技术公司投资20亿美元。
-
全球市场:美股涨跌不一、欧股普跌 英伟达涨近3% 白银跳水
美股三大指数03月02日收盘涨跌不一。截至收盘,道琼斯工业平均指数比前一交易日下跌73.14点,收于48904.78点,跌幅为0.15%;标准普尔500种股票指数上涨2.74点,收于6881.62点,涨幅为0.04%;纳斯达克综合指数上涨80.65点,收于22748.86点,涨幅为0.36%。
-
全球市场:美股三大指数收盘涨跌不一 纳指跌逾1% 英伟达跌超5%
美股三大指数02月26日收盘涨跌不一。截至收盘,道琼斯工业平均指数比前一交易日上涨17.05点,收于49499.2点,涨幅为0.03%;标准普尔500种股票指数下跌37.27点,收于6908.86点,跌幅为0.54%;纳斯达克综合指数下跌273.7点,收于22878.38点,跌幅为1.18%。
免责声明:本网站信息仅供一般参考,不构成投资或财务建议。虽力求准确与完整,但不保证信息的准确性、完整性或时效性。投资有风险,决策前请咨询专业独立顾问。使用本网站即视为接受本免责声明。
热门点击
-
- 油价近期上涨逾三成加油站排队加油 能源大国澳大利亚也怕“油不够”?
-
- 【3.16】今日财经时讯及重要市场资讯
-
- 澳能源部长确认澳洲已陷入能源危机 部分城镇加油站“燃料售罄”
-
- 澳洲ETF投资者在市场波动期间加码注资 上周资金流入达4.97亿澳元
-
- 澳洲联邦银行深入调查大规模贷款欺诈 向警方举报涉案券商、会计师事务所
-
- 跻身澳股普通股指数成分股 TGME建设迈入新阶段 Theta Gold Mines(ASX:TGM)加速迈向2027年首金
-
- 采访札记|上市即开钻 两个月内披露14孔截获金矿化 Moonlight(ASX: ML8)加速推进Clermont金矿资源界定 未来数月或迎来诸多里程碑事件
-
- 【异动股】重卡电气化创新企业Janus Electric(ASX:JNS)成功获得275万澳元战略资金支持 助力实现零排放路线图
-
- ASX成国际企业上市新热土 2025年赴澳交所挂牌海外上市公司数量激增四倍 金属矿业股为主力
-
- 澳大利亚外长:约11万澳大利亚人在中东 1.1万人登记希望离境
-
- 【3.17】今日财经时讯及重要市场资讯
-
- 【异动股】Immutep(ASX:IMM) 暴跌88%后大幅反弹 III期肺癌试验终止 研发管线后继乏力 股价强震之后何去何从?
-
- 战火炎炎VS 黄金坚挺不倒 金矿股迈向盘整期 机构继续看好金价 Q4或达6000美元
-
- 澳储行宣布3月官方现金利率调升25个基点至4.1% 市场预期年内还将三次加息
-
- Gina Rinehart持股锂生产商Liontown (ASX:LTR) 中期产量攀升70% 地下矿场产能加速释放 账面现金盈余4亿澳元

