app store账号购买

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

微信实名带支付自助下单可以吗
快20倍还低廉 NVIDIA GPU的“掘墓东谈主”出现了? - cnBeta.COM 迁徙版(WAP)
发布日期:2024-07-03 06:39    点击次数:161

快20倍还低廉 NVIDIA GPU的“掘墓东谈主”出现了? - cnBeta.COM 迁徙版(WAP)

芯片初创公司Etched近日书记推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并宣称其在AI大言语模子(LLM)推感性能方面打败了NVIDIA最新的B200 GPU,AI性能达到了H100的20倍。这也意味着Sohu芯片将不错大幅裁减现存AI数据中心的采购本钱和装置本钱。

目下,Etched公司已就其Sohu芯片的分娩与台积电4nm工艺伸开顺利相助,而且已从顶级供应商处取得填塞的 HBM 和作事器供应,以快速提高第一年的分娩材干。

一些早期客户仍是向Etched公司预订了数千万好意思元的硬件。

一、AI性能特等NVIDIA H100的20倍,是如何作念到的?

据Etched公司先容,Sohu是天下上第一个基于Transformer架构的ASIC。

把柄Etched公司表示的数据剖析,一台配备了8颗Sohu芯片的作事器每秒不错解决特等 500,000 个 Llama 70B Token,达到了一样配备8张NVIDIA H100 GPU加快卡的作事器的20倍。

一样,也远远特等了配备8张NVIDIA最新的B200 GPU加快卡的作事器约10倍。

△基准测试针对的是 FP8 精度的 Llama-3 70B:无寥落性、8x 模子并行、2048 输入/128 输出长度。使用 TensorRT-LLM 0.10.08(最新版块)狡计的 8xH100,8xGB200 的数字是估算的。

Etched公司暗示,Sohu速率比NVIDIA的最新一代Blackwell架构的B200 GPU还要快一个数目级,而且价钱更低廉。不错匡助客户构建 GPU 无法斥逐的产物。

不外,这里照旧要强调以下,天然Sohu的AI性能要比NVIDIAGPU更好,但这是有一个前提的,因为Sohu是专为基于Transformer架构的大模子定制的,是以其也仅支合手基于Transformer架构的大模子加快。

“通过将Transformer架构集成到咱们的芯片中,天然无法运行大大量传统的 AI 模子,比如为 Instagram 告白提供支合手的 DLRM、像 AlphaFold 2 这么的卵白质折叠模子、像 Stable Diffusion 2 这么的旧的图像模子,以及CNN、RNN 或 LSTM等模子,然则针对基于Transformer架构的大模子,Sohu将是有史以来最快的AI芯片,莫得哪个芯片八成与之匹敌。”Etched公司说谈。

1、更高的狡计愚弄率

由于Sohu只运行Transformer这一种类型的算法,因此不错删除绝大大量戒指流逻辑,从而领有更大量学狡计逻辑。因此,Sohu的 FLOPS 愚弄率特等 90%(而使用 TRT-LLM 的GPU上 FLOPS 愚弄率约为 30%)。

天然NVIDIA H200 领有 989 TFLOPS 的 FP16/BF16 狡计材干(无寥落性),这无疑长短常强盛的,以至比谷歌的新 Trillium 芯片还要好。

但NVIDIA仍是发布的B200的狡计材干仅跳动25%(每个芯片 1,250 TFLOPS)。这是由于 GPU 的绝大部分区域齐用于可编程性,因此专注于 Transformer 不错让芯片进行更多的狡计。

比如,构建单个 FP16/BF16/FP8 乘加电路需要 10,000 个晶体管,这是整个矩阵数学的基石。NVIDIA H100 SXM 有 528 个张量中枢,每个齐有4 x 8 × 16FMA 电路。

因此,NVIDIA H100 有 27 亿个专用于张量中枢的晶体管。然则 H100 领有 800 亿个晶体管!这意味着 H100 GPU 上惟有 3.3% 的晶体管用于矩阵乘法!

这是NVIDIA和其他机动的 AI 芯片过程三念念尔后行的联想决定的。如果想要支合手整个类型的模子(比如CNN、LSTM、SSM 等),那么莫得比这更好的联想了。

而Etched公司的Sohu芯片仅支合手运行Transformer架构的AI大模子,这使得其不错在芯片上装置更多的 FLOPS,且无需裁减精度或寥落性。

2、晋升内存带宽愚弄率

时常来说,AI推痛快受到内存带宽的斥逐,狡计的斥逐相对较小。然则事实上,关于像Llama-3这么的当代模子来说,需要更高的狡计力来晋升带宽的愚弄率。

如果使用NVIDIA和 AMD 的圭臬基准:2048 个输入标记和 128 个输出标记。大大量 AI 产物的辅导比完成时候长得多(即使是新的 Claude 聊天应用在系统辅导中也有 1,000 多个标记)。

在 GPU 和Sohu上,推理是分批运行的。每个批次加载一次整个模子权重,并在批次中的每个标记中重迭使用它们。

时常,大言语模子输入是狡计密集型的,而输出是内存密集型的。当咱们将输入和输出标记与连结批解决相聚积时,责任负载变得相配狡计密集型。

以下是大言语模子连结批解决的示例。这里咱们运行具有四个输入标记和四个输出标记的序列;每种热情齐是不同的序列。

咱们不错推广一样的时间来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果咱们这么作念,每个批次将需要梗概(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs,而只需要加载70B params × 2 bytes per param = 140 GB模子权重和梗概127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV缓存权重。这比内存带宽要多得多。

NVIDIA H200需要6.8 PFLOPS的狡计才能最大执法地愚弄其内存带宽。这是在100%的愚弄率下——如果愚弄率为30%,将需要3倍的狡计量。

由于Sohu领有如斯之多的狡计材干且愚弄率极高,因此不错运行巨大的浑沌量而不会出现内存带宽瓶颈。

3、软件问题不再是一场恶梦

在 GPU 和 TPU 上,时常软件开辟是一场恶梦。解决落拓 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(AMD、英特尔、AWS 等)在软件上悉数破耗了数十亿好意思元,但成效甚微。

但由于Etched公司的Sohu只运行Transformers,因此开辟东谈主员只需要为 Transformer 编写软件!

大大量运行开源或里面模子的公司齐使用特定于 Transformer 的推理库,如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架相配僵化 ——天然你不错调理模子超参数,但本色上不支合手转变底层模子代码。但这不错误,因为整个 Transformer 模子齐相配相似(以至是文本/图像/视频模子),调理超参数就是你的确需要的。

天然这支合手了 95% 的 AI 公司,但最大的 AI 实验室照旧剿袭定制化。他们有工程师团队手动调理 GPU 内核以挤出更多的愚弄率,逆向工程哪些寄存器对每个张量中枢的延伸最低。

Etched公司暗示,“有了Sohu,您不再需要进行逆向工程。因为咱们的软件(从驱动面孔到内核再到作事堆栈)齐将是开源的。如果您想斥逐自界说转变器层,您的内核向导不错解放地这么作念。”

4、本钱上风

关于目下的AI基础商场运营商来说,NVIDIA的AI GPU是最为忻悦的一项投资,其H100 80G版块的价钱高达3万好意思元,即等于低廉的英特尔Gaudi 3 的价钱也要15,650好意思元控制。

现在一座大型的AI数据中心的建树仍是达到了数百亿好意思元,以至传说微软和OpenAI正盘算推出被称为“星际之门”(Stargate)的AI超等狡计机,用来为OpenAI提供更强的算力支合手,该技俩的总本钱或将特等1150亿好意思元。明白,这当中NVIDIAAI GPU将会占据相配大的一部分本钱。

而且这些高能耗的GPU还将会带来弘大的能源供应支拨(按照现存的发展速率,好多地区的能源供应仍是不及以支合手大型AI数据中心的建树)互联支拨和散热支拨。

如果一颗Etched的Sohu芯片就八成代替20颗NVIDIA H100芯片,那么这无疑将会带来巨大的采购及建树本钱和运营本钱的裁减。

二、专用芯片替代GPU已不可幸免

在Etched看来,比年来天然GPU性能得到了增长,然则本色上并莫得变得更好,因为主若是通过更先进的制程工艺以及更大的芯单方面积来斥逐的。

近四年来,GPU芯片单元面积的狡计材干 (TFLOPS) 险些保合手不变。比如NVIDIA的GB200、AMD的MI300、英特尔的Gaudi 3 和亚马逊的Trainium2 险些齐将两块芯片手脚称一张加快卡,以斥逐“双倍”性能。

面对越来越弘大的大言语模子关于AI算力需求的快速增长,GPU芯片在摩尔定律放缓以及单元面积AI算力晋升放缓的布景之下,仍是难以餍足需求,因此提高性能的独一法子就是剿袭专用芯片。

Etched公司指出,在Transformer架构的模子总揽天下之前,许多公司齐构建了机动的 AI 芯片和 GPU 来解决数百种不同的算法模子。

比如:NVIDIA的GPU、谷歌的TPU、亚马逊的 Trainium、AMD的MI系列加快器、英特尔的Gaudi加快器、Graphcore 的 IPU、SambaNova SN 系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武纪的念念源等。

然则险些莫得厂商制造过特意针对Transformer架构算法的专用 AI 芯片 (ASIC)。因为一个芯片技俩至少将破耗 5000 万到 1 亿好意思元,需要数年时候才能参加分娩。

如简直的一个特定算法模子推出专用的AI芯片,很可能在这时间由于新的更优秀算法架构出现,而使得正本的专用的AI芯片不再灵验,这将会莫得商场。

然则现在情况变了,Transformer 架构的算法模子商场界限正在速即增长。在 ChatGPT 出现之前,Transformer 推理的商场界限约为 5000 万好意思元,而现在已达到数十亿好意思元。

整个大型科技公司齐使用 Transformer 架构的模子,比如OpenAI、谷歌、亚马逊、微软、Meta 等。

另外,AI算法过程多年的发展,仍是运转出现架构上的交融趋势。AI模子昔日发展很快,因此可能每个几个月就会有新的AI模子出来。

然则自GPT-2以来,着手进的模子架构险些保合手不变,无论是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa,以至 Tesla FSD 齐是基于Transformer架构。

△基于Transformer架构的模子惊东谈主地相似。诸如 SwiGLU 激活和 RoPE 编码之类的调理被平凡应用于LLM、镶嵌模子、图像诞生和视频生成。

△天然 GPT-2 和 Llama-3 是相隔五年的着手进的 (SoTA) 模子,但它们的架构险些调换,独一的主要阔别是界限。

在此布景之下,如果算法模子架构运转趋于领悟,那么想要进一步晋升算力,专拥的ASIC芯片将会是很好的遴荐。

止境是在目下基于GPU的AI考试和推理基础设施本钱特等100亿好意思元时,这么忻悦的本钱的压力之下,专用的AISC是不可幸免的,因为1%的矫正就足以袒护专用AISC的本钱。

事实上,在特定算法模子上,ASIC 的速率可能会比 GPU 快几个数目级。比如,当针对比特币矿机的AISC芯片于 2014 年进入商场时,传统的愚弄GPU 来“挖矿”的作念法很快被废弃,因为使用AISC比使用GPU来挖掘比特币更低廉。

明白,在AI算法模子基础架构运转趋于领悟,GPU算力晋升遇到瓶颈以及本钱越来越高的情况下,东谈主工智能界限可能也将会发生一样的事情。这也恰是Etched公司下重注推出基于Transformer架构专用的AISC芯片 “Sohu”的原因。

三、关于畴昔的一场豪赌

与NVIDIA等头部的AI公司一样,Etched公司也展望,在五年内,AI模子在大大量圭臬化测试中将变得比东谈主类更灵巧。

Etched公司进一步指出, Meta考试的 Llama 400B(2024 SoTA,比大大量东谈主类齐灵巧)所用的狡计量,比 OpenAI 在 GPT-2(2019 SoTA)上所用的狡计量要跳动 50,000 倍。通过为东谈主工智能模子提供更多狡计力和更好的数据,它们会变得更灵巧。

人靠衣装、佛靠金装,在时尚的比拼上,会穿衣就赢了一半。那些会穿衣的女人,更懂得迎合自己的气质、也懂得如何去扬长避短。

界限化将是畴昔几十年来独一合手续灵验的诀窍,每家大型东谈主工智能公司(谷歌、OpenAI / 微软、Anthropic / 亚马逊等)齐将在畴昔几年参加特等 1000亿好意思元来保合手界限的增长。咱们正处于有史以来最大界限的基础设施建树中。

OpenAI 首席执行官Sam Altman此前就曾暗示:“界限化如实是一件功德。当咱们在太阳周围建造出戴森球时,咱们就不错商讨是否应该住手界限化,但在此之前不成住手。”

Anthropic 首席执行官 Dario Amodei也暗示:“我以为 (咱们)的界限不错扩大到 1000 亿好意思元,咱们将在几年内斥逐这一方针。”

不外,如果按照现在的AI数据中默算力,再扩大 1,000 倍,将会靠近相配腾贵的本钱。下一代数据中心的本钱将特等一个小国一年的GDP。按照目下的速率,现存的硬件、电网和资金参加齐跟不上需求。

Etched公司暗示:“咱们并不挂牵数据消耗。无论是通过合成数据、防范管谈照旧新的 AI 标记数据源,咱们齐以为数据问题本色上是推理狡计问题。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎齐同意这一不雅点。”

基于这么的发展趋势,Etched公司以为,畴昔八成告捷的大模子一定会是那些八成在硬件上运行速率最快、本钱最低的模子。

Transformer 功能强盛、实用且利润丰厚,足以在替代决策出现之前专揽每个主要的 AI 狡计商场。

目下,Transformer 正在为每款大型 AI 产物提供能源:从代理到搜索再到聊天。好多AI 实验室已参加数亿好意思元进行研发,以优化 GPU 以支合手 Transformer。

而且面前的和下一代着手进的大模子也齐是 Transformer架构的。

m.noname1.xyz

跟着这些大模子的界限在畴昔几年内所需要的硬件资源从 10 亿好意思元扩大到 100 亿好意思元,再到 1000 亿好意思元,测试新架构的风险也随之飙升。

与其重新测试缩放定律和性能,不如花时候在 Transformer 之上构立功能,举例多标记展望等。

现在的好多软件堆栈也针对 Transformer 进行了优化。每个流行的库(TensorRT-LLM、vLLM、Huggingface TGI 等)齐有用于在 GPU 上运行 Transformer 架构模子的畸形内核。

许多基于Transformer 构建的功能在替代决策中不易取得支合手(举例揣摸解码、树搜索)。

是以,畴昔的硬件堆栈也将合手续针对 Transformer 进行优化。比如,NVIDIA的 GB200 止境支合手 Transformer(TransformerEngine)。

在Etched公司看来,Transformer架构就是畴昔,“如果咱们猜对了,Soho将改变天下。这就是咱们下注的原因。”Etched公司在网站上写谈。

在2022年的时候,Etched公司就仍是运转下注,运转研发基于Transformer架构的Sohu芯片,那时ChatGPT还莫得推出,图像和视频生成模子是 U-Nets,自动驾驶汽车由 CNN 驱动,而 Transformer 架构并未无处不在。明白这是一场豪赌。

天然现在看来,Sohu不错支合手整个的Transformer架构的AI大模子,比如OpenAI的GPT、Sora,谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等,然则在两年前,这些模子齐还莫得出现。

如果,Transformer架构的AI大模子莫得成为主流,再加上无法支合手CNN、RNN 、LSTM等传统模子以及SSM、RWKV 或其他的全新架构的AI大模子,那么Sohu将会毫毋庸处。

红运的是,从目下来看,时局仍是对Etched公司成心。从言语到视觉,每个界限的顶级模子现在齐是基于Transformer架构的。

这种交融不仅考证了Etched公司下对了赌注,也有望使Sohu成为十年来最垂危的硬件技俩。

“像 Sohu 这么的 ASIC 芯片进入商场,标志着进入一条不归路。其他Transformer “杀手”要想班师,需要在 GPU 上的运行速率需要比 Transformer 在 Sohu 芯片上的运行速率更快。

如果发生这种情况,咱们也会为此构重新建一个 ASIC!”Etched公司相配刚烈的说谈。

终末说一句,Etched公司的见识与芯智讯在多年前所写的《NVIDIA的AI盛世危险!》所抒发的中枢不雅点访佛,即GPU并是不专为解决特定AI算法所联想的,其上风在于比其他AI芯片更通用,不错相宜各式AI算法,然则当畴昔AI算法的演进运转趋于领悟时,那么届时专用的面向特定算法的更高效的ASIC芯片无疑将会更具上风。

现在越来越多的云作事厂商齐有推出自研的云霄AI芯片也恰是适当这一趋势买个qq号上面有实名制怎么办。