快20倍还低廉 NVIDIA GPU的“掘墓东谈主”出现了？ - cnBeta.COM 迁徙版(WAP)

微信实名带支付自助下单可以吗

发布日期：2024-07-03 06:39 点击次数：161

快20倍还低廉 NVIDIA GPU的“掘墓东谈主”出现了？ - cnBeta.COM 迁徙版(WAP)

芯片初创公司Etched近日书记推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”，并宣称其在AI大言语模子（LLM）推感性能方面打败了NVIDIA最新的B200 GPU，AI性能达到了H100的20倍。这也意味着Sohu芯片将不错大幅裁减现存AI数据中心的采购本钱和装置本钱。

目下，Etched公司已就其Sohu芯片的分娩与台积电4nm工艺伸开顺利相助，而且已从顶级供应商处取得填塞的 HBM 和作事器供应，以快速提高第一年的分娩材干。

一些早期客户仍是向Etched公司预订了数千万好意思元的硬件。

一、AI性能特等NVIDIA H100的20倍，是如何作念到的？

据Etched公司先容，Sohu是天下上第一个基于Transformer架构的ASIC。

把柄Etched公司表示的数据剖析，一台配备了8颗Sohu芯片的作事器每秒不错解决特等 500，000 个 Llama 70B Token，达到了一样配备8张NVIDIA H100 GPU加快卡的作事器的20倍。

一样，也远远特等了配备8张NVIDIA最新的B200 GPU加快卡的作事器约10倍。

△基准测试针对的是 FP8 精度的 Llama-3 70B：无寥落性、8x 模子并行、2048 输入/128 输出长度。使用 TensorRT-LLM 0.10.08（最新版块）狡计的 8xH100，8xGB200 的数字是估算的。

Etched公司暗示，Sohu速率比NVIDIA的最新一代Blackwell架构的B200 GPU还要快一个数目级，而且价钱更低廉。不错匡助客户构建 GPU 无法斥逐的产物。

不外，这里照旧要强调以下，天然Sohu的AI性能要比NVIDIAGPU更好，但这是有一个前提的，因为Sohu是专为基于Transformer架构的大模子定制的，是以其也仅支合手基于Transformer架构的大模子加快。

“通过将Transformer架构集成到咱们的芯片中，天然无法运行大大量传统的 AI 模子，比如为 Instagram 告白提供支合手的 DLRM、像 AlphaFold 2 这么的卵白质折叠模子、像 Stable Diffusion 2 这么的旧的图像模子，以及CNN、RNN 或 LSTM等模子，然则针对基于Transformer架构的大模子，Sohu将是有史以来最快的AI芯片，莫得哪个芯片八成与之匹敌。”Etched公司说谈。

1、更高的狡计愚弄率

由于Sohu只运行Transformer这一种类型的算法，因此不错删除绝大大量戒指流逻辑，从而领有更大量学狡计逻辑。因此，Sohu的 FLOPS 愚弄率特等 90%（而使用 TRT-LLM 的GPU上 FLOPS 愚弄率约为 30%）。

天然NVIDIA H200 领有 989 TFLOPS 的 FP16/BF16 狡计材干（无寥落性），这无疑长短常强盛的，以至比谷歌的新 Trillium 芯片还要好。

但NVIDIA仍是发布的B200的狡计材干仅跳动25%（每个芯片 1，250 TFLOPS）。这是由于 GPU 的绝大部分区域齐用于可编程性，因此专注于 Transformer 不错让芯片进行更多的狡计。

比如，构建单个 FP16/BF16/FP8 乘加电路需要 10，000 个晶体管，这是整个矩阵数学的基石。NVIDIA H100 SXM 有 528 个张量中枢，每个齐有4 x 8 × 16FMA 电路。

因此，NVIDIA H100 有 27 亿个专用于张量中枢的晶体管。然则 H100 领有 800 亿个晶体管！这意味着 H100 GPU 上惟有 3.3% 的晶体管用于矩阵乘法！

这是NVIDIA和其他机动的 AI 芯片过程三念念尔后行的联想决定的。如果想要支合手整个类型的模子（比如CNN、LSTM、SSM 等），那么莫得比这更好的联想了。

而Etched公司的Sohu芯片仅支合手运行Transformer架构的AI大模子，这使得其不错在芯片上装置更多的 FLOPS，且无需裁减精度或寥落性。

2、晋升内存带宽愚弄率

时常来说，AI推痛快受到内存带宽的斥逐，狡计的斥逐相对较小。然则事实上，关于像Llama-3这么的当代模子来说，需要更高的狡计力来晋升带宽的愚弄率。

如果使用NVIDIA和 AMD 的圭臬基准：2048 个输入标记和 128 个输出标记。大大量 AI 产物的辅导比完成时候长得多（即使是新的 Claude 聊天应用在系统辅导中也有 1，000 多个标记）。

在 GPU 和Sohu上，推理是分批运行的。每个批次加载一次整个模子权重，并在批次中的每个标记中重迭使用它们。

时常，大言语模子输入是狡计密集型的，而输出是内存密集型的。当咱们将输入和输出标记与连结批解决相聚积时，责任负载变得相配狡计密集型。

以下是大言语模子连结批解决的示例。这里咱们运行具有四个输入标记和四个输出标记的序列；每种热情齐是不同的序列。

咱们不错推广一样的时间来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果咱们这么作念，每个批次将需要梗概(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs，而只需要加载70B params × 2 bytes per param = 140 GB模子权重和梗概127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV缓存权重。这比内存带宽要多得多。

NVIDIA H200需要6.8 PFLOPS的狡计才能最大执法地愚弄其内存带宽。这是在100%的愚弄率下——如果愚弄率为30%，将需要3倍的狡计量。

由于Sohu领有如斯之多的狡计材干且愚弄率极高，因此不错运行巨大的浑沌量而不会出现内存带宽瓶颈。

3、软件问题不再是一场恶梦

在 GPU 和 TPU 上，时常软件开辟是一场恶梦。解决落拓 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（AMD、英特尔、AWS 等）在软件上悉数破耗了数十亿好意思元，但成效甚微。

但由于Etched公司的Sohu只运行Transformers，因此开辟东谈主员只需要为 Transformer 编写软件！

大大量运行开源或里面模子的公司齐使用特定于 Transformer 的推理库，如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架相配僵化 ——天然你不错调理模子超参数，但本色上不支合手转变底层模子代码。但这不错误，因为整个 Transformer 模子齐相配相似（以至是文本/图像/视频模子），调理超参数就是你的确需要的。

天然这支合手了 95% 的 AI 公司，但最大的 AI 实验室照旧剿袭定制化。他们有工程师团队手动调理 GPU 内核以挤出更多的愚弄率，逆向工程哪些寄存器对每个张量中枢的延伸最低。

Etched公司暗示，“有了Sohu，您不再需要进行逆向工程。因为咱们的软件（从驱动面孔到内核再到作事堆栈）齐将是开源的。如果您想斥逐自界说转变器层，您的内核向导不错解放地这么作念。”

4、本钱上风

关于目下的AI基础商场运营商来说，NVIDIA的AI GPU是最为忻悦的一项投资，其H100 80G版块的价钱高达3万好意思元，即等于低廉的英特尔Gaudi 3 的价钱也要15，650好意思元控制。

现在一座大型的AI数据中心的建树仍是达到了数百亿好意思元，以至传说微软和OpenAI正盘算推出被称为“星际之门”（Stargate）的AI超等狡计机，用来为OpenAI提供更强的算力支合手，该技俩的总本钱或将特等1150亿好意思元。明白，这当中NVIDIAAI GPU将会占据相配大的一部分本钱。

而且这些高能耗的GPU还将会带来弘大的能源供应支拨（按照现存的发展速率，好多地区的能源供应仍是不及以支合手大型AI数据中心的建树）互联支拨和散热支拨。

如果一颗Etched的Sohu芯片就八成代替20颗NVIDIA H100芯片，那么这无疑将会带来巨大的采购及建树本钱和运营本钱的裁减。

二、专用芯片替代GPU已不可幸免

在Etched看来，比年来天然GPU性能得到了增长，然则本色上并莫得变得更好，因为主若是通过更先进的制程工艺以及更大的芯单方面积来斥逐的。

近四年来，GPU芯片单元面积的狡计材干 (TFLOPS) 险些保合手不变。比如NVIDIA的GB200、AMD的MI300、英特尔的Gaudi 3 和亚马逊的Trainium2 险些齐将两块芯片手脚称一张加快卡，以斥逐“双倍”性能。

面对越来越弘大的大言语模子关于AI算力需求的快速增长，GPU芯片在摩尔定律放缓以及单元面积AI算力晋升放缓的布景之下，仍是难以餍足需求，因此提高性能的独一法子就是剿袭专用芯片。

Etched公司指出，在Transformer架构的模子总揽天下之前，许多公司齐构建了机动的 AI 芯片和 GPU 来解决数百种不同的算法模子。

比如：NVIDIA的GPU、谷歌的TPU、亚马逊的 Trainium、AMD的MI系列加快器、英特尔的Gaudi加快器、Graphcore 的 IPU、SambaNova SN 系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武纪的念念源等。

然则险些莫得厂商制造过特意针对Transformer架构算法的专用 AI 芯片 (ASIC)。因为一个芯片技俩至少将破耗 5000 万到 1 亿好意思元，需要数年时候才能参加分娩。

如简直的一个特定算法模子推出专用的AI芯片，很可能在这时间由于新的更优秀算法架构出现，而使得正本的专用的AI芯片不再灵验，这将会莫得商场。

然则现在情况变了，Transformer 架构的算法模子商场界限正在速即增长。在 ChatGPT 出现之前，Transformer 推理的商场界限约为 5000 万好意思元，而现在已达到数十亿好意思元。

整个大型科技公司齐使用 Transformer 架构的模子，比如OpenAI、谷歌、亚马逊、微软、Meta 等。

另外，AI算法过程多年的发展，仍是运转出现架构上的交融趋势。AI模子昔日发展很快，因此可能每个几个月就会有新的AI模子出来。

然则自GPT-2以来，着手进的模子架构险些保合手不变，无论是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa，以至 Tesla FSD 齐是基于Transformer架构。

△基于Transformer架构的模子惊东谈主地相似。诸如 SwiGLU 激活和 RoPE 编码之类的调理被平凡应用于LLM、镶嵌模子、图像诞生和视频生成。

△天然 GPT-2 和 Llama-3 是相隔五年的着手进的 (SoTA) 模子，但它们的架构险些调换，独一的主要阔别是界限。

在此布景之下，如果算法模子架构运转趋于领悟，那么想要进一步晋升算力，专拥的ASIC芯片将会是很好的遴荐。

止境是在目下基于GPU的AI考试和推理基础设施本钱特等100亿好意思元时，这么忻悦的本钱的压力之下，专用的AISC是不可幸免的，因为1%的矫正就足以袒护专用AISC的本钱。

事实上，在特定算法模子上，ASIC 的速率可能会比 GPU 快几个数目级。比如，当针对比特币矿机的AISC芯片于 2014 年进入商场时，传统的愚弄GPU 来“挖矿”的作念法很快被废弃，因为使用AISC比使用GPU来挖掘比特币更低廉。

明白，在AI算法模子基础架构运转趋于领悟，GPU算力晋升遇到瓶颈以及本钱越来越高的情况下，东谈主工智能界限可能也将会发生一样的事情。这也恰是Etched公司下重注推出基于Transformer架构专用的AISC芯片 “Sohu”的原因。

三、关于畴昔的一场豪赌

与NVIDIA等头部的AI公司一样，Etched公司也展望，在五年内，AI模子在大大量圭臬化测试中将变得比东谈主类更灵巧。

Etched公司进一步指出， Meta考试的 Llama 400B（2024 SoTA，比大大量东谈主类齐灵巧）所用的狡计量，比 OpenAI 在 GPT-2（2019 SoTA）上所用的狡计量要跳动 50，000 倍。通过为东谈主工智能模子提供更多狡计力和更好的数据，它们会变得更灵巧。

人靠衣装、佛靠金装，在时尚的比拼上，会穿衣就赢了一半。那些会穿衣的女人，更懂得迎合自己的气质、也懂得如何去扬长避短。

界限化将是畴昔几十年来独一合手续灵验的诀窍，每家大型东谈主工智能公司（谷歌、OpenAI / 微软、Anthropic / 亚马逊等）齐将在畴昔几年参加特等 1000亿好意思元来保合手界限的增长。咱们正处于有史以来最大界限的基础设施建树中。

OpenAI 首席执行官Sam Altman此前就曾暗示：“界限化如实是一件功德。当咱们在太阳周围建造出戴森球时，咱们就不错商讨是否应该住手界限化，但在此之前不成住手。”

Anthropic 首席执行官 Dario Amodei也暗示：“我以为（咱们）的界限不错扩大到 1000 亿好意思元，咱们将在几年内斥逐这一方针。”

不外，如果按照现在的AI数据中默算力，再扩大 1，000 倍，将会靠近相配腾贵的本钱。下一代数据中心的本钱将特等一个小国一年的GDP。按照目下的速率，现存的硬件、电网和资金参加齐跟不上需求。

Etched公司暗示：“咱们并不挂牵数据消耗。无论是通过合成数据、防范管谈照旧新的 AI 标记数据源，咱们齐以为数据问题本色上是推理狡计问题。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎齐同意这一不雅点。”

基于这么的发展趋势，Etched公司以为，畴昔八成告捷的大模子一定会是那些八成在硬件上运行速率最快、本钱最低的模子。

Transformer 功能强盛、实用且利润丰厚，足以在替代决策出现之前专揽每个主要的 AI 狡计商场。

目下，Transformer 正在为每款大型 AI 产物提供能源：从代理到搜索再到聊天。好多AI 实验室已参加数亿好意思元进行研发，以优化 GPU 以支合手 Transformer。

而且面前的和下一代着手进的大模子也齐是 Transformer架构的。

m.noname1.xyz

跟着这些大模子的界限在畴昔几年内所需要的硬件资源从 10 亿好意思元扩大到 100 亿好意思元，再到 1000 亿好意思元，测试新架构的风险也随之飙升。

与其重新测试缩放定律和性能，不如花时候在 Transformer 之上构立功能，举例多标记展望等。

现在的好多软件堆栈也针对 Transformer 进行了优化。每个流行的库（TensorRT-LLM、vLLM、Huggingface TGI 等）齐有用于在 GPU 上运行 Transformer 架构模子的畸形内核。

许多基于Transformer 构建的功能在替代决策中不易取得支合手（举例揣摸解码、树搜索）。

是以，畴昔的硬件堆栈也将合手续针对 Transformer 进行优化。比如，NVIDIA的 GB200 止境支合手 Transformer（TransformerEngine）。

在Etched公司看来，Transformer架构就是畴昔，“如果咱们猜对了，Soho将改变天下。这就是咱们下注的原因。”Etched公司在网站上写谈。

在2022年的时候，Etched公司就仍是运转下注，运转研发基于Transformer架构的Sohu芯片，那时ChatGPT还莫得推出，图像和视频生成模子是 U-Nets，自动驾驶汽车由 CNN 驱动，而 Transformer 架构并未无处不在。明白这是一场豪赌。

天然现在看来，Sohu不错支合手整个的Transformer架构的AI大模子，比如OpenAI的GPT、Sora，谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等，然则在两年前，这些模子齐还莫得出现。

如果，Transformer架构的AI大模子莫得成为主流，再加上无法支合手CNN、RNN 、LSTM等传统模子以及SSM、RWKV 或其他的全新架构的AI大模子，那么Sohu将会毫毋庸处。

红运的是，从目下来看，时局仍是对Etched公司成心。从言语到视觉，每个界限的顶级模子现在齐是基于Transformer架构的。

这种交融不仅考证了Etched公司下对了赌注，也有望使Sohu成为十年来最垂危的硬件技俩。

“像 Sohu 这么的 ASIC 芯片进入商场，标志着进入一条不归路。其他Transformer “杀手”要想班师，需要在 GPU 上的运行速率需要比 Transformer 在 Sohu 芯片上的运行速率更快。

如果发生这种情况，咱们也会为此构重新建一个 ASIC！”Etched公司相配刚烈的说谈。

终末说一句，Etched公司的见识与芯智讯在多年前所写的《NVIDIA的AI盛世危险！》所抒发的中枢不雅点访佛，即GPU并是不专为解决特定AI算法所联想的，其上风在于比其他AI芯片更通用，不错相宜各式AI算法，然则当畴昔AI算法的演进运转趋于领悟时，那么届时专用的面向特定算法的更高效的ASIC芯片无疑将会更具上风。

现在越来越多的云作事厂商齐有推出自研的云霄AI芯片也恰是适当这一趋势买个qq号上面有实名制怎么办。

上一篇：公安部公布！|欺骗|公安部

下一篇：买的facebook账号安全吗,会封吗-外洋facebook账号购买平台.

app store账号购买

让建站和SEO变得简单