编辑:泽南、杜伟
天生式 AI 推理性价比是 GPU 的 140 倍。
大模型时期,环球都缺算力,买铲子的英伟达市值被炒上了天。
(图片来自网络侵删)现在,终于有一家公司带着自己的 AI 芯片来叫板了。
本日凌晨,科技圈迎来了一个主要***。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运行大模型的速率比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。
一台 Sohu 的做事器运行 Llama 70B 每秒可输出超过 50 万个 token,比 H100 做事器(23,000 个 token / 秒)多 20 倍,比 B200 做事器(约 45,000 个 token / 秒)多 10 倍。
Sohu 是天下第一款专用于 Transformer 打算的芯片,历时两年打造。
作为一块 ASIC(专用集成电路),Sohu 把对付 transformer 架构的优化硬化在芯片中,无法运行大多数「传统」的 AI 模型:如为 Instagram 广告供应支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像天生模型。我们也无法运行 CNN、RNN 或 LSTM。
但另一方面,对付 transformer 来说,Sohu 便是有史以来最快的芯片,与其他产品之间是量级的差异。如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。
最近一段韶光,由于摩尔定律放缓,GPU 性能的提升很大程度上须要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3,都不谋而合的利用「二合一」的办法提升性能,功耗也翻倍了。
从 2022 年到 2025 年,AI 芯片的性能并没有真正变得更好,而是变得更大了。
但如果大模型广泛利用 Transformer 架构,追求专业化或许是提高性能的好方向。
作为一个新兴领域,AI 模型的架构过去变革很大。但自 GPT-2 以来,最前辈的模型险些都在利用 Transformer,从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自动驾驶所需的模型。
Etched 给我们算了一笔账:芯片项目的本钱为 5000 万至 1 亿美元,须要数年韶光才能投入生产。另一方面,当模型演习本钱超过 10 亿美元、推理本钱超过 100 亿美元时,利用专用芯片是不可避免的。在这种家当规模下,1% 的改进就能撬动硬件架构的更新。
速率超 H100 20 倍,FLOPS 利用率超 90%
作为天下上首款 transformer ASIC(运用型专用集成电路)芯片,一台集成了 8 块 Sohu 的做事器可以匹敌 160 块 H100 GPU。也即,Sohu 的运行速率是 H100 的 20 多倍。
详细来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的做事器每秒可以处理 50 万的 Llama 7B tokens。
针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。
此外,对付 Llama、Stable Diffusion 3,Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型,未来还会适配模型调度。
由于 Sohu 仅能运行一种算法,因此可以删除绝大多数掌握流逻辑,从而许可拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而利用 TRT-LLM 的 GPU 约为 30%。
Sohu 为何能输出更多 FLOPS?
英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 打算能力,并且没有稀疏性。这是当前最前辈的芯片,而 2025 年推出的 GB200 将在打算能力上提升 25%,支持 1250 TFLOPS。
由于 GPU 的绝大部分区域都是可编程的,因此专注于 transformer 会容纳更多的打算。这可以从第一性事理中证明:
构建单个 FP16/BF16/FP8 乘加电路须要 10000 个晶体管,这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心,每个核心拥有 4× 8 × 16 FMA 电路。乘法见告我们:H100 有 27 亿个晶体管用于张量核心。
但是,H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经由寻思熟虑的设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),那么没有比这更好的了。
而通过仅运行 transformer,Etched 可以让 Sohu 芯片输出更多的 FLOPS,且须要降落精度或稀疏性。
内存带宽也不是瓶颈
实际上,对付像 Llama 3 这样的模型,情形并非如此。
我们以英伟达和 AMD 的标准基准为例:2048 个输入 token 和 128 个输出 token。大多数 AI 产品的 prompt 更长,比如最新的 Claude 谈天机器人在系统 prompt 中拥有 1000+tokens。
在 Sohu 上,推理是分 batch 运行的。每个 batch 都须要加载所有模型权重一次,并在 batch 的每个 token 中重复利用。常日来说,LLM 输入是打算密集型的,而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时,事情负载变成了高度打算密集型。
以下为 LLM 连续 batching 处理的示例,这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。
我们可以扩展相同的技巧,从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 token,以及用于 127 个不同序列的 127 个输出 token。
如果这样做了,则每个 batch 须要大约 (2048 + 127)×70B 参数 × 每个参数 2 字节 = 304 TFLOP,而仅须要加载 70B 参数 × 每个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽须要的打算量多得多:H200 须要 6.8 PFLOPS 的打算才能最大化其内存带宽。这还是利用率为 100% 的情形,如果利用率仅为 30%,则须要 3 倍以上的内存。
Sohu 拥有了更多的打算能力且利用率非常高, 因此可以运行巨大的吞吐量,而不会涌现内存带宽瓶颈。
软件如何事情
在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码须要极其繁芜的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上统共花费了数十亿美元,但奏效甚微。
而 Sohu 只运行 transformer,因此只须要为 transformer 编写软件。
大多数运行开源或内部模型的公司都利用特定于 transformer 的推理库,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持变动底层模型代码。但这没紧要,由于所有 transformer 模型都非常相似(乃至是文本 / 图像 / ***模型),以是超参数调优便是你真正须要的。
虽然 95% 的 AI 公司是这样,但一些最大的 AI 实验室采取定制办法。他们有工程师团队来手动调度 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。
Etched 让我们不须要再进行逆向工程,他们的软件(从驱动程序、内核到做事堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核引导可以自由地这样做。
创业团队:哈佛辍学生领衔
Etched 的 CEO Gavin Uberti 见告:「如果未来 Transformer 不再是主流,那我们就会灭亡。但如果它连续存在,我们就会成为有史以来最大的公司。」
打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技能官 Mark Ross 一起,一贯致力于打造专用于 AI 大模型的芯片。
在 Sohu 芯片发布的同时,Etched 也宣告已完成了 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元,本轮融资的主要投资者包括 Peter Thiel、GitHub 首席实行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。
不过对付霸占超过 80% AI 芯片市场份额的英伟达来说,1.2 亿美元只相称于它半天的收入。
「我们如此愉快的缘故原由,选择辍学的缘故原由,以及我们召集团队,投身芯片项目的缘故原由在于 —— 这是最主要的事情,」Etched 运营主管 Robert Wachen 说道。「全体技能的未来将取决于算力根本举动步伐能否实现大规模。」
Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,估量在今年三季度,Sohu 将推向市场。
未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,***天生、音频天生、具身智能等技能才能真正落地吗?
参考内容:
https://www.etched.com/announcing-etched
https://twitter.com/Etched/status/1805625693113663834
https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/