史上最快AI芯片「Sohu」速度10倍于B200哈佛辍学生打造

文章目录 [+]

编辑：泽南、杜伟

天生式 AI 推理性价比是 GPU 的 140 倍。
大模型时期，环球都缺算力，买铲子的英伟达市值被炒上了天。
（图片来自网络侵删）
现在，终于有一家公司带着自己的 AI 芯片来叫板了。
本日凌晨，科技圈迎来了一个主要***。
美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu，它运行大模型的速率比英伟达 H100 要快 20 倍，比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。
一台 Sohu 的做事器运行 Llama 70B 每秒可输出超过 50 万个 token，比 H100 做事器（23,000 个 token / 秒）多 20 倍，比 B200 做事器（约 45,000 个 token / 秒）多 10 倍。
Sohu 是天下第一款专用于 Transformer 打算的芯片，历时两年打造。
作为一块 ASIC（专用集成电路），Sohu 把对付 transformer 架构的优化硬化在芯片中，无法运行大多数「传统」的 AI 模型：如为 Instagram 广告供应支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像天生模型。
我们也无法运行 CNN、RNN 或 LSTM。
但另一方面，对付 transformer 来说，Sohu 便是有史以来最快的芯片，与其他产品之间是量级的差异。
如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。
最近一段韶光，由于摩尔定律放缓，GPU 性能的提升很大程度上须要依赖于增加芯片面积和功耗。
不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3，都不谋而合的利用「二合一」的办法提升性能，功耗也翻倍了。
从 2022 年到 2025 年，AI 芯片的性能并没有真正变得更好，而是变得更大了。
但如果大模型广泛利用 Transformer 架构，追求专业化或许是提高性能的好方向。
‍
作为一个新兴领域，AI 模型的架构过去变革很大。
但自 GPT-2 以来，最前辈的模型险些都在利用 Transformer，从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa，再到特斯拉 FSD 自动驾驶所需的模型。
Etched 给我们算了一笔账：芯片项目的本钱为 5000 万至 1 亿美元，须要数年韶光才能投入生产。
另一方面，当模型演习本钱超过 10 亿美元、推理本钱超过 100 亿美元时，利用专用芯片是不可避免的。
在这种家当规模下，1% 的改进就能撬动硬件架构的更新。
速率超 H100 20 倍，FLOPS 利用率超 90%
作为天下上首款 transformer ASIC（运用型专用集成电路）芯片，一台集成了 8 块 Sohu 的做事器可以匹敌 160 块 H100 GPU。
也即，Sohu 的运行速率是 H100 的 20 多倍。
详细来讲，通过专门化，Sohu 具备了前所未有的性能。
一台集成 8 块 Sohu 芯片的做事器每秒可以处理 50 万的 Llama 7B tokens。
针对 Llama 3 70B 的 FP8 精度基准测试显示：无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。
此外，对付 Llama、Stable Diffusion 3，Sohu 仅支持 transformer 推理。
Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型，未来还会适配模型调度。
由于 Sohu 仅能运行一种算法，因此可以删除绝大多数掌握流逻辑，从而许可拥有更多数学块。
也因此，Sohu 实现了 90% 以上的 FLOPS 利用率，而利用 TRT-LLM 的 GPU 约为 30%。
Sohu 为何能输出更多 FLOPS？
英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 打算能力，并且没有稀疏性。
这是当前最前辈的芯片，而 2025 年推出的 GB200 将在打算能力上提升 25%，支持 1250 TFLOPS。
由于 GPU 的绝大部分区域都是可编程的，因此专注于 transformer 会容纳更多的打算。
这可以从第一性事理中证明：
构建单个 FP16/BF16/FP8 乘加电路须要 10000 个晶体管，这是所有矩阵数学的基石。
H100 SXM 拥有 528 个张量核心，每个核心拥有 4× 8 × 16 FMA 电路。
乘法见告我们：H100 有 27 亿个晶体管用于张量核心。
但是，H100 却有 800 亿个晶体管。
这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。
这是英伟达和其他芯片厂商经由寻思熟虑的设计决定。
如果你想支持所有类型的模型（CNN、LSTM、SSM 等），那么没有比这更好的了。
而通过仅运行 transformer，Etched 可以让 Sohu 芯片输出更多的 FLOPS，且须要降落精度或稀疏性。
内存带宽也不是瓶颈
实际上，对付像 Llama 3 这样的模型，情形并非如此。
我们以英伟达和 AMD 的标准基准为例：2048 个输入 token 和 128 个输出 token。
大多数 AI 产品的 prompt 更长，比如最新的 Claude 谈天机器人在系统 prompt 中拥有 1000+tokens。
在 Sohu 上，推理是分 batch 运行的。
每个 batch 都须要加载所有模型权重一次，并在 batch 的每个 token 中重复利用。
常日来说，LLM 输入是打算密集型的，而 LLM 输出是内存密集型的。
当我们将输入和输出 token 与连续 batch 结合时，事情负载变成了高度打算密集型。
以下为 LLM 连续 batching 处理的示例，这里运行具有四个输入 token 和四个输出 token 的序列。
每种颜色代表不同的序列。
我们可以扩展相同的技巧，从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。
每个 batch 中包含用于一个序列的 2048 个输入 token，以及用于 127 个不同序列的 127 个输出 token。
如果这样做了，则每个 batch 须要大约 (2048 + 127)×70B 参数 × 每个参数 2 字节 = 304 TFLOP，而仅须要加载 70B 参数 × 每个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。
这比内存带宽须要的打算量多得多：H200 须要 6.8 PFLOPS 的打算才能最大化其内存带宽。
这还是利用率为 100% 的情形，如果利用率仅为 30%，则须要 3 倍以上的内存。
Sohu 拥有了更多的打算能力且利用率非常高，因此可以运行巨大的吞吐量，而不会涌现内存带宽瓶颈。
软件如何事情
在 GPU 和 TPU 上，软件是一场噩梦。
处理任意 CUDA 和 PyTorch 代码须要极其繁芜的编译器。
第三方 AI 芯片（如 AMD、Intel、AWS 等）在软件上统共花费了数十亿美元，但奏效甚微。
而 Sohu 只运行 transformer，因此只须要为 transformer 编写软件。
大多数运行开源或内部模型的公司都利用特定于 transformer 的推理库，比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
这些框架非常僵化，虽然你可以进行模型超参数调优，但实际上不支持变动底层模型代码。
但这没紧要，由于所有 transformer 模型都非常相似（乃至是文本 / 图像 / ***模型），以是超参数调优便是你真正须要的。
虽然 95% 的 AI 公司是这样，但一些最大的 AI 实验室采取定制办法。
他们有工程师团队来手动调度 GPU 核心以实现更高的利用率，并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。
Etched 让我们不须要再进行逆向工程，他们的软件（从驱动程序、内核到做事堆栈）都将是开源的。
如果你想实现自定义 transformer 层，则内核引导可以自由地这样做。
创业团队：哈佛辍学生领衔
Etched 的 CEO Gavin Uberti 见告：「如果未来 Transformer 不再是主流，那我们就会灭亡。
但如果它连续存在，我们就会成为有史以来最大的公司。
」
打造 Sohu 芯片的 Etched 位于加州库比蒂诺，公司成立仅两年，目前团队只有 35 人，创始人是一对哈佛辍学生 Gavin Uberti（前 OctoML 和前 Xnor.ai 员工）和 Chris Zhu，他们与 Robert Wachen 和前赛普拉斯半导体公司首席技能官 Mark Ross 一起，一贯致力于打造专用于 AI 大模型的芯片。
在 Sohu 芯片发布的同时，Etched 也宣告已完成了 1.2 亿美元的 A 轮融资，由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。
Etched 的总融资额已达到 1.2536 亿美元，本轮融资的主要投资者包括 Peter Thiel、GitHub 首席实行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。
不过对付霸占超过 80% AI 芯片市场份额的英伟达来说，1.2 亿美元只相称于它半天的收入。
「我们如此愉快的缘故原由，选择辍学的缘故原由，以及我们召集团队，投身芯片项目的缘故原由在于 —— 这是最主要的事情，」Etched 运营主管 Robert Wachen 说道。
「全体技能的未来将取决于算力根本举动步伐能否实现大规模。
」
Uberti 声称到目前为止，已有匿名客户预订了「数千万美元」的硬件，估量在今年三季度，Sohu 将推向市场。
未来真的如 Uberti 所说，只有在 Sohu 这样的芯片上，***天生、音频天生、具身智能等技能才能真正落地吗？
参考内容：
https://www.etched.com/announcing-etched
https://twitter.com/Etched/status/1805625693113663834
https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/

标签：模型芯片