史上最快AI芯片Sohu，推理性能超B200十倍

半导体产业纵横

2024-06-26 18:17科技领域创作者

全文2096字，阅读约需6分钟，帮我划重点

划重点

01美国新兴芯片创业公司Etched发布首款AI芯片Sohu，推理性能超英伟达H100高达20倍。

02Etched在A轮融资中筹集了1.2亿美元，计划进一步开发专用芯片。

03Sohu采用台积电4nm工艺制造，提供比GPU和其他通用AI芯片更好的推理性能，同时消耗更少的能源。

04由于Sohu只能运行一种算法，具有超过90%的FLOPS利用率，而GPU7上的利用率约为30%。

05然而，业界对Etched和Sohu芯片存在质疑，认为Transformer之后仍有重大架构突破。

由腾讯混元大模型提供技术支持

本文由半导体产业纵横（ID：ICVIEWS）综合

00后华裔小哥哈佛辍学组团挑战英伟达。

近日，美国新兴的芯片创业公司Etched发布其首款AI芯片——Sohu。

这款芯片在运行大型模型时展现出了惊人的性能，其速度超越了行业巨头英伟达的H100高达20倍，即便是与今年3月才面世的顶尖芯片B200相比，Sohu也展现出超过10倍的优越性能。

Etched表示，它已在 A 轮融资中筹集了 1.2 亿美元，公司计划利用这笔资金进一步开发其专用芯片。

这家公司成立仅两年，由两位哈佛辍学生Gavin Uberti和Chris Zhu创办。两人曾在2022年就打赌Transformer将改变世界。领英资料也显示公司创立时间在2022年10月，比ChatGPT问世还早一个月。

这家总部位于旧金山的公司旨在制造一种专用处理器，用于运行一种特定的人工智能模型，这种模型被 OpenAI 的 ChatGPT 和谷歌广泛使用。

英伟达在服务器 AI 芯片市场占据主导地位，约占销售额的 80%。英伟达的通用 AI 芯片能够处理一系列计算应用程序，但比专门用于执行特定功能的处理器消耗更多的能源。按市值计算，英伟达是美国最大的公司。

值得一提的是，该公司的天使投资人包括 Peter Thiel、Stanley Druckenmiller、 David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim 和 Charlie Cheeve。

泰尔奖学金主任亚历克斯·汉迪 (Alex Handy) 在一份声明中表示：“投资 Etched 是对人工智能价值的战略押注。他们的芯片解决了竞争对手不敢解决的可扩展性问题，挑战了同行普遍存在的停滞不前现象。Etched 的创始人体现了我们支持的非传统人才——从哈佛辍学，进军半导体行业。他们付出了艰苦的努力，以便硅谷的其他人可以继续安心地编程，而不必担心他们正在研究的任何底层技术。”

“这家公司有点像是在下赌注。”首席执行官加文·乌贝蒂在接受采访时说。Etched 与中国台湾半导体制造公司合作制造芯片。Uberti 表示，公司需要 A 轮融资来支付将设计发送给台积电以及制造芯片的成本，这一过程被称为流片芯片。

该公司没有透露其估值。在 2023 年 3 月进行 540 万美元的种子融资时，投资者对该公司的估值为 3400 万美元。

Etched 的芯片

Etched 的芯片名为 Sohu，是一款 ASIC（专用集成电路）。Uberti 声称，Sohu 采用台积电的 4nm 工艺制造，可以提供比 GPU 和其他通用 AI 芯片更好的推理性能，同时消耗更少的能源。

Uberti 表示：“在运行文本、图像和视频转换器时，Sohu 的速度甚至比 Nvidia 的下一代 Blackwell GB200 GPU 快一个数量级，而且成本更低。一台 Sohu 服务器可取代 160 个 H100 GPU。……对于需要专用芯片的企业领导者来说，Sohu 将是一个更经济、更高效、更环保的选择。”

Uberti表示，自他们成立以来，每个主要的 AI 模型（ChatGPT、Sora、Gemini、Stable Diffusion 3、Tesla FSD 等）都变成了 transformer。不过，如果 transformer 突然被 SSM、monarch 混合器或任何其他类型的架构取代，Etched 的芯片将毫无用处。

“但如果我们是对的，Sohu将改变世界，”Uber信心满满地说。

对于Transformer技术而言，Sohu无疑是目前市场上最快的芯片，其性能与其他产品之间存在显著的量级差异。一台 Sohu 的服务器运行 Llama 70B 每秒可输出超过 50 万个 token，比 H100 服务器（23,000 个 token / 秒）多 20 倍，比 B200 服务器（约 45,000 个 token / 秒）多 10 倍。

据介绍，Sohu 仅支持转换器推理，无论是 Llama 还是 Stable Diffusion 3。Sohu 支持当今的所有模型（Google、Meta、Microsoft、OpenAI、Anthropic 等），并且可以处理对未来模型的调整。

由于 Sohu 只能运行一种算法，因此可以删除绝大多数控制流逻辑，从而允许它拥有更多的数学块。因此，Sohu 拥有超过 90% 的 FLOPS 利用率（而使用 TRT-LLM 的 GPU7 上约为 30%）。

Etched提出，GPU在过去四年间效率并没有变得更好，只是变得更大了：芯片每平方毫米的的TFLOPS几乎持平。

事实上黄仁勋也在今年GTC大会上提出：“我们需要更大的GPU，如果不能更大，就把更多GPU组合在一起，变成更大的虚拟GPU。”

在Etched看来，随着摩尔定律放缓，同时在性能和效率上取得突破的方法只剩下专用化。

不过对Etched和Sohu芯片，业界也有人提出质疑。

曾撰写爆火教程“2023年性价比GPU选购指南”的华盛顿大学博士生Tim Dettmers指出，Etched官方的测试数据中GPU的性能可能并不是当前SOTA方法。

创始人Uberti解释H100的数据取自英伟达官方测试。

也有人不看好的原因是，Transformer之后还是会有下一个重大架构突破。

曾有投资人透露，至少有6家公司正在秘密开发Transformer专用ASIC芯片，现在看来Etched只是浮出水面的第一家。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

查看原图 107K