史上最快AI芯片Sohu,推理性能超B200十倍

全文2096字,阅读约需6分钟,帮我划重点

划重点

01美国新兴芯片创业公司Etched发布首款AI芯片Sohu,推理性能超英伟达H100高达20倍。

02Etched在A轮融资中筹集了1.2亿美元,计划进一步开发专用芯片。

03Sohu采用台积电4nm工艺制造,提供比GPU和其他通用AI芯片更好的推理性能,同时消耗更少的能源。

04由于Sohu只能运行一种算法,具有超过90%的FLOPS利用率,而GPU7上的利用率约为30%。

05然而,业界对Etched和Sohu芯片存在质疑,认为Transformer之后仍有重大架构突破。

由腾讯混元大模型提供技术支持

图片
​本文由半导体产业纵横(ID:ICVIEWS)综合
00后华裔小哥哈佛辍学组团挑战英伟达。
图片
近日,美国新兴的芯片创业公司Etched发布其首款AI芯片——Sohu。
这款芯片在运行大型模型时展现出了惊人的性能,其速度超越了行业巨头英伟达的H100高达20倍,即便是与今年3月才面世的顶尖芯片B200相比,Sohu也展现出超过10倍的优越性能。
Etched表示,它已在 A 轮融资中筹集了 1.2 亿美元,公司计划利用这笔资金进一步开发其专用芯片。
这家公司成立仅两年,由两位哈佛辍学生Gavin Uberti和Chris Zhu创办。两人曾在2022年就打赌Transformer将改变世界。领英资料也显示公司创立时间在2022年10月,比ChatGPT问世还早一个月。
这家总部位于旧金山的公司旨在制造一种专用处理器,用于运行一种特定的人工智能模型,这种模型被 OpenAI 的 ChatGPT 和谷歌广泛使用。
英伟达在服务器 AI 芯片市场占据主导地位,约占销售额的 80%。英伟达的通用 AI 芯片能够处理一系列计算应用程序,但比专门用于执行特定功能的处理器消耗更多的能源。按市值计算,英伟达是美国最大的公司。
值得一提的是,该公司的天使投资人包括 Peter Thiel、Stanley Druckenmiller、 David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim 和 Charlie Cheeve。
泰尔奖学金主任亚历克斯·汉迪 (Alex Handy) 在一份声明中表示:“投资 Etched 是对人工智能价值的战略押注。他们的芯片解决了竞争对手不敢解决的可扩展性问题,挑战了同行普遍存在的停滞不前现象。Etched 的创始人体现了我们支持的非传统人才——从哈佛辍学,进军半导体行业。他们付出了艰苦的努力,以便硅谷的其他人可以继续安心地编程,而不必担心他们正在研究的任何底层技术。”
“这家公司有点像是在下赌注。”首席执行官加文·乌贝蒂在接受采访时说。Etched 与中国台湾半导体制造公司合作制造芯片。Uberti 表示,公司需要 A 轮融资来支付将设计发送给台积电以及制造芯片的成本,这一过程被称为流片芯片。
该公司没有透露其估值。在 2023 年 3 月进行 540 万美元的种子融资时,投资者对该公司的估值为 3400 万美元。
Etched 的芯片
Etched 的芯片名为 Sohu,是一款 ASIC(专用集成电路)。Uberti 声称,Sohu 采用台积电的 4nm 工艺制造,可以提供比 GPU 和其他通用 AI 芯片更好的推理性能,同时消耗更少的能源。
Uberti 表示:“在运行文本、图像和视频转换器时,Sohu 的速度甚至比 Nvidia 的下一代 Blackwell GB200 GPU 快一个数量级,而且成本更低。一台 Sohu 服务器可取代 160 个 H100 GPU。……对于需要专用芯片的企业领导者来说,Sohu 将是一个更经济、更高效、更环保的选择。”
图片
Uberti表示,自他们成立以来,每个主要的 AI 模型(ChatGPT、Sora、Gemini、Stable Diffusion 3、Tesla FSD 等)都变成了 transformer。不过,如果 transformer 突然被 SSM、monarch 混合器或任何其他类型的架构取代,Etched 的芯片将毫无用处。
“但如果我们是对的,Sohu将改变世界,”Uber信心满满地说。
对于Transformer技术而言,Sohu无疑是目前市场上最快的芯片,其性能与其他产品之间存在显著的量级差异。一台 Sohu 的服务器运行 Llama 70B 每秒可输出超过 50 万个 token,比 H100 服务器(23,000 个 token / 秒)多 20 倍,比 B200 服务器(约 45,000 个 token / 秒)多 10 倍。
据介绍,Sohu 仅支持转换器推理,无论是 Llama 还是 Stable Diffusion 3。Sohu 支持当今的所有模型(Google、Meta、Microsoft、OpenAI、Anthropic 等),并且可以处理对未来模型的调整。
由于 Sohu 只能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许它拥有更多的数学块。因此,Sohu 拥有超过 90% 的 FLOPS 利用率(而使用 TRT-LLM 的 GPU7 上约为 30%)。
Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。
事实上黄仁勋也在今年GTC大会上提出:“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。”
在Etched看来,随着摩尔定律放缓,同时在性能和效率上取得突破的方法只剩下专用化。
图片
不过对Etched和Sohu芯片,业界也有人提出质疑。
曾撰写爆火教程“2023年性价比GPU选购指南”的华盛顿大学博士生Tim Dettmers指出,Etched官方的测试数据中GPU的性能可能并不是当前SOTA方法。
图片
创始人Uberti解释H100的数据取自英伟达官方测试。
图片
也有人不看好的原因是,Transformer之后还是会有下一个重大架构突破。
图片
曾有投资人透露,至少有6家公司正在秘密开发Transformer专用ASIC芯片,现在看来Etched只是浮出水面的第一家。
图片
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。