大模型的出现使得AI芯片的需求暴增,但在这个市场,英伟达占据了近90%份额,其市值也曾超过3万亿美元。
8月28日,Cerebras推出了其AI推理解决方案,能让Llama 3.1-8B达到1800 token/s的输出速度,大约是英伟达GPU推理速度的20倍,比Groq快约2.4倍,这主要在于Cerebras创新的AI芯片设计,允许整个模型存储在芯片上,从而解决GPU推理所无法避免的内存带宽瓶颈。这家成立于2016年的巨型晶圆级芯片制造公司展示了AI推理芯片领域创新的巨大潜力。
Cerebras联创&CEO Andrew Feldman
(以下内容经授权后由OneFlow编译发布。转载请联系授权:https://www.youtube.com/watch?v=qNXebAQ6igs)
题图由SiliconCloud平台生成
1
比英伟达GPU快20倍的AI推理方案
Lukas:过去这一年发生了什么?看起来你们这一年过得很不寻常。