网站首页 > 市场观察 > 行业动态
科技|最快大模型黑马Groq,能否颠覆英伟达?
发布时间:2024-03-03

25312311-2znpmn.jpg?auth_key=1709481599-

最近,AI圈卷疯了!英伟达的市值刚刚超过谷歌,然后又被谷歌反超。2024年2月19日,Groq向用户开放了产品体验入口,其产品并非大模型,而类似于大模型加速接口。经由Groq加速推理的开源大模型带给人最直观的感受便是“快”,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens,还用上了自研LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。Groq的大模型很快便引发了市场热烈讨论。


Groq创始人&CEO Jonathan Ross 表示,Groq的存在是为了消除“贫富差距”,并帮助AI社区中的每个人蓬勃发展。此外,他还表示,推理对于实现这一目标至关重要,因为速度是将开发人员的想法转化为业务解决方案和改变生活的应用程序的关键。


英伟达作为人工智能浪潮下的头部企业,近年来不乏“挑战者”发起冲击,那么此次黑马Groq是否能颠覆英伟达?

01


|Groq是谁?

Groq是一家技术公司,由Jonathan Ross 在2016 年创立。Ross曾是 Google第一个张量处理单元(TPU)的创造者,他的创立理念源于一个观点:芯片设计应从软件定义网络(SDN)中吸取灵感。


ArtificialAnalysis.ai联合创始人 Micah Hill-Smith 表示,Groq代表了可用速度的一步变化,为LLM 提供了新的用例。


Groq创始人&CEO Jonathan Ross 表示,Groq的存在是为了消除“贫富差距”,并帮助AI社区中的每个人蓬勃发展。此外,他还表示,推理对于实现这一目标至关重要,因为速度是将开发人员的想法转化为业务解决方案和改变生活的应用程序的关键。


02


|Groq为何得以爆火?

Groq能够刷屏的重要原因,就是快。


其最大的亮点在于独特的技术路径。不同于广泛使用英伟达GPU的大模型产品,Groq团队为其大模型量身定制了专用芯片(ASIC),这一芯片能在速度上取胜的核心技术是其首创的LPU(Language Processing Unit)技术。


前段时间,Groq曾公开基准测试结果,已经引起关注。在去年的高性能计算会议SC23 上,Groq以每秒超过 280个 Token的速度生成回复,刷新了Llama-2 70B 推理的性能纪录。今年1 月,Groq首次参与公开基准测试,就在Anyscale 的LLMPerf排行榜上取得了突出的成绩,远超其他基于云的推理提供商。目前,LPU推理引擎可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。


“天下苦英伟达久矣”,自大模型兴起以来,英伟达的GPU芯片一卡难求,算力短缺成为很多AI企业面临的难题。而如今Groq横空出世,不仅绕开了GPU,还能实现更快的计算速度,无疑让市场倍感兴奋。


03


|LPU在LLM和生成式AI上的表现为何快于GPU?

Groq表示,LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。就LLM而言,LPU的计算能力强于GPU和CPU,这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,与GPU相比,消除外部内存瓶颈使LPU能够在LLM上提供更好的性能。


在架构方面,Groq使用了TSP(张量流处理)来加速人工智能、机器学习和高性能计算中的复杂工作负载。根据Groq公开技术资料表示,TSP是一种功能切片的微架构,芯片上具有诸多计算模式被软件预先定义好的功能片,其与数据流的关系如同工厂的流水线。当数据经过切片时,每个功能单元可以选择性地截取所需数据并获取计算结果,并将结果传递回数据流,原理类似于装配线操作员(功能片)和传送带(数据流)——Groq公司首席执行官Jonathan Ross比喻道。


25312311-BhRPF2.jpg?auth_key=1709481599-


TSP的源头是谷歌研发的TPU(张量处理器),值得一提的是,Ross就曾是谷歌TPU研发团队成员之一。


在存储性能方面,LPU另辟蹊径,有别于传统算力芯片对于SK海力士等存储厂商所产HBM(高带宽存储)的依赖,转而使用了易失性存储器SRAM,这也省去了将HBM置于芯片时对台积电COWOS封装技术的需求。SRAM通常用于CPU的高速缓存,由于不需要刷新电路来保持数据,因此可提供高带宽和低延迟。

可以说,在张量处理器上的技术积累加上别样的存储器选择,共同造就了这个推理的效率“怪兽”。


04


竞泰讨论|能否颠覆英伟达?

快”字当头,Groq的大模型可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。


英伟达在这一波AI热潮中赚得盆满钵满,其GPU芯片价格一再被炒高,但仍一卡难求,因此在这场战役中,“天下苦英伟达久矣”的呼声一直高亢。如果Groq的LPU架构能“弯道超车”,显然为业内乐见。据悉,该公司的推理芯片在第三方网站上的售价为2万多美元。


不过,想要“平替”英伟达GPU可并不容易,从各方观点来看,Groq的芯片还无法与之分庭抗礼。


原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。


性能方面,对于特定任务,比如深度学习中的矩阵运算,LPU可能提供更高的吞吐量和更低的延迟;通用性方面,GPU设计用于处理各种并行计算任务,而LPU可能更专一,这既是优势也是劣势。生态系统和软件支持方面,GPU拥有成熟的生态系统和广泛的软件支持,而新出现的LPU可能需要时间来建立相应的支持。


虽然市场上对GPU的主导地位有所不满,但受访专家普遍认为,LPU要完全取代GPU并非易事。英伟达的GPU不仅性能强大,而且拥有庞大的用户基础和生态系统。随着AI和深度学习的不断发展,对专用芯片的需求也在增长。不过,LPU和其他ASIC提供了一种可能性,可以在特定领域内挑战GPU的地位。


统一服务热线:
18117862238
邮箱地址:yumiao@jt-capital.com.cn
公司地址:成都市高新区泰合·国际金融中心18层

Copyright © 2021 jt-capital.com.cn All Rights Reserved 

版权所有: 竞泰资本 粤ICP备2022003949号-1  

快速链接

Copyright © 2021 jt-capital.com.cn All Rights Reserved 

版权所有: 竞泰资本 粤ICP备2022003949号-1