近日,一家叫做Etched的硅谷初创公司凭借其用于AI的ASIC芯片,从最底层的架构层面为主流AI大模型公司所采用的Transformer计算提供更优性价比的选择,在AI硬件领域掀起了波澜。
|比英伟达的H100快20倍
Etched由哈佛辍学生Gavin Uberti和Chris Zhu于2022年创立,他们开发了一款名为Sohu的专为Transformer模型设计ASIC芯片。Etched声称,Sohu芯片推理Llama-3 70B的速度比英伟达的H100快20倍,而功耗却大大降低。
Etched刚刚获得了1.2亿美元的新融资,由Primary Venture Partners 和Positive Sum Ventures 领投,Peter Thiel、Github首席执行官Thomas Dohmke和前Coinbase首席技术官Balaji Srinivasan等知名投资者也参与了本轮融资。
随着Transformer模型不断推动生成式AI突破,Sohu芯片被认为有望在AI推理侧打破英伟达GPU一家独大的格局,重塑AI计算的格局。
|ASIC的优势是什么?
ASIC与通用算力卡的较量存在已久,随着云厂商和大型OEM厂商的入局,角逐愈演愈烈。
目前,通用算力卡的主要厂商是英伟达,占AI算力市场近70%的份额;ASIC的主要厂商是博通和Marvell,两家占ASIC市场超60%的份额。
ASIC在特定任务场景下,具有高性能、低功耗、成本效益、保密性和安全性以及减少电路板大小的优势。
这种优势主要是因为:
• ASIC:为特定应用而设计的集成电路,针对特定任务进行优化,在这些任务上通常比GPU高性能、低功耗低优势。但缺点是不具备通用性。
•通用算力卡:提供标准化的高计算性能,但不聚焦于特定任务场景,适用于广泛的应用,具备通用性.
换句话说,ASIC是牺牲通用性,来换取特定场景的高性能;通用算力卡则具备通用性,但在特定场景下,性能不如ASIC。
事实上,对于不同的算力卡客户来讲,需求是不同的。
云厂商也许更看重弹性计算,企业也许更关注集群算力等。面对特定的需求,ASIC比标准算力卡更具备优势,更加贴合客户自身的使用场景。
目前,Google、Meta、微软和亚马逊等云和超大规模公司正在引领ASIC这一潮流。比如,谷歌的TPU、Meta的MTIA、微软的Maia、亚马逊Trainium2等。
需要注意的是,ASIC的成本也许高于通用算力卡。根据大摩的测算,GB200的TCO(总拥有成本),比TPUv5低了44%,比Trainimium 2低了30%。
|专门面向Transformer的优化
GPU内部集成了多种计算单元,包括FP64、FP32、整数运算以及专为深度学习设计的Tensor Cores等。然而,要高效利用这些资源处理广泛的CUDA代码,需要高度复杂的编译技术和巨额的软件开发投资,即便如此,所取得的成果仍可能受限。
Etched采取了一种更为集中的策略,它专注于Transformer模型的运行,这一策略不仅简化了软件栈,还充分利用了Tensor Cores的潜力,针对性地增强了AI计算效能。鉴于多数AI企业倾向于采用专门的Transformer推理库,例如TensorRT-LLM、vLLM或HuggingFace的TGI,这些库已能广泛覆盖行业需求,Etched的这一专注点显得尤为契合。
Transformer模型在文本、图像和视频处理等不同应用场景中展现出高度的通用性,这意味着用户能够在无需大幅修改核心模型架构的前提下,灵活调整模型的超参数以适应多样任务。
针对行业领先企业的定制化需求,Etched通过开放其软件栈,从驱动程序直至内核级别,消除了传统上的逆向工程难题,赋予工程师直接根据具体需求定制Transformer层的能力,极大提升了系统的可定制性和灵活性。
此外,Sohu芯片通过精简内存占用,转而增加用于数据处理的晶体管数量,并采用单一大规模内核设计,有效避免了多核间协调开销,进一步优化了计算效率。
|ASIC竞争格局开放
当前,ASIC市场的竞争环境日益开放,尤其体现在大型云服务提供商通过自主研发或合作研发的方式,积极投身于AI技术的加速器竞赛之中。最新财务报告显示,博通在2024财年第一季度网络业务收入显著增长,达到33亿美元,增幅高达46%,这部分增长动力主要来源于两家超大规模客户对定制AI加速器的大量需求。
到2024财年末,AI相关业务将占其半导体总收入的比例从先前预估的25%上调至35%,超过100亿美元的收入规模,其中约70%直接归因于AI加速器产品的销售。
近期传闻指出,字节跳动正携手博通开发一款基于5纳米工艺、专为AI设计的ASIC芯片,并计划由台积电负责生产,不过字节跳动方面对此予以否认。
ASIC芯片的广泛应用及其带来的算力成本降低,是推动大型AI模型迈向更广阔产业应用的关键路径。与比特币领域ASIC迅速确立主导地位的情况不同,AI芯片的发展道路预计会更加复杂多变,历经多次迭代升级的循环过程。这一过程包括:通用GPU首先促进新模型与算法的探索与初步成型,随后通过专门的ASIC实现规模化应用,带动市场需求爆发,丰富的生态又将进一步吸引用户和创新者,催生更先进的算法,如此循环往复,逐步推进直至实现全面的人工通用智能(AGI)愿景。