3月1日,DeepSeek发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,并披露了DeepSeek的成本和利润率等关键信息。
|DeepSeek开源了什么?
从2月24日起,DeepSeek启动了一年一度的“开源周”活动,在为期五天的时间里每天开源一个核心技术项目,覆盖了从AI模型训练到文件系统优化等多个关键领域。这些开源项目的发布不仅展示了DeepSeek在硬件优化、算法设计和分布式计算方面的深厚积累,也为全球AI开发者提供了强大的工具和基础设施。
第一天:FlashMLA
FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核,特别适合处理可变长度序列,适用于高性能AI任务。使用FlashMLA后,H800 GPU能够实现高达3000GB/s的内存带宽和580TFLOPS的计算性能。
第二天:DeepEP
作为首个专门用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,DeepEP专为大规模模型训练而设计。其特性包括高效的全对全通信、支持NVLink和RDMA、高吞吐量内核以及低延迟内核等。
第三天:DeepGEMM
DeepGEMM是一个高效的FP8 GEMM库,支持传统稠密模型和MoE模型的GEMM运算。在英伟达Hopper GPU上,它可以实现超过1350 TFLOPS的FP8性能。尽管核心逻辑仅约300行代码,但在大多数矩阵大小上均优于专家调整的内核。
第四天:三项重要开源
DualPipe:一种双向流水线并行算法,用于V3/R1训练中实现计算通信重叠。
EPLB:适用于V3/R1的专家并行负载平衡器。
分析数据公开分享:来自DeepSeek的训练和推理框架的数据被公开分享,以帮助社区更好地理解通信计算重叠策略及其底层实现细节。
第五天:3FS
3FS是一个高性能并行文件系统,专为AI训练和推理工作负载设计,支持强一致性和高吞吐量(在180节点集群中实现6.6 TiB/s的聚合读取吞吐量),简化了分布式应用程序开发。
为了鼓励用户充分利用资源,“开源周”期间DeepSeek开放平台推出了错峰优惠活动。在北京时间每日00:30至8:30的夜间空闲时段,API调用价格大幅下调:DeepSeek-V3降至原价的50%,DeepSeek-R1更是低至原价的25%。这一举措旨在让用户享受更经济且流畅的服务体验。
|DeepSeek究竟为何要选择开源?
DeepSeek在“开源周”期间发布的系列核心技术项目,犹如在英伟达坚固的AI护城河上架起了一座浮桥。更重要的是,这些开源模块展示了DeepSeek团队有能力深入剖析并重构英伟达CUDA与并行计算芯片的紧密耦合模式——这一传统上被认为不可撼动的软硬件基础设施。
挑战传统壁垒
通过密集的开源模型和算法,DeepSeek不仅有力回应了外界对其训练模型仍需巨大算力的质疑,还预示着这些核心库的开源将极大激发全球AI软硬件团队的创新活力。对于AI模型软件研究团队来说,可以通过算法优化(如低秩注意力压缩)来降低硬件需求;而对于我国的AI芯片研发团队,则可以通过借鉴这些算法优化来重新设计内部计算单元和通信总线,推动国产软硬件一体化AI模型的发展。
开启新时代
DeepSeek的开源行动堪称“业界良心”,尽管对普通用户及大多数使用者而言直接应用价值有限,但对于底层技术从业者来说却是极其宝贵的资源。随着DeepSeek-V3论文中提到的基础架构优化全部开源,许多开源框架都可以采纳这些优化策略,进一步压缩硬件资源成本,可能会迎来一波API接口降价潮,继续引领行业的公开透明化发展。
全球趋势
作为开源大模型的先锋,DeepSeek的成功带动了开源成为当前的大模型新趋势。百度、阿里等头部大厂纷纷宣布旗下大模型开源,显示出头部企业对开源的共同选择。香港科技大学校董会主席、美国国家工程院外籍院士沈向洋在2025全球开发者先锋大会(GDC)上指出,尽管目前闭源份额仍超过开源,但接下来一两年内这一格局将发生剧烈变化。他认为,通过上海等地的努力,中国团队将在未来引领开源潮流。
平衡开源与闭源
尽管在国内,大模型开源似乎已成为主流,但在全球范围内,这并未形成统一趋势。例如,OpenAI依然坚持闭源路线。即便是DeepSeek,在开源过程中也有保留,如未公开其训练数据和过程。这种开源与闭源的路线之争不仅存在于企业之间,甚至可能上升到国家层面。在数字经济时代,信息复制成本近乎为零,DeepSeek选择开源能够迅速占领市场,获得大量活跃用户,并在此基础上探索其他商业模式实现盈利。相比之下,传统的闭源大模型则需要投入大量广告成本来推广用户。
|AI研发竞争正在愈发激烈
人工智能领域的研发竞争正在变得愈发激烈。当地时间2月27日,人工智能巨头OpenAI发布了GPT-4.5(研究预览版),并宣称这是公司迄今为止规模最大、性能最强的聊天模型。然而,由于持续的高投入和高昂的成本,GPT-4.5的推出引发了广泛争议。
GPT-4.5的挑战与争议
公开资料显示,开发者可以直接在API中调用GPT-4.5,但其定价显著高于前代产品——输入token的价格比GPT-4贵了30倍,输出token的价格则贵了15倍。尽管OpenAI的CEO奥特曼希望同时推出GPT-4.5 Plus和Pro版本,但由于GPU资源紧张,不得不推迟至下周增加数万个GPU后才能正式推出Plus版本。
开源与闭源的发展路线对比
如何看待OpenAI新推出的GPT-4.5?业内专家王伟认为,这正体现了闭源和开源两大不同发展路线的区别。“GPT-4.5确实在很多评测能力上表现出色,但它耗费了巨大的算力和资金。从我们的角度看,虽然它有优势,但需要付出巨大的成本。相比之下,我们更看好类似DeepSeek这样可持续发展的模式。”
DeepSeek的低成本策略
与此同时,DeepSeek继续走低成本和性价比路线。2月26日,DeepSeek宣布降价通知:北京时间每日00:30至08:30为错峰时段,在此期间API调用价格大幅下调。具体来说,DeepSeek-V3降至原价的50%,而DeepSeek-R1更是降至原价的25%。这一举措旨在鼓励用户充分利用夜间空闲时段,享受更加经济实惠的服务体验。