DeepSeek-V3:挑战大模型“堆算力”模式,开启AI新纪元在如今AI大模型竞争激烈的市场环境下,衡量一个大模型优劣的标准往往被简化为“算力投入”,甚至直接以“英伟达GPU数量”来衡量。 这并非没有道理,因为当前市面上几乎所有大模型,无论是开源还是闭源,其核心架构都源自谷歌2017年发布的Transformer模型
DeepSeek-V3:挑战大模型“堆算力”模式,开启AI新纪元
在如今AI大模型竞争激烈的市场环境下,衡量一个大模型优劣的标准往往被简化为“算力投入”,甚至直接以“英伟达GPU数量”来衡量。 这并非没有道理,因为当前市面上几乎所有大模型,无论是开源还是闭源,其核心架构都源自谷歌2017年发布的Transformer模型。 从特斯拉的自动驾驶FSD到OpenAI的ChatGPT,都属于Transformer模型的产品化应用。 正如电影《邪不压正》中所言,“都是同一个师傅教的,破不了招啊”,当前大模型竞争的核心差异在于训练数据量和算力规模,即“经验值”的积累。
OpenAI训练GPT-4便使用了25000张A100英伟达GPU,据报道,OpenAI目前至少拥有40万块英伟达GB200和H100芯片。 甚至连甲骨文CEO拉里·埃里森都曾“乞求”英伟达CEO黄仁勋为甲骨文和特斯拉预留足够的算力芯片,可见算力资源在该领域的稀缺性和重要性。 如果这种“堆算力”的模式持续下去,行业格局将难以改变。
然而,这种看似固化的局面正在被打破。2023年12月中旬,中国初创企业DeepSeek开发的大语言模型DeepSeek-V3引发了美欧科技界的广泛关注。该模型在技术性能、开源模式和成本效益上都展现出显著优势,获得了业界积极评价。
独立测评机构ArtificialAnalysis的分析结果显示,DeepSeek-V3在文本理解、编码、数学和学科知识等方面,超越了Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等开源模型,性能与OpenAI的GPT-4和Anthropic的Claude 3.5 Sonnet等顶级闭源模型不相上下。DeepSeek-V3在中文处理、编码和数学计算方面的突出优势,使其在教育和科研领域展现出巨大的应用潜力。
DeepSeek-V3的性能不仅超越了许多开源竞争对手,例如Meta的Llama-3.1模型和阿里巴巴的Qwen 2.5模型,甚至在某些方面与顶级闭源模型比肩。一般而言,闭源模型由于数据和训练资源的优势,往往性能优于开源模型,但DeepSeek-V3在代码生成和数学运算等方面展现出非凡的实力,打破了这种固有认知。
更令人瞩目的是DeepSeek-V3的低成本高效率训练过程。OpenAI创始成员安德烈·卡帕蒂指出,通常需要1.6万到10万个GPU才能训练出与DeepSeek-V3性能相当的模型。而DeepSeek公司仅使用了2048个GPU,在57天内就完成了训练,总成本约为557.6万美元,仅为其他主流模型(如GPT-4)的十分之一左右。
让我们用更具体的数字来阐明DeepSeek-V3的效率优势。DeepSeek-V3模型使用了2048张英伟达H800显卡,耗时两个月,训练出了一个拥有6710亿参数的超大规模模型,训练成本约为550万美元。对比之下,如果硅谷公司要训练同等能力的模型,通常会选择更高端的英伟达显卡,而不是相对低价的H800显卡。更重要的是,他们至少需要1.6万块高端显卡才能达到类似水平,这与DeepSeek仅用2000块H800显卡完成任务形成了鲜明对比。从算力消耗来看,DeepSeek-V3的训练成本仅为同等规模硅谷公司模型的十一分之一。而Meta训练同等能力模型的成本则高达数亿美元,与DeepSeek的性价比完全不在一个量级。
盘古智库专家胡延平认为,DeepSeek-V3的成功更多地证明了行业大模型路线的可行性,虽然与通用大模型相比仍存在差距。但考虑到我国AI大模型发展路径注重“产业化落地”,行业大模型与产品落地匹配度更高,更符合我国AI赋能各行各业的需求。
值得注意的是,DeepSeek-V3的发布也引发了英伟达股价的波动。一些华尔街分析师认为,DeepSeek-V3的出现,动摇了市场对AI大模型“堆算力”发展模式的信心,预示着AI大模型发展方向可能发生转变。 DeepSeek-V3的成功案例,为大模型训练提供了新的思路,也为全球AI产业带来了新的变数,其低成本高效率的训练方法,或许将成为未来大模型发展的关键方向。 这不仅对中国AI产业发展具有重要意义,也对全球AI产业格局产生深远的影响。 DeepSeek-V3的出现,标志着AI大模型竞争进入了一个新的阶段,未来竞争的焦点或许不再仅仅是算力规模的比拼,而是如何更有效地利用算力资源,更高效地训练模型,并最终实现模型的产业化落地。 这将是一个充满机遇和挑战的新时代。
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!(Email:[email protected])