最近,一款名为DeepSeek-V3的国产开源大模型在全球AI界引起了广泛关注。这款由国内AI公司DeepSeek(深度求索)研发的模型,在资源受限的情况下,展现了其在研究和工程方面的强大潜力。
技术突破与开源精神的体现
DeepSeek-V3作为一款开源大模型,其技术细节被详细记录在一篇53页的技术本文中。本文指出,DeepSeek-V3的参数规模从前代的2360亿提升到6710亿,并且采用了MoE(混合专家架构),在14.8Ttokens上进行了预训练,上下文长度达到128K。
性能对比与业界认可
根据本文中的综合评估,DeepSeek-V3的性能已经达到了目前最强大的开源模型水平,甚至在多个主流评测基准上可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。这引起了包括AI大神、OpenAI创始成员Andrej Karpathy(安德烈·卡帕西)在内的多位AI界知名人士的注意。
低成本的高效训练
DeepSeek-V3的另一个引人注目的特点是其训练成本。据报道,该模型仅使用了2000多张GPU,并在不到600万美元的成本下完成了训练。这一成本远低于其他在万卡规模上训练的模型,如OpenAI和Meta等。
模型性能与成本分析
DeepSeek-V3的训练成本为557.6万美元,这个数字不仅包括了模型的官方训练成本,还不包括与架构、算法或数据相关的研究和消融实验成本。在性能方面,DeepSeek-V3在MMLU-Pro和GPQA-Diamond等基准测试中超越了阿里、Meta等开源模型,并领先于GPT-4o,但在某些基准测试上与OpenAI的o1正式版相比仍有差距。
开源模型的潜力
DeepSeek-V3的成功表明,开源模型完全有可能缩小与闭源模型之间的差距,并有可能实现超越。这一成果不仅得到了业界的认可,也被视为可能推动人工通用智能(AGI)更早以更低成本实现的重要因素。
对比与启示
通过与Llama-3-405B等其他模型的训练成本和GPU小时数进行对比,DeepSeek-V3展示了以较低计算量实现高性能的可能性。Llama-3-405B的预训练时间为54天,耗时超过2118万GPU小时,成本超过5460万美元,而DeepSeek-V3则在更短的时间内,以更低的成本完成了训练。
总结
DeepSeek-V3的成功不仅是技术突破的胜利,也是开源精神的体现。它证明了即使在资源受限的情况下,也能通过创新和高效的方式来实现与业界领先模型相媲美的性能,这对于全球AI界来说是一个鼓舞人心的信号。
本文来自作者[scysry]投稿,不代表杨森号立场,如若转载,请注明出处:https://vip.scysry.com/zixue/202501-104484.html
评论列表(4条)
我是杨森号的签约作者“scysry”!
希望本篇文章《大模型界拼多多 手握万卡的AI新 起底 黑马 95后天才刚被雷军挖走 (拼多多 大班模型吧)》能对你有所帮助!
本站[杨森号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,一款名为DeepSeek,V3的国产开源大模型在全球AI界引起了广泛关注,这款由国内AI公司DeepSeek,深度求索,研发的模型,在资源受限的情况下,展现了其在研究和工...