在最新的科技领域,特别是在人工智能(AI)的大模型研究中,一个由国内AI公司DeepSeek(深度求索)研发的开源大模型DeepSeek-V3引起了国际AI界的广泛关注。这款模型不仅在性能上与顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet相匹敌,而且在成本控制上展现出了惊人的效率,这在资源受限的环境中尤为引人注目。
性能表现
DeepSeek-V3是一款基于混合专家架构(MoE)的大模型,其参数规模从前代的2360亿提升至6710亿,并在14.8Ttokens上进行了预训练,上下文长度为128K。评测结果显示,该模型在多个主流评测基准上的表现超越了众多开源模型,并在代码和数学方面与最强大的闭源模型一较高下。特别是在知识能力方面,DeepSeek-V3在MMLU-Pro和PQA-Diamond等基准测试中超越了阿里、Meta等所有开源模型,甚至领先于GPT-4o,展现了其在特定领域的强大能力。
成本效益
DeepSeek-V3的另一大亮点是其训练成本的控制。据报道,该模型仅使用了2000多张GPU,训练成本不到600万美元,远低于OpenAI、Meta等在万卡规模上训练的模型成本。这种成本效益的实现,得益于DeepSeek-V3在GPU集群上的高效训练策略,预训练耗时不到两个月,完整训练仅用了278.8万GPU小时,这在AI大模型的训练中是一个相当快的速度。
开源与闭源的较量
过去,开源模型常常被认为是无法追赶闭源模型的。DeepSeek-V3的成功案例证明,开源和闭源模型之间的差距是可以缩小的,甚至有可能超越闭源模型。这一成就不仅得到了AI界重量级人物如OpenAI创始成员Andrej Karpathy(安德烈·卡帕西)等人的认可,也引起了业界对开源模型潜力的重新评估。
对AGI的推动
DeepSeek-V3的成功不仅在于其技术层面的突破,更在于它为通向人工通用智能(AGI)的道路提供了新的可能性。有网友甚至认为,这款模型的出现可能会推动AGI的实现比预期更早,并且成本更低。这种预期的提出,是基于DeepSeek-V3在性能和成本上的双重优势,这使得大规模的AI研究和应用变得更加可行。
总结
DeepSeek-V3的研发和成功展示了在资源受限的情况下,通过创新和高效的方法,AI研究和工程可以实现令人印象深刻的成果。这款模型不仅在技术上达到了一个新的高度,而且在成本控制上为业界树立了新的标杆。它的出现,无疑为AI的发展和普及带来了新的机遇和挑战。
本文来自作者[scysry]投稿,不代表杨森号立场,如若转载,请注明出处:https://vip.scysry.com/zixue/202501-104799.html
评论列表(4条)
我是杨森号的签约作者“scysry”!
希望本篇文章《揭秘AI行业的新势力 拼多多巨擘的崛起与95后天才工程师的加入 (ai 行业)》能对你有所帮助!
本站[杨森号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:在最新的科技领域,特别是在人工智能,AI,的大模型研究中,一个由国内AI公司DeepSeek,深度求索,研发的开源大模型DeepSeek,V3引起了国际AI界的广泛关注,这款模...