DeepSeek,一个在人工智能领域迅速崛起的名字,最近因为95后AI天才少女罗福莉的加入而再次成为焦点。罗福莉在DeepSeek-V2项目中扮演了关键角色,而她的加盟小米AI实验室,预示着她在大模型领域的领导力和影响力。
DeepSeek-V3,这款新近发布的大语言模型,以其671B的参数量和37B的激活参数,以及14.8万亿的预训练token量,成为了业界的新标杆。在多项评测中,DeepSeek-V3超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等模型,并且在性能上与全球顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet相媲美。
值得注意的是,DeepSeek-V3的训练预算异常低廉,这得益于其高效的训练过程。前OpenAI联创、知名AI科学家Andrej Karpathy指出,DeepSeek-V3的训练仅使用了不到280万GPU小时,远低于Meta旗下Llama-3405B的3080万GPU小时。如果DeepSeek-V3的性能能够得到广泛验证,这将是资源有限的研究和工程领域中的一次重大突破。
成本对比上,以H800的租金每GPU小时2美元计算,DeepSeek-V3的总训练成本不到600万美元,仅为Llama-3405B超6000万美元训练成本的十分之一。这样的性价比使得DeepSeek-V3一经发布就引起了国内外的广泛关注。
Meta的AI研究科学家田渊栋和知名AI数据公司ScaleAI创始人兼CEO Alexandr Wang都对DeepSeek-V3在有限预算下实现的强劲表现表示赞赏。Wang提到,DeepSeek-V3训练所需计算量减少了10倍,这表明DeepSeek在成本、速度和实力上都有显著的优势。
DeepSeek,被誉为AI界的拼多多,专注于大语言模型和相关技术的开发。由国内知名量化资管巨头幻方量化于2023年创立,DeepSeek已经成为硅谷眼中的东方神秘力量。
DeepSeek-V2此前因为性能达到GPT-4级别,开源、可免费商用,且API价格仅为GPT-4-Turbo的百分之一而受到业内关注。DeepSeek官方解释称,V2采用了创新的架构,如MLA(多头潜在注意力)和DeepSeekMoE架构,以实现更高经济性的训练效果和更高效的推理。
DeepSeek也是国内最早开启大模型降价的厂商,引领了大模型价格战。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。同时,DeepSeek是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,为其技术研发提供了坚实的算力基础。
DeepSeek创始人梁文锋表示,他们并非有意成为行业的鲶鱼,而是在技术创新的过程中不小心成为了行业的推动者。作为一名80后,梁文锋毕业于浙江大学电子工程系,始终保持着低调的技术研究作风。
业内人士分析称,DeepSeek以约200人的小团队,不依靠外部融资,成功开发出一个性价比高并被全球主流AI界认可的大模型。这得益于他们早期购买了大量的算力卡,投入大量资源进行研究,并且由于他们是做量化的,没有大厂那样的多样化盈利需求,能更专注于模型开发。
本文来自作者[scysry]投稿,不代表杨森号立场,如若转载,请注明出处:https://vip.scysry.com/zixue/202412-102785.html
评论列表(4条)
我是杨森号的签约作者“scysry”!
希望本篇文章《科技圈震撼 雷军千万年薪抢人 社交媒体热议! 95后AI天才少女展现非凡实力 (热门科技圈)》能对你有所帮助!
本站[杨森号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:DeepSeek,一个在人工智能领域迅速崛起的名字,最近因为95后AI天才少女罗福莉的加入而再次成为焦点,罗福莉在DeepSeek,V2项目中扮演了关键角色,而她的加盟小米AI...