最近,AI领域内的DeepSeek项目引起了广泛关注。2023年12月26日,DeepSeek团队发布了他们的最新模型DeepSeek-V3,并宣布该模型将全面开源。根据官方声明,DeepSeek-V3在多项评测中的得分超越了其他知名的开源模型,如Qwen2.5-72B和Llama-3.1-405B,并且在性能上与顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet相当。值得注意的是,DeepSeek-V3模型的总训练成本仅为557.6万美元,相比之下,GPT-4o等模型的训练成本则高达约1亿美元。这一成本效益的显著差异,使得DeepSeek-V3一经发布便在AI圈内引起了巨大反响。
12月27日,媒体开始广泛报道罗福莉将加入小米公司的消息,并将其誉为“95后天才少女”。罗福莉,原来就是DeepSeek的一员,她的加入小米的消息迅速在社交媒体上传开。实际上,早在12月20日就已经有关于罗福莉加入小米的报道,但当时并未引起如此大的关注。这两个热点事件的突然爆发,几乎同时发生,难免让人产生疑问:背后是否有特定的营销策略或者其他原因。
DeepSeek-V3自发布以来,受到了业界的广泛好评。一方面,它在多个评测中的高分表现吸引了许多人的关注;另一方面,其低廉的训练成本也得到了许多业内人士的认可。例如,Meta的科学家田渊栋评价DeepSeek-V3的训练技术为“黑科技”,认为这是一项伟大的工作。MenloVenture的投资人也对DeepSeek-V3的技术本文给予了高度评价。
DeepSeek-V3在发布初期也遇到了一些问题。有用户发现,当用英文提问“what model are you”时,DeepSeek-V3错误地将自己识别为ChatGPT。而当使用中文或在提问中加上问号时,DeepSeek-V3则能够正确回答。DeepSeek官方尚未对这一问题做出回应,但有分析认为,这可能是因为DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本,导致模型错误地记住了ChatGPT的某些输出。这个问题在随后的测试中被发现已经得到了修复。
DeepSeek-V3在处理一些曾经让其他大模型出错的问题上表现出色。例如,它能够正确处理一个关于兔子和鸡的逻辑问题,指出问题中的数据可能有误;它也能够正确回答9.11和9.9哪个数字更大的问题;对于蒸包子的问题,它正确指出包子可以同时蒸,因此不需要50分钟;在回答关于父母婚礼的问题时,它提供了四种可能的原因;最后,当被问及如何制作麻辣螺丝钉时,它指出螺丝钉不可食用,并提供了麻辣螺蛳的做法。
DeepSeek因其低成本的推理能力而被誉为“AI界的拼多多”。这一称号源于DeepSeekV2模型的发布,该模型将推理成本降至每百万token仅1元人民币,远低于Llama370B和GPT-4Turbo的成本。这些成就背后的技术是DeepSeek提出的MLA架构,该架构将显存占用降至传统MHA架构的5%-13%。同时,DeepSeek还独创了Deep Sense技术,进一步优化了模型性能和效率。
DeepSeek-V3的发布不仅在性能上取得了显著的成绩,而且在成本控制上展现了其优势。尽管在初期遇到了一些挑战,但这些问题的迅速修复显示了DeepSeek团队的响应能力和对技术细节的关注。DeepSeek-V3的成功和罗福莉的加入小米事件,无疑为AI领域带来了新的活力和讨论。
本文来自作者[scysry]投稿,不代表杨森号立场,如若转载,请注明出处:https://vip.scysry.com/zixue/202501-105074.html
评论列表(4条)
我是杨森号的签约作者“scysry”!
希望本篇文章《年度盘点 今年涌现的天才少女现象 她们如何改变世界 (年度盘点2020)》能对你有所帮助!
本站[杨森号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,AI领域内的DeepSeek项目引起了广泛关注,2023年12月26日,DeepSeek团队发布了他们的最新模型DeepSeek,V3,并宣布该模型将全面开源,根据官方声...