最近,人工智能领域的一项重大进展吸引了业界的广泛关注。DeepSeek,一个在AI领域迅速崛起的名字,于12月26日宣布了其最新系列模型DeepSeek-V3的首个版本发布,并同步开源。这一动作不仅在技术社区引发了热烈讨论,而且在性能评测中显示出了超越现有模型的潜力。官方声明显示,DeepSeek-V3在多项评测中的成绩超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,并且在性能上与世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet旗鼓相当。更引人注目的是,DeepSeek-V3模型的总训练成本仅为557.6万美元,远低于GPT-4o等模型的约1亿美元训练成本。
在DeepSeek-V3的热潮中,一位名为罗福莉的年轻天才少女成为了焦点。12月27日,媒体报道了她将加入小米的消息,并称其为95后的天才少女。罗福莉与DeepSeek的联系,以及雷军以千万年薪挖角的消息,进一步推高了DeepSeek-V3的热度。尽管12月20日已有关于罗福莉将加入小米的报道,但当时并未引起广泛关注。这种突如其来的变化和几乎同时发生的两个刷屏事件,无疑增加了DeepSeek-V3的神秘感。
DeepSeek-V3的发布获得了业内的广泛好评,尤其是在其多项评测中的高分表现和相对较低的训练成本方面。Meta的科学家田渊栋认为,DeepSeek-V3的训练技术是“黑科技”,并称其为“非常伟大的工作”。MenloVenture的投资人也对DeepSeek-V3的技术本文给予了高度评价,称之为“黄金”。
DeepSeek-V3也面临着一些挑战。有用户发现,当用英文询问DeepSeek-V3是哪家大模型时,它错误地回答了“ChatGPT”。这一问题引起了社区的关注,DeepSeek官方尚未对此做出回应。分析人士认为,这可能是由于DeepSeek-V3的训练数据中包含了大量ChatGPT生成的文本,导致模型错误地将自己识别为ChatGPT。幸运的是,这一问题在随后被修复。
为了进一步测试DeepSeek-V3的能力,三言科技对其进行了一系列测试。其中包括一些曾经困扰其他大模型的问题,例如兔子和鸡的数量问题、数字大小比较问题、蒸包子的时间问题等。DeepSeek-V3在这些问题上表现出了出色的理解和推理能力,正确识别了矛盾和错误数据,并给出了合理的答案。
DeepSeek因其在降低推理成本方面的创新而被誉为“AI界的拼多多”。今年5月,DeepSeek-V2开源模型发布,其推理成本被降至每百万token仅1块钱,远低于市场上的其他模型。这一成就的背后是DeepSeek提出的MLA架构,它将显存占用降低到了传统MHA架构的5%-13%,同时DeepSeek还独创了Deep Compression技术,进一步提升了效率。
DeepSeek-V3的发布和开源,不仅是AI技术进步的一个标志,也是开源社区力量的体现。其在评测中的表现、训练成本的优化以及对复杂问题的处理能力,都显示了DeepSeek-V3在人工智能领域的潜力和影响力。同时,DeepSeek-V3也面临着一些挑战,如自我识别错误等问题,这些问题的解决将有助于进一步提升模型的可靠性和准确性。
本文来自作者[scysry]投稿,不代表杨森号立场,如若转载,请注明出处:https://vip.scysry.com/zixue/202501-104479.html
评论列表(4条)
我是杨森号的签约作者“scysry”!
希望本篇文章《她们如何惊艳了世界 2023年涌现的多位天才少女 年度盘点 (她们惊艳了时光古代才女)》能对你有所帮助!
本站[杨森号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:最近,人工智能领域的一项重大进展吸引了业界的广泛关注,DeepSeek,一个在AI领域迅速崛起的名字,于12月26日宣布了其最新系列模型DeepSeek,V3的首个版本发布,并...