这两天,中国人工智能公司深度求索发布的大模型DeepSeek-R1震动业界,该模型使用更低的成本和更小的算力规模,实现足以匹敌美国顶尖AI模型的效果。这一成果引发全球科技行业高度关注,西方媒体也发文感叹中国AI模型震惊硅谷。
最新消息显示,DeepSeek已经登顶中国和美国的苹果App Store应用商店,排名第一,将ChatGPT一举超越。对于一款中国大模型来说,能够在美国力压ChatGPT,是绝无仅有的历史性一刻。
据美国《华尔街日报》当地时间1月26日报道,DeepSeek-R1的出色表现已经给美国科技行业留下深刻印象,从业者纷纷称赞深度求索的工作取得重大突破。OpenAI公司前高管扎克·卡斯直言,美国试图通过制裁限制中国的AI发展,但资源的限制反而激发中国科研人员的创造力。
深度求索在1月20日发布DeepSeek-R1模型,该公司表示,DeepSeek-R1在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况,极大提升模型推理能力。在数学、代码、自然语言推理等任务上,其性能比肩美国OpenAI o1正式版。
为促进技术社区的充分交流与创新协作,深度求索还公开DeepSeek-R1训练技术。
一些第三方测试结果也显示,DeepSeek-R1的表现足以匹敌美国顶尖AI模型。美国加州大学伯克利分校研究人员设立的聊天机器人竞技场平台上,DeepSeek-R1和去年12月发布的DeepSeek-V3的性能表现均位列前十。
不仅如此,DeepSeek的开发成本和使用的算力规模都远低于美国顶尖AI公司。先前发布的DeepSeek-V3在仅使用2048颗英伟达H800 GPU的情况下,完成6710亿参数模型的训练,成本约为560万美元,这远低于其他顶级模型的训练成本。美媒指出,H800的算力要弱于英伟达H100等芯片,美国限制对华出口此类高性能芯片。
《华尔街日报》提到,作为对比,美国AI企业、Claude模型开发商Anthropic首席执行官达里奥·阿莫代伊去年曾透露,该公司构建模型的成本约为1亿至10亿美元。
与其他一些顶尖大模型不同,DeepSeek-R1没有使用传统的监督微调(SFT)方法,而是专注于强化学习(RL),这意味着该模型跳过了使用人工标准数据训练的“模仿”环节。
英伟达高级研究科学家范麟熙称赞DeepSeek取得突破,他在社交平台X上发文称,DeepSeek-R1完全由强化学习驱动,这让人想起AlphaZero,从零开始学习围棋、将棋和国际象棋,而不是先模仿人类大师的动作。这是论文中最重要的收获。
DeepSeek-R1的表现引起美国科技行业的高度关注。硅谷风险投资家马克·安德森表示:DeepSeek-R1是我见过的最令人惊叹,最令人印象深刻的突破之一。
旧金山AI硬件公司Positron的联合创始人巴雷特·伍德塞德表示,最近他和同事一直在讨论DeepSeek的开源模型,这太酷了。
一些美国企业也开始在工作中使用DeepSeek。硅谷一家创业公司的联合创始人安东尼·普奥告诉《华尔街日报》,他们原先使用Claude模型预测财务回报,但现在已转向DeepSeek,两者性能相似,使用DeepSeek的成本仅为Claude的四分之一。
普奥说:“OpenAI的模型有着极佳的性能,但我们不想为我们不需要的能力付费。”
截至北京时间今早,DeepSeek在美区苹果App Store免费榜上已经排在第一位,力压此前霸榜的ChatGPT。而就在昨天早上,DeepSeek还没有挤进榜单前五,显示出过去24小时发酵速度之快。在国区苹果App Store免费榜,DeepSeek也已登顶。
|