张量命名争议后续:大模型极限竞速下的疲态初显

大模型的赛场自去年 11 月底 ChatGPT 发布后,就 没有空闲 过一天。 大模型冰山之上是模型参数与效果的比较、团队阵容排兵的竞争,冰山之下,是融资步伐的你追我赶、算力储备的筹谋划分、资源山...

日期: 2024-01-14 10:26

  大模型的赛场自去年 11 月底 ChatGPT 发布后,就 没有空闲 过一天。

  大模型冰山之上是模型参数与效果的比较、团队阵容排兵的竞争,冰山之下,是融资步伐的你追我赶、算力储备的筹谋划分、资源山头的阵营盘算。

  由零一万物 Yi 大模型引发的争议,在不同的舆论场往不同的方向持续分叉。 将一潭本就复杂的大模型池水,又搅动得风起云涌 。

  该事件在模型技术圈的讨论,以贾扬清朋友圈里不具名的揭短开启,「复用 LLaMA 架构,改变开源代码名字、替换几个变量名」引发了各个模型专家对「修改模型张量名命名是否不当」的讨论。

  零一万物修改模型张量名称命名这场风波,基本已经看到结论。绝大多数从业者冷静之后,也趋于赞同「修改张量名称命名,会给后续适配 Llama 生态带来些许困难,但本身并没有商业道德问题,更不存在换壳、盗版的情况。」

  更深入的争议,则是在基于开源土壤成长起来的大模型项目,是否应该更加开放、积极的姿态回馈开源,这个问题的答案也是肯定的,毕竟零一万物已经表态了「01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步。」

  全社会都眼看着大量资金与精英人才投入大模型赛道,创始人们在中、美、中东飞来飞去,为未来12-18个月囤积财力与算力。每个明星团队在推出新模型时,不断提高声量,不断屠榜对标,但鲜少有团队明确将以模型底层技术的自主创新作为目标。

  网传近日李彦宏在西丽湖论坛上,提及「国内 200 多个大模型其实都没什么使用量」,这也是国内数百个模型团队鱼龙混杂的现实情况,但并不影响各大企业前仆后继进入大模型赛道,抢占位置和资源。

  因为根据互联网 1.0 和 2.0 时代总结下来的成功经验,技术突破和模式创新固然重要,但都是可以靠时间追赶。最重要的是尽快获得市场上的资金和信心,不然也许下一秒就会进入一个新的寒冬。

  根据 IT 桔子数据显示,2023 年上半年国内人工智能领域共发生了 1066 起融资事件,涉及 3062 亿元人民币的融资金额。同期大洋彼岸也是类似的阵势,根据 Crunchbase 数据库,2023 年上半年全球人工智能领域共发生了 1842 起融资事件,涉及 545 亿美元的融资金额。

  在人工智能领域中的资源投入,也扶持了一批头部企业打开了局面,不断加强机构的信心。

  目前 OpenAI 已经完成了 103 亿美元的融资,估值达到 270 亿 -290 亿美元。国内除了智谱 AI 累计融资超 20 亿人民币,估值突破百亿人民币以外。Minimax、百川智能、月之暗面等第一梯队也会陆续接力迈过 20 亿美金估值门槛。

  每天都有大模型的融资、发布、技术突破的新闻刷遍头条,也将全社会的期待推至顶峰。在这么多双眼睛的注视下,任何模型团队,都逃不过各环节被放大和审视的可能性。

  大模型技术的 发展 ,带来了大量 AI 应用创新的机会,让全社会为之一振。 但同时白热化的资源竞争 、类似的技术演进路线, 也带来了肉眼可见的负面影响 。

  大炼模型,直接捅出了国内算力供给不平衡的真实现状。算得出来的存量 N 卡,溢价流通在微信群和朋友圈。其他品牌闲置吃灰,成为各地数据中心里的默认硬装,一度成为行业里茶余饭后的谈笑。

  这也解释了为什么小小「模型张量的命名问题」,也会出圈到大众视野中。行业外的读者们密切关注和评论这条技术圈新闻,更多是再一次被「套壳」这类字眼,伤害了民众感情。

  在大模型上的急切、疯狂的投入之下,我们也关心:头部的模型团队追赶 OpenAI 的同时,是否也应该引领和推动更深层次的创新?

  此次风波,技术圈的关注点在于「张量命名行为的合理性」,而民众充分讨论的关注点在于「何时反超,何时领先」,但最核心仍然是当前大模型的发展资源还未向底层技术创新倾斜。

  民众关心的底层技术创新,不是每日头条中的「重磅发布」、「比肩 OpenAI」,更不是「解释与声明」。而是在尊重常识、尊重科学技术、尊重开源的前提下,探索人类与机器智能的无限可能。

返回顶部