大模型市场竞争白热化:技术不是门槛,数据才是

2024-01-25 17:16

免责声明 免责声明:内容来源于网络收集,不构成任何投资建议!

原始来源:数据猴

大模型市场竞争白热化:技术不是门槛,数据才是

图片来源:无界AI生成

刚刚过去的2023年,互联网圈最受瞩目的话题就是大模特。特别是文心Yiyan、讯飞Spark、百川、通义千问、混元等国内大模特纷纷出现在上线,“调戏”大模特已经成为网友热衷的日常活动。然而,运行几个月后,许多中文大型语言模型在训练过程中出现了“互相学习”的情况。

12月初,谷歌推出了迄今为止最大、最强大的大型模型Gemini。然而,上线发布后不久,网友发现它似乎使用了其他大型号。 10000.com/大模的语料库”,他还会宣誓自己的创始人是百度,总裁是李彦宏。

这个问题实际上出现过不止一次。去年3月,有消息称谷歌Bard使用ShareGPT中的内容作为训练数据,而据The Information报道,这一事件也导致Jacob Devlin离开谷歌;去年12月,字节被OpenAI禁止使用API接口,原因是“字节使用ChatGPT来训练自己的AI,违反了使用规定”。

据科技信息研究所中国统计,全国至少有130家企业在研究大模型产品,至少有79个规模10亿以上的大模型已研发成功。已发布,包括通用大型型号。有78家公司,其中52家在做大型垂直模型。应用场景横跨客服、工业、医疗、汽车、游戏等领域。在世界各地,更多的法学硕士也在接受培训。很多公司会有意无意地使用其他大型模型使用的数据集进行训练,或者直接使用其他大型模型生成的数据进行训练。

训练时“互相学习”的原因是,随着大模型领域的竞争进入激烈阶段,数据成为竞争的关键。一位大模型领域专家表示,大模型市场竞争的发令枪已经吹响。 “谁做得快”无法主导竞争格局。 “谁做得好”是市场检验标准。架构上很难区分,数据将是“做好”的关键。

大模型架构高下难分

“谁更强?”是大语言模型(LLM)领域的一个重要课题。自从大型语言模型诞生以来,无数的开发者和研究人员研究了这个问题。数据工程师陈锋认为:“评估一个大的语言模型不能仅仅通过训练所用的数据量来比较。目前有两套相对成熟的评估模型。”

第一组是使用一组对话集来测试语言模型。这些对话包括不同的问题和指令、语言模型的语义理解和提取、闲聊、语境对话、生成和创造、知识和百科全书、代码、逻辑推理、计算、角色扮演、安全等指标进行测试,以及根据他们答案的正确性给出分数。由于测试维度较多,会形成综合能力、分类能力等多个列表。

中文测试基准基本采用这套评估方案,例如CLiB(中文大型模型能力评估清单)、SuperCLUE(中文通用大型模型)综合基准)、C-Eval(中文基础模型评估套件)等

第二套是“Arena”模式,比如UC 伯克利发布的LLM Arena名单。用户将同时与两种不同的语言模型对话,并标记更好的一种。好评越多,评分越高。

综合来看,GPT-4几乎在所有榜单上都取得了压倒性的胜利,克劳德和GPT-3.5也位居榜首。在中文、文心Yiyan v2.2、SenseChat、讯飞Spark v1.5、Baichuan-53B等语言模型的列表中名列前茅最好的,每个人在信息提取、阅读理解和数据分析能力方面都有自己的赢家或输家。

列表中最值得注意的是开源模型Llama2。 Meta今年7月19日发布的这款开源预训练大模型,在大模型领域引起了轩然大波。 70 亿中的——,130 http://10025。 com/700亿在三个参数变体的测试结果中,Llama2击败了除GPT-4和GPT-3.5之外的几乎所有商业模型。 陈锋表示:“很多自研大模型的厂商开始考虑是否放弃自研,采用更便宜的开源模型,或者在开源模型的基础上进行开发。”正如去年5月谷歌工程师在内部言论中所说:“当免费的开源模型与商业模型的质量相当时,人们不会为受限制的闭源模型付费。”

参数越多未必越好

陈锋认为,开源的Llama2从根本上拉平了商业模式之间的差距。之前在架构上难以实现突破,大语言模型领域的竞争已经转向训练数据的质量。

2023 年7 月,一份据信来自OpenAI 员工的数据泄露称,OpenAI 使用了13 万亿代币来训练GPT-4,120 层网络中总共有1.8 万亿个参数。与其他大型车型相比,国内领先企业公布的参数数量通常在千亿级,而其他企业或初创公司的大型模型参数通常在数百亿或数十亿级。

独立开发者王南

认为,用更多的数据训练AI,这个思路本身是没有问题的。大语言模型的诞生本身就来自大量数据堆叠产生的“智能涌现”:当数据规模超过某个极限时,它们将展现出前所未有的新能力。王南表示,“通用大模型出现智能涌现的参数量一般认为是600亿,更多参数会不会再次出现智能涌现,谁也不知道。”

为大模型增加更多参数是非常昂贵的,除了更多的数据成本和更长的训练周期外,模型也要随着参数的增加而进行优化。

大模型是不能一蹴而就的。要处理天量的数据,模型必须针对大量数据的处理进行优化,很多工程问题是数据量较小时不会出现的。“就好像建造一座体育场,能容纳5000名观众和能容纳10万名观众的体育场面临的问题肯定不一样”,陈锋表示,“大模型也是这样,参数越多需要解决的问题就越多,开发的成本就越高。这个成本的增加不是线性的,而是指数增长。”

与指数提高的成本不同,参数量增加对于提高模型性能的帮助是有限的。“在十亿、百亿参数的级别上,提高参数量的效果是显著的。但到千亿万亿等级,增加参数量对模型能力的提升就比较小了。”

因此,将模型参数控制在百亿到千亿级别是综合训练成本和模型能力之后的必然结果。


垂直大模型成为商业化答案


当大模型架构和参数量都被限制在一个狭窄的区域内后,大模型领域的竞争力从何而来?

去年《纽约时报》报道了一起离奇的案件。一位律师用ChatGPT生成了一份辩护状并提交给了法院,法官随即发现辩护状中引用的十多个判例全部都是虚构的。这种人工智能“胡说八道”的现象被称为“人工智能幻觉”,目前几乎所有的大语言模型都会出现这种问题。

毫无疑问,这些幻觉是阻碍大模型应用的关键因素之一,而业界目前对这个问题基本几乎束手无策。

问题的源头是数据。王南认为,“一旦对大模型的高质量数据筛选和训练得过少,大模型就会出现输出质量问题,幻觉也会随之而来。 但对于通用大模型来说,将人类所有领域知识转化为高质量数据进行训练显然只能是一个美好的愿望,唯一的方案是基于通用大模型针对不同的场景进行训练,越垂直出错的概率就越低。”

基于这种现状,在通用大模型之外,面向特定应用场景的垂直领域大模型成为了大模型领域的竞争焦点。

王南说,“利用垂直领域的、高质量的数据训练出的垂直大模型,具有更强的领域专业性和任务针对性,能够更好地解决特定领域的问题、提供更加精准的服务。”

垂直大模型已经成为大模型商业化的核心,大模型头部玩家纷纷推出了基于自身数据、硬件和模型的Maas(大模型即服务)。百度推出了百度智能云千帆大模型平台,阿里推出了魔搭社区,华为则针对不同行业推出了盘古NLP、盘古CV、盘古多模态等多个模型。


数据质量决定垂直大模型质量


Maas的核心除了硬件外,最重要的就是大量基于垂直领域的数据。

用于语言大模型训练的数据被称为“NLP数据集”,是将语料库中的文字资料进行分类整理后的结构化数据,是语言大模型的“教科书”。通用大模型使用的数据集往往包罗万象,来自书籍、网页、新闻、社交媒体等多个来源的数据共同组成了大模型的“知识库”。

王南表示,这些数据一部分是来自互联网的公开数据,也就是所谓的“开源数据集”。最知名的开源数据集来自维基百科,“维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。”截止2023年9月15日,英文维基百科共有超过600万个条目和5900万个页面,包含超40亿个词,经过清洗、过滤后可以为大模型提供30亿个token。

但维基百科这样高质量的网页仅仅是个例,虽然其他网站的网页内容也会被用于训练大模型,这些数据总量极大,需要以PB计算,而且可以通过common crawl这类提供商免费获取。问题在于,这些网页往往内容杂乱,充斥着大量的色情、暴力、诈骗和机器人生成的垃圾信息。仅仅是将这一部分数据进行清洗、过滤、标注就需要花费大量人力物力。

而高质量的开源数据集则少之又少,针对特定领域的数据集更是凤毛麟角,王南说:“少数开源的垂直领域数据集往往体量小,数据旧,很难用于构建能在特定应用场景中使用的大模型。”

因此,高质量数据的价值在大模型成为新的热点后逐渐突显,数据已经成为大模型厂商竞争的核心。


数据是大模型时代的护城河


训练垂直于应用场景的大模型需要大量专有数据,即某一个领域、语言、行业的特有数据。比如对话、书籍、代码、技术报告、论文考试等数据。

在大模型能力评价体系中名列前茅的GPT-3.5、GPT-4、PaLM等模型的训练过程中,就大量用到了专有数据。根据公开的信息,GPT-3.5训练数据中包含2TB的高质量书籍数据和大量来自推特、reddit的社交媒体对话数据。

专有数据往往是不对公众开放的。去年 Reddit宣布开始向访问其API的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话;7月,社交网络X(原推特)宣布限制用户每日访问数量,以遏制人工智能企业抓取数据训练模型;9月,X又更改了隐私协议,并宣布开始出售基于用户发布内容的语料库。

能够买到的数据仅仅是专有数据的一小部分。王南展示了GPT-3.5训练数据的构成,其中使用的书籍数据高达2TB,而开源的The pile提供的Book3数据集才85GB左右,较OpenAI使用的数据集小了数十倍。

许多高质量数据实际上被互联网企业牢牢把握在自己手中。用户使用互联网企业时产生的大量数据成为了互联网企业的“护城河”,企业本身可以随意使用这些数据,但其他企业想要获得这些数据则难之又难。

以Meta为例,Meta自成立以来,通过旗下的社交媒体Facebook、Instagram几乎垄断了全球大多数国家的社交媒体市场。从社交媒体服务衍生出的广告、即时通信、VR等服务也逐渐占据了市场主导地位。用户产生的数据在Meta不同的业务线条之间进行流动,产生更多的价值,最终造就了一个横跨全球的互联网巨头。

在Meta建立的这个体系当中,Meta本身研发的技术和用户使用其产品时产生的数据,共同组成了Meta的护城河,无法获得用户数据的其他互联网企业很难提供与Meta相同的服务。而在语言大模型的领域中,Meta开源了其研发的高性能架构Llama2也并不会为Meta在竞争中带来劣势——拥有大量高质量数据的Meta先天就拥有巨大的优势,能在这方面与Meta扳手腕的巨头在全球也寥寥无几。

OpenAI也是如此,不过它的数据护城河还有另外一条:用户与AI对话的数据。OpenAI向用户免费开放ChatGPT的一个重要原因就是收集这些数据用于训练新的GPT。这也是各大厂商迅速向用户免费开放大语言模型的原因之一。

正如谷歌工程师在内部文件中表示的,“我们没有护城河,OpenAI 也没有”,在开源大模型表现优异的情况下,模型本身不能成为互联网企业的护城河,只有数据才能让互联网企业在大模型竞争中夺得先机。