Page 15 - 网络电信2024年7月刊
P. 15

运营商专栏

自动驾驶与机器人的决策智能等;生成式AI的设计目标是模仿                了从预训练模型到大规模预训练模型、然后到超大规模预训练
人类的创造力,通过学习和理解大量的数据和信息,生成新的                 模型的持续进步和突破。目前千亿级参数规模成为大模型发展
内容,如创作和编辑等。生成式AI的核心能力在于创造新的内                的主流趋势,大模型正从单模态走向多模态、多任务融合。
容,而不仅仅是对已知模式的重复应用,由决策式AI到生成式
AI的演变也将大模型应用推向了更加多元化的场景。                         2.2 大模型技术路线
                                                  大模型技术发展有3种模式,即BERT模式、GPT模式和混
     1.2 大模型具有广阔的技术突破和应用想象空间                合模式,如图2所示。国外大部分主流大模型走的是GPT技术路
      模型根据IDC的预测,全球AI计算市场规模将从2022年的         线,而国内大多采用混合模式。2018年,BERT技术轰动一时,
195亿美元增长到2026年的346.6亿美元,中国AI市场规模到           但在2019年之后,BERT模式并没有出现特别具有标志性的新模
2026年将超过264亿美元。在国内大模型行业中,已经出现了超             型,技术路线也停滞不前,反而是GPT技术路线不断演进繁荣发
过120个大模型,其中10亿参数规模以上的大模型已经有79个,             展。从BERT到GPT演化的过程中来看,模型越来越大,性能也越
通用大模型至少20个。这些大模型基本来自互联网公司和科研                来越通用。大模型未来发展趋势将会是通用与专用并行、平台
院所,其余均为垂直领域的产业应用大模型。这些大模型涵盖                 化与简易化并进。
了自然语言处理、图像识别、智能客服和智能家居等。                         2.3 大模型的分类
                                                  大模型根据应用场景可分为通用大模型和行业大模型两
    2 大模型技术发展趋势                             种,如图3所示。强大的泛化能力是通用大模型具有的优势,多
                                            场景任务可以在大模型不进行微调或进行少量微调的情况下完
     2.1 大模型发展阶段                            成。与通用大模型相比,行业大模型通过利用各行业的专业知
      大模型发展可以分为萌芽期、探索沉淀期和迅猛发展期3个            识来对大模型进行微调训练,让模型变得“更专业”,在金融
阶段,如图1所示。                                   领域、能源行业和生产制造业等领域的需求得到满足。
 图2 2智01算8中-2心02技2年术架间构,大模型参数量继续呈指数增长态势,实现

图2 大模型技术模式                                      3 大模型发展核心要素

                                                 3.1 数据要素分析
                                                  高质量的数据资源让数据变成资产,数据将成为大模型技
                                            术的核心竞争力。目前国内外大模型数据集详情见表1。国外大
                                            模型的训练数据集大多数是来自于互联网现有文本数据。例如
                                            ChatGPT训练所使用的数据集就来自于维基百科、各种书籍、期
                                            刊、互联网新闻和社交媒体等。国内大模型的训练目前严重依
                                            赖现有的互联网公开的文本数据,由于国内大部分公司的开源
                                            意识普遍比较低、国内大模型所需的高质量中文数据资源大多
                                            数无法共享、且学术领域的中文数据集普遍受重视程度低等因
                                            素,使得中文开源数据集更为稀缺。

图3 大模型分类

12 网络电信 二零二四年八月
   10   11   12   13   14   15   16   17   18   19   20