公考雷达

m6在线登陆·迎接大模型时代：大模型发展简史及攻略

发布时间：2024-03-23 05:13:19 来源：M6官网注册作者：M6米乐手机登录APP入口

　　作为人工智能全球专家，陆奇自今年以来，以“大模型带来的变革和机会”为主题，先后在上海、深圳、北京等城市发表了多场演讲，进一步引发了业界对大模型的关注和思考。

　　本文基于对陆奇演讲内容的理解，对大模型的划时代意义、发展过程和分类进行了体系化的梳理，希望能帮助读者更全面、准确地认识大模型。同时尝试梳理并回答大模型如何打造，如何评价、如何实现商业变现等问题，希望能给读者一些启发。

　　大模型（LLM）狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型和科学计算大模型等。ChatGPT的火爆吸引了全世界对大模型的关注，比尔·盖茨表示，ChatGPT的诞生意义不亚于互联网的出现；陆奇在报告中称之为“ChatGPT时刻”。

　　信息社会先后经历了计算机、互联网、移动互联网和云计算等重要阶段；ChatGPT及一大批类似大模型的发展，标志着信息社会进入了大模型主导的新阶段。根据陆奇提出的“信息-模型-行动”系统分析范式框架，计算机、互联网、移动互联网和云计算这四个标志性技术都是实现了信息获取的边际成本无限趋近零。大模型热潮标志着新拐点即将到来，社会各界获取模型的总成本将逐渐趋近固定成本，预示着模型将无处不在，万物都将成为它的载体。

　　未来，自动化行动将成为新的拐点，人在物理空间内“行动”的代价转向固定，人将与数字化技术构建出一个全新的智能系统，实现信息、模型和行动的无缝衔接。这意味着人不再通过获取信息，利用人脑分析，自己去行动，而是智能系统自动获取低成本信息（数据），利用大模型，形成指令驱动各类系统（包括机器人）采取行动，从而对整个社会产生深远的影响和冲击，各类数字化系统也将基于大模型形成互联互通。

　　大模型推动弱人工智能向通用人工智能（AGI）跃升。2023年2月，OpenAI在ChatGPT成功的基础上，发布了通用人工智能路线图，建议逐步向AGI普及的世界过渡，让大众、政策制定者和研究机构有时间了解AGI技术带来的改变。谷歌也指出未来数年AGI将会得到普及，各种应用领域中的智能系统将具备与人类认知能力相持平的智力水平，能够胜任多种复杂任务。

　　大模型推动生产力从算力向机器智力跃升。生产力的变革是推动人类社会进步的根本动力，从原始社会、农业社会、工业社会到信息社会，背后是人力、畜力、电力到算力的跃升。随着大模型成为新的物种，机器智力将成为新的主流生产力。机器智力是智能算力与人类知识的扩展、集成和融合，大模型是机器智力的载体。随着大模型的不断进化和普及，其将成为经济社会的主流生产工具，重塑经济社会的生产方式，全面降低生产成本，提升经济效益。

　　大模型推动数字社会向智能社会跃升。首先是AI特别是AGI产业高度发展，带动智能算力相关基础设施投资，并基于大模型衍生出多种新业态和新市场，成为经济增长的核心引擎。以智算中心为例，一个单位的智算中心投资，可带动AI核心产业增长约2.9-3.4倍、带动相关产业增长约36-42倍。GPT等各种大模型是人工智能时代的“操作系统”，将重构、重写数字化应用。其次是有了AGI的加持，人类的能力和活动范围都将得到大幅提升，进一步从重复性的脑力劳动中解放出来。但是，需要注意到，大模型的普及也会给现有的教育、就业、甚至全球的格局带来冲击，是需要政府和产业界共同研究的问题。

　　1956 年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年，卷积神经网络的雏形CNN诞生。1998年，现代卷积神经网络的基本结构LeNet-5诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型，为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续深度学习框架的迭代及大模型发展具有开创性的意义。

　　2013年，自然语言处理模型Word2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。2014年，被誉为21世纪最强大算法模型之一的GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，奠定了大模型预训练算法架构的基础。2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，意味着预训练大模型成为自然语言处理领域的主流。在探索期，以Transformer为代表的全新神经网络架构，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升。

　　2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，成为当时最大的语言模型，并且在零样本学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现，被用于进一步提高推理能力和任务泛化。2022年11月，搭载了GPT3.5的ChatGPT横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。2023年3月，最新发布的超大规模多模态预训练大模型——GPT-4，具备了多模态理解与多类型内容生成能力。在迅猛发展期，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功，就是在微软Azure强大的算力以及wiki等海量数据支持下，在Transformer架构基础上，坚持GPT模型及人类反馈的强化学习（RLHF）进行精调的策略下取得的。

　　大模型作为新物种，一直在快速进化，目前已经初步形成包括各参数规模、各种技术架构、各种模态、各种场景的大模型家族（如图2所示）。

　　从参数规模上看，大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计，每年参数规模至少提升10倍，实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。

　　从技术架构上看，Trans former架构是当前大模型领域主流的算法架构基础，其上形成了GPT和BERT两条主要的技术路线，其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后，GPT逐渐成为大模型的主流路线。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式，如百度文心一言，阿里发布的通义千问等。

　　从模态上来看，大模型可分为自然语言处理大模型，CV大模型、科学计算大模型等。大模型支持的模态数量更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

　　从应用领域来讲，大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于AI完成了“通识教育”，ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调，让AI完成“专业教育”，以满足在能源、金融、制造、传媒等不同领域的需求，如金融领域的BloombergGPT、法律领域的LawGPT_zh，以及百度基于文心大模型推出的航天-百度文心、辞海-百度文心等。

　　目前大模型的开发主要有两种路径，一种是从头构建完整大模型；另一种是在开源的通用大模型之上调优。前者所需数据、算力、时间投入较大，但大模型的性能更为突出。后者模型的参数和能力受限于开源模型，但成本较低，可以快速形成所需的大模型。

　　首先是训练构建基座模型。基座模型已经初步具备良好的知识框架和认知能力，但需要复杂指令的准确引导才可以生成正确内容，因而一般不能直接用于作为日常交互。从模型算法角度看，目前主流的GPT类基座模型均基于Transformer的decoder思路设计。从数据角度看，基座模型是实现涌现能力（参数达到一定规模时出现意想不到的能力）的基础，训练需要用到大量的数据，GPT3.0用到了45TB的文本语料，GPT4中还增加了图像数据等。从算力资源角度看，训练一个基座模型需要大量的算力和较长周期，为了提高效率，ChatGPT用到了近万张英伟达A100的GPU卡。基座模型可以理解为小孩已经生硬地背了大量古诗，但还不会熟练运用。你跟他说“举头望明月”，他能对出“低头思故乡”。但你让他背一首“思乡”的诗，他就不会了。

　　其次是策略精调。目的是让模型具备适用性，能与人类正常交流，即让基座模型理解用户想问什么，以及自己答的对不对。这个环节主要通过高质量的人工标注指令，答案（即prompt工程）优化模型。ChatGPT的标注数据集主要由一个3 0-50名Op en A I员工组成的团队和从第三方网站雇佣的50-100名标注员共同完成。这个过程可以理解为老师给学生上课，讲解很多诗句的含义。引导他看到“孤独（prompt)”可以写“拣尽寒枝不肯栖，寂寞沙洲冷（答案）”，看到“豪情（prompt)”，可以写“愿将腰下剑，直为斩楼兰（答案）”

　　第三步是训练一个独立于基座模型的判别模型，用来判断模型生成结果的质量，为下一步的强化学习做准备。由专门的标注人员对模型生成的结果按照相关性、富含信息性、有害信息等诸多标准进行排序，然后通过判别模型学习标注好排名的数据，形成对生成结果质量判别能力。这一步是为小朋友培养一个伴读。通过给定一组题目（prompt），让小朋友为每一个题目写多篇古诗。由老师为每一首诗打分（结果标注），然后将结果告诉伴读。伴读需要学会判断哪首诗更符合题目，写的更有意境。

　　最后一步是利用奖励机制优化基座模型，完成模型的领域泛化能力。本阶段无需人工标注数据，而是利用强化学习技术，根据上一阶段判别模型的打分结果来更新内容生成模型参数，从而提升内容生成模型的回答质量。（第三和最后一步相当于大人去纠正小孩对话，告诉孩子哪句话是对的，哪句话不能这么回答，比如“爸爸好不好？”，回答“爸爸是坏蛋”就要进行“惩罚”，回答“爸爸很好，我很喜欢爸爸”就比较符合要求。类似的做法，实际的工作比这个要复杂的多，需要大量的专家投入）。这一步则是让伴读提升小朋友的水平，而老师则可以休息了。伴读告诉小朋友，如果用“未若柳絮因风起”描写雪则可以有糖葫芦吃，如果用“撒盐空中差可拟”描写则没有糖吃。通过反复练习，最后就可以培养出一位“能诗会赋”的高手（成品大模型）。

　　基于开源通用大模型进行调优是低成本的选择，也是大模型下游玩家最常见的选择，利用开源大模型，玩家可在1张高性能显卡中，约5小时就可完成包含200万条数据的参数微调。参数高效微调方法是目前业界主流的调优方式，在保持原有大模型的整体参数或绝大部分参数不变的情况下，仅通过增加或改变参数的方式获得更好的模型输出，影响的参数量可仅为大模型全量参数的0.1%以下，典型代表为微软提出的LoRA技术。

　　短短几个月，国内外AI大模型数量激增，良莠不齐，尤其如何对开源大模型进行评估成为新的课题，对于开源大模型选择、促进大模型的发展具有非常重要的价值。未来，对于2B客户来说，需要从诸多行业大模型选择适合自己需要的大模型，第三方独立评估结果具有重要的参考价值。

　　一类是深度学习常用的语言理解数据集与评测指标，即通过运行标准的数据集，来评测大模型的深度学习性能，常用的指标有准确率、召回率等。Meta、谷歌和华盛顿大学等合作推出的SuperGLUE（超级通用语言理解评估）包含7个任务的集合，能够测试大模型在回答问题和常识推理等多方面的能力。

　　另一类是面向大模型的文本生成、语言理解、知识问答等能力，设计专门评估指标体系，然后通过提问（prompt）的方。

m6在线登陆