导语
从2022年底ChatGPT横空出世,被大家广泛认知并在工作生活中迅速普及应用,到2023年一整年的大模型热潮,在科技巨浪奔逐下,大模型技术如同一颗璀璨的明星,迅速崛起并引领着一场新的技术革命,将科技的边界不断拓展。这标志一个新的时代到来——大模型驱动社会全域发展。
此类现象,在人类发展的历史长河中不断演绎,无论是机械化、电气化还是信息化、数字化,每个大的历史发展阶段,都基于某种关键技术产品的推动。在互联网的历史发展过程中,亦是如此,发挥重要作用的关键技术产品有人工智能(AI)、区块链技术、大数据技术、物联网技术、边缘计算、工业网关、智能终端等,并形象地用关键技术冠以“时代标签”,如IT时代、大数据时代,它们各自解决了发展过程中的突出问题。显而易见,近年大火的大模型已成为又一个关键技术产品,其来势凶猛,将引领一个大模型“狂飙”时代。
当下,大模型的能力拓展对很多领域产生颠覆式影响。对于个人而言,从文本创作到日常办公,大模型正以更加精准和高效的服务方式赋能各种场景,如百度上可以文生图、图生文,微信公众号上文字可以转语音听书等。对于企业级应用而言,大模型在营销、客服、研发等业务领域,正发挥无可估量的作用。但大模型的“硬核”还未被真正了解,我们认为大模型的发展尚处于初级阶段,展现的主要功能是文本、图像、语音、视频四大语言之间的转换,实现了从信息“传输”到“转换”飞跃。下一步这种转换会在“人与人”“人与物”“物与物”之间扩展,大模型正以前所未有的速度和势能,使人的器官获得无限延伸,进入无边界可持续发展状态。
为此,这里做些基础知识的学习分享,以及基于此做的个人粗浅理解的延伸。包括大模型时代的“明星”产品ChatGPT,到新趋势产品多模态大模型,和大家关心的大模型构建与应用方法,以及研究方向、发展趋势与具体行动。不妥之处,请批评指正!
所论述的知识主要来源于三本书:《大模型:技术场景与商业应用》《多模态大模型:技术原理与实战》《大模型时代》。在此,向三本书的作者表示感谢!
一、大模型
大模型的概念:模型通常是一个函数或者一组函数,可以是线性函数、非线性函数、决策树、神经网络等各种形式。与专注于某个具体任务建立的AI数据模型——“小模型”(如“阿尔法狗AlphaGo”)不同,大模型的“大”,是指模型参数至少达到亿,大模型和超大及中小微模型的区别在于模型参数数量的大小、计算资源的需求和性能表现。大模型的三大要素:算力、算法、数据。算力支撑大模型训练与推理,算法是模型解决问题的主要机制,数据是大模型训练的养料。这里有必要介绍一下GPT,GPT的全称是Generative Pre-Trained Transformer(生成式预训练转换器)是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,近来火遍全球的ChatGPT(Chat,会聊天的)就是一个语言大模型,它可以通过互联网上的自然语言数据进行自主学习(Self-supervised Learning),并训练出语言模型。对它的使用越多,它“进化”得就越快(在下文将进行详细介绍)。
简单概括就是:大模型更像人类的大脑。兼具“大规模”和“预训练”两种属性,可以在海量通用数据上进行预先训练,并大幅提升AI的泛化性、通用性、实用性。
大模型的分类:大模型有多种,现在应用的主要是语言类的,可分文本大模型、声音大模型、图像大模型和视频大模型等。也可根据应用领域不同,分为各行各业的大模型,如法律服务行业大模型、汽车制造行业大模型、教育行业大模型等;根据模型的复杂性不同,分为单模态、多模态大模型和跨模态大模型;根据模型是否开源分为闭源大模型和开源大模型。
二、ChatGPT
ChatGPT的概念:是一款基于大模型文本训练的大语言模型,可以基于自然语言理解、深度学习等技术,理解和生成各种内容,完成多种自然语言处理任务。可生成的主要内容有文本、图像、语音、视频、游戏、代码生成。
ChatGPT的演变历程:OpenAI于2018年6月发布了生成式预训练转化器小模型GPT-1,2019年2月推出GPT-2,2020年6月推出GPT-3,2022年12月推出ChatGPT,2023年推出了GPT-4。从GPT-1、GPT-2、GPT-3、GPT-3.5到ChatGPT-4的诞生,预训练的数据量、模型的参数量呈指数级增长,预训练语言模型的实际效果也从仅能生成较为通顺流畅的语言,发展到几乎逼近人类预期的智能水平。
ChatGPT的通用能力:ChatGPT的目标是做人类的助手,协助人类解决创意和推理问题,提高人类的能力。其通用能力主要体现在4个方面:(1)基于海量数据的内容智能生成;(2)区别于传统搜索方式的智能搜索;(3)支持多种语言批量翻译的智能翻译;(4)赋能智能机器人。
ChatGPT与其他大模型的不同:与InstructGPT相比,ChatGPT的综合能力显著高于InstructGPT,表现在底座模型(GPT3.0-GPT3.5)应用场景(对话型文本-指令型文本)、推理能力、代码生成能力和泛化能力。与BERT相比,BERT模型的自然语言理解力强,ChatGPT的推理能力强。在BERT模型推出之前OpenAI已经发布了GPT-1。BERT借鉴了GPT-1的系统架构,GPT-1采用了BERTD的Transformer和自注意力思想。
三、多模态大模型
多模态(Multimodal)概念:指的是在同一个体系或者系统中,同时存在两种或者两种以上的感知模态或数据类型,在图像生成、图像描述、视觉问答3个多模态任务中直观地展示了多模态大模型的效果。
多模态发展经历了5个时代:行为时代(1970-1979)、计算时代(1980-1999)、交互时代(2000-2009)、深度学习时代(2010-2019)、大模型时代(2021年至今)。
多模态大模型发展的重大里程碑和趋势:
(1)Vision Transformer模型,第一个开创性地将Transformer应用于计算机视觉领域的模型;
(2)VideoBERT模型,被广泛应用于视频生成、描述、回答、动作分类等任务中;
(3)CLIP模型,证明了“多模态预训练大模型+零样本推理”模式的可行性;
(4)CoCa模型,融合了解决图像多模态问题的3种传统的思路(单编码器模型、双编码器模型、编码器-解码器模型);
(5)GPT-4,能够很好地理解图像中蕴含的语义信息,并结合用户输入的问题,进行多步推理,给出准确、合理、安全的回答;
(6)C0Di模型,支持模型的输入和输出均可为文本、图像、语音、视频的任意组合。
多模态的发展趋势是多模态融合的输入与输出技术,数据融合的方法有多种,其中一种是以某一中间信息(如文字)桥接不同模态的信息,如一个大模型能同时处理多个模态的输入和输出。
多模态大模型的核心技术:主要有文本多模态技术、图像多模态技术、语音多模态技术、视频多模态技术、跨模态多重组合技术、多模态大模型高效的训练方法和GPT-4多模态大模型技术。
“大模型+多模态”的三种主流实现方法:(1)以LLM(大语言模型)为核心,调用其它多模态组件;(2)基于多模态对齐数据训练多模态大模型;(3)以LLM为底座模型,训练跨模态编码器。
四、大模型的构建
大模型产业生态体系分为基础层、模型层和应用层三层架构。基础层包括数据、算力、计算平台、开发平台等,为大模型产业搭建基础设施;模型层聚集大量致力于自主研发大模型的主体;应用层向To B和To C着两个方向发展。
无论是个人还是公司,只有主动拥有大模型,才能避免在这一次大模型浪潮中被淹没。每个人都要主动连接、使用大模型,尽早明确自己的生态位。每个企业都应该有自己关于大模型研发或应用的计划,要么重新训练一个大模型,要么在开源的大模型基础上做二次优化,要么采购第三方解决方案。
可以预测未来的产业格局是大公司建生态,中小公司提供垂直领域的服务,比如数据标注、算力优化等。大模型发展两大方向为多模态和开源,多模态开源大模型将成为大模型发展趋势,如Hugging Face发布了免费、开源的大模型HuggingGPT,市场上出现了开源社区。大模型开源的三大原因:(1)防止垄断;(2)保护数据;(3)降低成本。
要完成一个多模态大模型在服务器上的部署和发布,需要很多软硬件底层环境的支持,包括显卡、显卡操作系统、驱动程序、平行计算平台(CUDU)和神经网络库(cuDNN)。常用的部署多模态大模型的方法有Flask、Gradio、FlaskAPI、Django和Tomado框架,部署流程是:下载VisualGLM-6B的源代码、下载VisualGLM-6B、安装需要的Python包、根据具体的使用方式开发API和启动部署程序。
要加快多模态大模型的建设运营,通过微调技术和压缩技术,能用较小容量的显存轻松地运行大模型,并尽快在垂直领域开花结果。微调技术主要有LoRA技术、AdaLoRA技术、QLoRA技术和采用DeepSpeed的ZeRO-3方式的全量微调;压缩技术有剪枝、知识蒸馏和量化压缩等。
五、大模型的应用
大模型可向企业客户和应用程序开发者提供多种能力调用,包括模型推理、微调训练、强化学习训练、插件库、私域模型托管等。将带来三大改变:(1)突破定制化小模型落地瓶颈;(2)降低AI开发和训练成本;(3)带来更强大的智能能力,为人工智能从弱人工智能走向强人工智能提供了一条可行的路径。
大模型的应用范围:已成功应用的行业分为知识工作型、企业业务型和创意娱乐型三类。大模型的应用功能不断强化,且还在不断拓宽,可概括为三层境界:从助手(辅助工具)到人机协作(业务流程调整和组织变革),再到颠覆式创新(创新业务模式开拓新市场)。在脑机协作中,大模型将会从副驾往代驾的方向发展。在情感和创意方面,人类仍然具备不可比拟的优势,也是值得我们坚守和加强的领域。
大模型的应用方法:是人类获取知识的一次创新,实现了从“搜商”到“问商”的升级。“搜商”指的是利用“搜索语言”在互联网上搜索信息、获取知识的能力;“问商”指的是利用构建合适的提示(提示工程)向大模型提出一系列的问题和要求,从而获得最接近期望回答的能力。
“问商”分为初级和跟进两个阶段,分别采取3R任务授权法和苏格拉底提问法。3R任务授权法:(1)Role角色设定和目的;(2)Result期望的结果;(3)Recipe思考如何才能达到预期的结果,并给出方法和指导。苏格拉底提问法是提出问题并引导出答案的方法,问题分证据、视角、理由、影响四大类,目的主要是检验理论或观点、让隐藏在脑海未成形的想法成形、引出符合逻辑或合理的结论、引导承认其观点或结论需进一步验证真假。
大模型产业的商业模式:卖算力是短期内最赚钱的商业,卖大模型是最有想象空间的商业;将大模型能力与行业结合,提高现有业务的生产力是最现实的商业;在某个应用场景中形成颠覆式创新,面向最终消费者创造新的价值,引领行业甚至创造一个新的行业,是最好的商业。现行的收费方式主要有三种:(1)按模型使用收费,即订阅制收费;(2)开放API和项目定制开发收费;(3)大模型提供商同时开发运营自己的应用,嵌入其他产品获得引流收费。例如,ChatGPT Plus按月订阅付费20美元/月,苹果公司对开发者收入抽成30%。
六、大模型的研究现状与方向
现状:目前,市面上对大模型的研究是全方位的,重点解决算力问题。大模型是人工智能技术的一大突破,成为通用人工智能发展的起点。人工智能模型的工作分为训练和推理两个阶段。大模型的训练包括自监督预训练、监督微调、人类反馈强化学习。人工智能对大模型质量的评估必须由人类完成,对质量的奖励或问责都要落到相关的人类员工身上,机器无法承担,也不应该承担责任。
美国在大模型研究方面处于明显领先地位,如走在前面的OpenAI和谷歌公司率先推出了GPT和BERT。我国处于领先地位的有华为盘古、百度文心一言、清华智普、阿里通义千问等大模型,对多语言支持的能力比较弱,基本上都是封闭和不开源的。
方向:下一步的工作重心是服务于工业生产,包括优化生产计划、监控生产过程、控制生产成本、实现智能生产制造和全产业链的智能管控,重点研究方向有模型规模增长、跨模态学习、多模型协同、智能性和自适应性等,以及与大模型匹配的大平台、大数据中心和各种终端设施,并建立不断增长的大生态系统中各主体之间的协同关系机制,包括专业的模型开发维护组织。
需要强化的基础工作主要有:(1)大数据的获取和处理软件技术,包括参数标准体系建设与应用。(2)承载大模型的硬件及配套技术设施,包括测试和评价体系建设与应用。(3)对模型进行细分,并制定连接规则和责权利机制,可根据参数的多少分为五级:超大模型、大模型、中模型、小模型、微模型,对应参数的量级分别为兆、亿、万、千、百,对应的场景对象分别为社会、行业、企业、项目、设备。
七、大模型的发展预测
未来,大模型的服务能力、范围和水平将不断拓展,发展空间无限。依据老子的“三生万物”哲学观,结合现代数字化新技术,可以预测大模型的发展趋势,粗分为以下四个阶段:
初级阶段:主要功能是提高人与人之间的交流效率,尤其是利用语言获取信息和知识,以文本与语音间的相互转换为介入点,很快拓展到写(包括图像)、听、说和看(包括视频)及其间的相互转换,如ChatGPT。
中级阶段:主要功能是提高人与设施(人工物)之间的交流效率,尤其是利用信息管控物,以设备(如汽车)的智能控制为介入点,不断拓展到不同设施的智能控制,主要解决的是工业生产的智能化升级,如智能工厂。
高级阶段:主要功能是提高人与物(包括自然物)之间的交流效率,尤其是利用信息实现物与物之间的相互作用,以无人工厂中生产的智能控制为介入点,不断拓展到不同物间相互作用的智能控制,包括生物和非生物,人造物(如设备)、人工物(如原材料)和自然物(如深海野生生物),如智慧城市。
超级阶段:主要功能是提高“人与物”和“物与物”之间的互动效率,尤其是利用信息实现人与自然的协调持续发展,以元宇宙为介入点,不断拓展空间强化功能,进入无边界的可持续发展状态。
八、我们的行动
我们每个人是生态系统中的最小单元(细胞),每家企业是生态系统中的一个组织(子系统),当下需要做的是了解它并连接它,大模型大幅度拓宽了大家之间的连接,并加速了信息和知识的获取速度。因此,我们只有积极拥抱它、并快速融入到这个大模型所构建的大家庭中,才能成为拥有“个人IP”的超级个体。紧跟这个“狂飙”的生态系统,是我们的机遇也是责任,决不能掉队,更不能错过!
各种前端技术的真正价值并非仅仅停留在理论中,而是需要通过实际的应用场景来发挥。我们需要做的是在未来的产业格局中,定好自己的位,大企业适合做大模型建设的主持者,中小企业适合在某一垂直领域进行深耕,专精特新小微企业则可作为某一细分单元的工匠。天人环境和国真智慧义无反顾地投身到环境领域的大模型开发与应用工作,重点解决大数据的精准快速获取与传输,以及高效增值处理与应用。我们期待与志同道合者广泛合作,包括“共建”“共推”和“共营”。
为方便大家了解,这里推荐两本书:一本是《大模型:技术场景与商业应用》,梅磊等著,清华大学出版社,2013年12月第1版。该书适合职场人员进行大模型知识科普,主要从典型应用ChatGPT入手,探寻其背后支撑大模型的魅力。对大模型的基本概念、产业格局、带来的新商业模式进行讲解,展现了大模型的发展现状和商业化潜力;从数据服务、智能搜索、办公工具、对话式AI、休闲娱乐、生产制造、智慧营销、智慧城市等方面讲述了大模型的诸多应用场景,并阐述了大模型在这些领域的应用现状、应用潜力、企业探索实践等。另一本是《多模态大模型:技术原理与实战》,彭勇等著,电子工业出版社,2023年11月第1版。该书适合IT专业人员进行大模型入门知识学习,帮助读懂ChatGPT的核心技术,看清GPT的进化史和创新点,详述多模态大模型的核心技术和应用场景,让中小企业可以从0到1部署多模态大模型,打开通往通用人工智能的大门。详细介绍了中小企业的大模型构建之路,阐述了如何通过微调、量化压缩等技术构建垂直领域的轻量级大模型。