- 大模型入门:技术原理与实战应用
- 程絮森等编著
- 1206字
- 2024-06-21 21:31:29
1.3 大模型的崛起:从初露头角到AI巅峰
大模型的发展历程是一个充满挑战和创新的过程,大模型的起源可以追溯到2015年,那一年萨姆·奥特曼、伊隆·马斯克等人在美国旧金山共同成立了OpenAI。2017年,谷歌大脑团队推出了用于自然语言处理的Transformer模型,成为当时最先进的大型语言模型(Large Language Model)。自诞生起,Transformer模型就深刻地影响了接下来几年各个领域人工智能的发展,而OpenAI公司就是专注于研究Transformer模型的众多团队之一。2018年,Transformer模型诞生不到一年,OpenAI就推出了具有1.17亿个参数的GPT-1模型。这个模型采用了Transformer结构,可以对大量的文本数据进行预训练,从而学习到语言的语法和语义特征。2019年,OpenAI公司公布了GPT-2模型,该模型具有15亿个参数,比GPT-1的规模更大,可以生成更加自然、连贯的文本。但是,由于担心GPT-2模型被滥用,OpenAI公司只发布了部分模型和数据,并且限制了其访问和使用。2020年,OpenAI推出了GPT-3模型——这时它具有1750亿个参数。这个模型可以进行商业化使用,用户提供小样本的提示语或直接询问,即可获得符合要求的高质量答案。2022年3月,OpenAI推出了InstructGPT模型,该模型为GPT-3的微调版,使用RLHF和指令微调优化了输出的结果。同年11月底,人工智能对话聊天机器人ChatGPT推出。2023年3月,OpenAI发布了GPT-4,在原先的基础上增强了多模态的能力,具有强大的图像识别功能,在部分学术和专业考试方面甚至超越了人类水平。
纵观大模型的发展,随着模型能力提升的还有模型的参数规模,从GPT-1的1.17亿个参数,到GPT-4的1.8万亿个参数,如图1-6所示,参数数量随着版本更迭急剧上升,模型能力也得到了综合加强。
图1-6 ChatGPT参数规模
在GPT-3.5模型推出后,科技企业纷纷开始积极研发自己的大型预训练模型,这一趋势推动了人工智能领域的快速发展。除ChatGPT外,百度于2023年3月召开发布会,发布了自研大模型“文心一言”,发布会上展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合实力;同年4月,阿里发布了自研大模型“通义千问”,展示了通义千问的文本创作翻译、角色扮演、语义理解、图形设计、连续对话、智能助手等功能,并表示会将大模型与所有产品和业务结合,推出更加智能化的新一代产品。随后,360、科大讯飞等也推出了大模型;在科研界,清华大学推出了ChatGLM-6B,可在消费级显卡上很方便地进行部署和微调;复旦大学NLP实验室推出了MOSS模型,也在多项NLP任务上取得有效成果;人民大学在2023年6月也推出了玉兰大模型,在多模态、信息检索等方面做了针对性优化。
除了通用的大模型,一些企业和研究团队也开始研发面向特定领域的模型。这些模型受到领域知识的启发,旨在更好地满足特定任务的需求,如医疗保健、金融、法律和工业领域的任务。例如,2023年9月外滩大会发布的蚂蚁集团金融大模型——AntFinGLM,测试集从认知、生成、专业知识、专业逻辑、安全性等28类金融专属任务评估了金融大模型能力,在金融领域的表现远远超过通用大模型。在研判观点提取、金融意图理解、金融事件推理等任务上,金融大模型已经达到专家平均水平,在一些专业考试上取得了不错的成绩。