在阅读本文前,有几个热身的问题,您尝试回答一下。
1. 什么是大语言模型(LLM)?
(资料图)
2. 大语言模型开发与传统机器学习开发有什么区别?
3. 什么是任务特定模型?
4. 什么是大语言模型的微调和参数有效调整?
5. 如何理解大语言模型的一体多用特性?
下面就让我们开启探讨大语言模型奥秘之旅。
引言
深度学习的子领域中有两个重要的概念:大型语言模型(LLMs)和生成式人工智能(Generative AI)。这两者在许多方面都有交集,并且都属于深度学习的研究范畴。如果您对生成式人工智能感兴趣,建议您阅读金博士的《生成式人工智能简介》一文。
在过去的几年中,生成式人工智能发展迅速,吸引了大量的关注。这种类型的人工智能能够生成全新的内容,包括文本、图像、音频和合成数据。
本文我们探讨一下什么是大型语言模型。这类模型预先通过大量的文本数据进行训练,通常是从互联网或其他公开可获取的书籍中提取的。预训练期间,模型学习并理解文本数据的模式和结构。之后,在微调阶段,模型会根据特定的任务进行优化,这些任务可能包括机器翻译、文本生成、情感分析等。
前文回顾:
AI技术干货|从头开始图解大语言模型(上篇)
深度网络近似函数的深度讨论
神经网络被誉为通用近似器,理论上它们可以拟合任何函数。然而,在实际操作中,如果想要模拟一种复杂的函数,比如我们希望模拟的语言模型,我们需要一个具有足够"容量"的神经网络。所谓的"容量"可以理解为神经网络的复杂程度或者说是神经网络的大小。换句话说,如果一个神经网络的结构过于简单,那么它可能无法拟合一些复杂的函数。
为了更好地理解这个概念,我们可以做一个比喻。假设我们现在有一条蓝色的曲线,我们希望用一个神经网络去拟合它。但如果我们选择的神经网络过于简单,比如只有四个权重参数,那么这个神经网络可能就无法拟合蓝色曲线的第二个波峰,因为它的"容量"不足以表达这么复杂的结构。
此外,神经网络的设计决策也很重要,比如激活函数的选择。比如,ReLU(Rectified Linear Unit,修正线性单元)激活函数在神经网络中非常流行,但它们只能给出分段线性的结果,所以如果要拟合一个曲线函数,就需要更多的ReLU单元。
那么,我们如何设计一个能够模拟语言的神经网络呢?这需要我们进行更深入的探索和学习。在下一部分中,我们将创建一个强大的神经网络,它可以生成诗歌,翻译语言,甚至编写计算机代码。这样的网络,会给我们展示人工智能在语言处理上的潜力和魅力。
词嵌入(Word Embedding) 方法
对于一段给定的文本,“the hair was still ...", 我们想要预测下一个单词"red",这就需要使用某种类型的神经网络。首先,我们需要把单词转换成数字,这样神经网络才能理解。你可能会想到直接按照字母顺序给每个单词编码,但这样会有个问题,那就是一些语义相近的词,比如"apex"(顶点)和"zenith"(顶峰),就会被赋予非常不同的数字。
为了解决这个问题,我们更倾向于将语义相似的词映射到相似的数字,或者在这种情况下,是相似的向量。这种方法被称为词嵌入(Word Embeddings),这样做的好处是显著改善了词汇的表示,我们也可以在网络上轻易找到已经训练好的词嵌入模型。
拥有了词嵌入这个工具后,我们就可以开始设计我们的大型语言神经网络了。一个基础的设计可能看起来非常简单,你可能只需添加更多的层、神经元和权重,以增加网络的容量。
图 30 多层神经网络预测单词 red
然而,这种简单的增加并不能满足我们的需求,原因是这个问题的难度远超我们的想象,我们需要给神经网络提供更多的帮助。
那么,如何设计一个更强大、更准确的语言模型呢?我们需要挖掘更深层次的模型设计思路。比如,我们可以尝试使用更先进的模型架构,或者引入更多的上下文信息。甚至,我们可以尝试使用一些专门针对语言建模的先进技术,比如自注意力机制、变换器(Transformer)模型等。这些技术不仅能够帮助我们的模型更好地理解语义的深层次联系,还能够更准确地预测下一个单词。只有深入理解并巧妙利用这些先进技术,我们才能设计出真正强大的语言模型。
变换器(Transformer)
回顾我们前面提到的例子"the hair was still ...",如果把最后一个词 "red" 留在口中不说,估计大家也能猜出来。实际上,你可能只需要听到前四个词就能猜出,即和"bed"押韵一种发型或颜色。通过这个示例我们可以洞察到:在预测下一个词时,我们只需要关注到一部分词语。
图 31 变换器预测单词red 图一
那么,如果我们能训练一个神经网络来模拟这种注意力机制会怎么样呢?我们需要使用一种称为"注意力网络"的网络来解决这个问题。这种网络会接收输入词语,并为每一个词计算出一个介于0和1之间的注意力权重。然后,我们将这些权重与对应的词语相关联,并将结果输入到下一个单词预测网络中。
然而问题来了,如何训练这个注意力网络呢?你或许想到人工标注的方法,即可以雇佣人力在大量的文本中标注哪些词押韵,哪些词之间存在关联,然后使用这些信息作为训练数据。但是,这听起来就很繁琐且费力。其实,我们有一个更好的方法。
理解了上述内容后,我们可以开始讨论一种更有效的训练方式,那就是使用一种被称为"自监督学习"的方法。在这种方法中,我们不需要显式地标注训练数据。相反,我们可以让模型在大量的未标注文本中自我学习,这可以通过让模型预测被随机遮盖的单词,或者学习预测单词的顺序来实现。通过这种方式,模型可以在大量的数据中自我学习,无需我们花费巨大的努力去标注数据。
为了改善预测的精确性,我们可以同时训练这两个网络,也就是注意力网络和预测网络。在这种情况下,预测网络会指导注意力网络在何处需要进行学习以更好地预测下一个词。例如,假设网络预测出的词是“brown”而不是“red”。由于"brown"并不和"bed"押韵,因此反向传播算法可能会试图增加对"bed"的注意力,同时减少那些导致选择"brown"的权重。
图 32 变换器预测单词red图二
这种联合训练的方法效果显著,形成的这种组合网络被称为变换器(Transformer),变换器的整个架构相当复杂,我们这里只是做些基础性的介绍。注意力网络的实现方式与之前描述的有所不同,它并非是整体处理所有词语,而是一个词一个词地进行处理。例如,对于"still"这个词,网络会评估每个其他词与"still"的相关性,并将这些注意力得分编码为介于0和1之间的值。然后,我们会取这些词的加权和,将其编码为一个上下文向量"c"。
关键词:
(责任编辑:黄俊飞)推荐内容
- AI技术干货|从头开始图解大语言模型(中
- 锂业股“景气度投资”画句号,基金中报持
- 天地数码:拟向激励对象39人授予限制性股
- 罗马诺:利物浦今天再次商谈拉维亚转会,
- 奔驰V级进行改款,不让丰田埃尔法抢尽风
- 你收到了吗?看看这届湖南高校录取通知书
- 投诉北京思博学教育科技有限公司
- 2023年上半年中国移动游戏市场收入1067.0
- 王建雄同志任楚雄师范学院党委书记
- 2023年秋台风喜欢去华南还是华东
- 河北唐山:大暑节气送清凉
- 反转!女子遭电诈后,“反赚”骗子5万上
- 预定利率下调,寿险如何换挡
- 央行:截至6月末小额贷款公司贷款余额827
- 一10岁男孩被其继母殴打致死,宁夏警方通
- “研学旅行”
- 广西德保一大批水果陆续成熟上市
- 拜城县农信联社被罚30万:因内控管理不到
- 苹果正在追赶LG和三星推出无边框iPhone显
- 聂耳交响乐团11首曲目唱响昆明机场 远方
- 大中街道小网格守护群众大平安
- 天水“暑期档”旅游持续升温
- 大众汽车回应“ID.3车型中德市场价格差异
- 加强版张镇麟!广东“天赋最强之人”正式
- 宁夏银川:入夏“夜经济”升温
- 再见张本智和,再见早田希娜,国际乒联发
- 第六届中国新疆国际民族舞蹈节新闻发布会
- 新股誉辰智能破发,现跌超5%
- 习近平主持召开中央全面深化改革委员会第
- 广州黄埔至南沙东部快速通道南沙段动工
- 金观平:金融政策延长适用期提振楼市信心
- 怀孕肾功能不好有什么症状_肾功能不好有
- 下星期,狮子座无法忘记旧爱,沉迷过去,
- 豪赚8700亿美元!欧佩克2022年石油收入创
- 幸福蓝海获16家机构调研:公司主投的大国
- 最新世界排名:4-3绝杀夺冠,樊振东重回
- 阅文集团(00772.HK):7月11日南向资金
- 中国育儿网络(01736)拟折让约19.74%发行4
- 「半年报前瞻」万亿板块强势领涨!价格战
- alberta的缩写 albert
- 方大集团:上半年净利同比预增60%-80%
- 宾利汽车将携搭载12缸发动机的重磅车型亮
- 福彩体彩第182期晒票!不要勉强自己,量
- 你吃鸡了吗?长沙盒马入伏商品增长明显,
- 机构今日买入这3股,抛售豪恩汽电1.05亿
- 湖南省县级政府法治形象评议活动线下调研
- 新的《杀出重围》游戏似乎尚未开发
- 汽车概念强者恒强 零部件和整车 谁跑得
- 反对声浪中 美国为何仍向乌提供集束弹药?
- 开局很惨,结局很棒!2021年新年阳光灿烂!
- 概念动态|克来机电新增“汽车电子”概念
- 卡塔尔与阿联酋签署长期凝析油供应协议
- 浙江黎明7月11日盘中涨幅达5%
- 新一代焊门员!Redmi K70渲染图曝光:小
- 群众随手拍交通违法行为不是多管闲事
- 20.99万起小鹏G6卖爆!CEO何小鹏亲下工厂
- 瑞典首相:瑞典将“尽快成为北约正式成员
- 烟气电动调节风门
- 钱报读书会预告|舟山烟雨浙江潮,杨怡芬
- 旅游旺季来了 甘肃暑期整体订单量同比增
- 大中街道小网格守护群众大平安
- 天水“暑期档”旅游持续升温
- 大众汽车回应“ID.3车型中德市场价格差异
- 加强版张镇麟!广东“天赋最强之人”正式
- 宁夏银川:入夏“夜经济”升温
- 再见张本智和,再见早田希娜,国际乒联发
- 第六届中国新疆国际民族舞蹈节新闻发布会
- 新股誉辰智能破发,现跌超5%
- 习近平主持召开中央全面深化改革委员会第
- 广州黄埔至南沙东部快速通道南沙段动工
- 金观平:金融政策延长适用期提振楼市信心
- 怀孕肾功能不好有什么症状_肾功能不好有
- 下星期,狮子座无法忘记旧爱,沉迷过去,
- 豪赚8700亿美元!欧佩克2022年石油收入创
- 幸福蓝海获16家机构调研:公司主投的大国
- 最新世界排名:4-3绝杀夺冠,樊振东重回
- 阅文集团(00772.HK):7月11日南向资金
- 中国育儿网络(01736)拟折让约19.74%发行4
- 「半年报前瞻」万亿板块强势领涨!价格战
- alberta的缩写 albert
- 方大集团:上半年净利同比预增60%-80%
- 宾利汽车将携搭载12缸发动机的重磅车型亮
- 福彩体彩第182期晒票!不要勉强自己,量
- 你吃鸡了吗?长沙盒马入伏商品增长明显,
- 机构今日买入这3股,抛售豪恩汽电1.05亿
- 湖南省县级政府法治形象评议活动线下调研
- 新的《杀出重围》游戏似乎尚未开发
- 汽车概念强者恒强 零部件和整车 谁跑得
- 反对声浪中 美国为何仍向乌提供集束弹药?
- 开局很惨,结局很棒!2021年新年阳光灿烂!
- 概念动态|克来机电新增“汽车电子”概念
- 卡塔尔与阿联酋签署长期凝析油供应协议
- 浙江黎明7月11日盘中涨幅达5%
- 新一代焊门员!Redmi K70渲染图曝光:小
- 群众随手拍交通违法行为不是多管闲事
- 20.99万起小鹏G6卖爆!CEO何小鹏亲下工厂
- 瑞典首相:瑞典将“尽快成为北约正式成员
- 烟气电动调节风门
- 钱报读书会预告|舟山烟雨浙江潮,杨怡芬
- 旅游旺季来了 甘肃暑期整体订单量同比增
- 香港青年学生入晋开启职场初体验
- 抽水蓄能已建在建装机规模达1.67亿千瓦
- 安徽:试跑人工智能监测预报新赛道
- 翱捷科技:7月10日获融资买入216.15万元
- 德国总理朔尔茨反对将瑞典入北约与土耳其
- 绿地香港上半年合约销售额约90亿元
- 2000日元等于人民币多少元(2000日元)
- 中国恒大:将于7月17日召开董事会会议
- PS不雅照敲诈勒索!900余封信件横跨三省
- 武装到牙齿!湖人补强计划曝光,目标16+7
- 杰伦-布朗:在有影响力或钱的文化空间里
- 爷爷将刚满月双胞胎孙女扔街头,路人报警
- 新劲刚:公司有用到氮化镓还有砷化镓 相
- 潇湘之境 临县干部蓄力赋能促振兴
- 烧钱7年、押注新药上市,来凯医药正在经
- 川财证券:CPI有望在三季度中后期温和回升
- 四川成都至宜宾高铁今日全线铺轨完成
- 韩国最大在野党对国际原子能机构“偏向日
- 首次增加越野模式 背起“小书包” 全新
- 睿能科技(603933)7月10日主力资金净买