ChatGPT引爆的AI热潮也“烧到了”金融圈,彭博社重磅发布为金融界打造的大型语言模型(LLM)——BloombergGPT。
3月30日,根据彭博社发布的研究报告显示,其构建了迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型——BloombergGPT。
(相关资料图)
该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务,在执行金融任务上的表现远超过现有模型,在通用场景上的表现与现有模型也能一较高下。
BloombergGPT到底有多强
根据彭博发布的报告来看BloombergGPT对金融行业来说无疑是一次颠覆性创新。
我们先来看一下BloombergGPT使用到的庞大数据集。
研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,构建了迄今为止最大的特定领域数据集,并创建了一个拥有超过7000亿个标签的大型训练语料库:
彭博作为金融数据公司,数据分析师在公司成立的四十年间收集了大量的金融材料,拥有丰富的金融数据档案,涵盖了一系列的主题。我们将这些数据添加到公共数据集中,创建了一个拥有超过7000亿个标签的大型训练语料库。BloombergGPT的训练数据库名为FINPILE,由一系列英文金融信息组成,包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。为了提高数据质量,FINPILE数据集也使用了公共数据集,例如The Pile、C4和Wikipedia。FINPILE的训练数据集中约一半是特定领域的文本,一半是通用文本。为了提高数据质量,每个数据集都进行了去重处理。
利用庞大的数据集,并基于通用和金融业务的场景进行混合模型训练,BloombergGPT诞生了。
一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性,GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿。
根据BloombergGPT的训练结果显示,其在执行金融任务上的表现远超过现有的模型,且在通用场景上的表现与现有模型也能一较高下。
BloombergGPT优势:不可替代性和准确性当下,通用NPL模型也可以处理金融领域的任务,那为金融圈“量身定制”的模型究竟有何意义?
彭博认为,针对特定领域模型有其不可替代性且彭博的数据来源可靠:
因彭博社的大多数应用均为金融领域,着手构建了一个针对金融领域的模型具有优势。除了构建金融领域的LLM外,本文的经验也为其他研究专用模型提供了参考。我们的方法是在特定领域和一般数据源上训练LLM,以开发在特定领域和通用领域上均表现优异的模型。此外,我们的训练数据不同于传统的网络爬取数据,网络上的数据总有重复和错误,但我们的数据来源可靠。
而更重要的是,报告指出,通用NLP模型处理金融领域任务时会面临不少挑战,首先就是无法理解财经新闻背后的市场“情绪”:
以情感分析为例,一个题为“某公司将裁员1万人”,在一般意义上表达了负面情绪,但从金融市场情绪来看,它有时可能被认为是积极的,因为这一做法可能提振投资者信心,使公司的股价上涨。
从测试来看,BloombergGPT在五项任务中有四项(ConvFinQA,FiQA SA,FPB和Headline)表现最佳,NER(Named Entity Recognition)排名第二:
测试一:ConvFinQA数据集是一个针对金融领域的问答数据集,包括从新闻文章中提取出的问题和答案,旨在测试模型对金融领域相关问题的理解和推理能力。测试二:FiQA SA,第二个情感分析任务,测试英语金融新闻和社交媒体标题中的情感走向。测试三:FPB,金融短语库数据集包括来自金融新闻的句子情绪分类任务。测试四:标题,数据集包括关于黄金商品领域的英文新闻标题,来判断新闻标题是否包含特定信息,例如价格上涨或价格下跌等。测试五:NER,命名实体识别任务,针对从提交给SEC的金融协议中收集金融数据,进行信用风险评估。对于ConvFinQA来说,这个差距尤为显著,因为它需要使用对话式输入来对表格进行推理并生成答案,具有一定挑战性。(注:GPT-NeoX为OpenAI GPT-3的一个开源替代品)BloombergGPT将助力新闻领域
既然BloombergGPT测试中的表现如此优异,那未来可以怎么用?
除了金融数据查询、回答金融相关问题,BloombergGPT未来可以被新闻领域广泛使用:
BloombergGPT训练是以众多新闻为基础的,因此它未来将协助记者日常工作。记者需要为每个部分编写简短的标题,专门为此任务设计的模型维护成本太高,但BloombergGPT在这个方面表现优异。可以利用BloombergGPT更好的查询金融相关的知识。如,BloombergGPT能够很好地辨别公司的CEO。(虽然BloombergGPT正确地识别了CEO,GPT-NeoX出现了错误,FLAN-T5-XXL则完全未能识别)。
对于这个或将颠覆金融圈的大型语言模型,部分网友并不买账,有人认为彭博此次只发布报告,不发布模型,颇有些“雷声大雨点小”之意。
也有网友认为,彭博赶在愚人节之前发布,可能在“骗人”。
ChatGPT为彭博点赞
部分网友不买账,那ChatGPT怎么看?
华尔街见闻就这件事专门询问了ChatGPT,ChatGPT认为BloombergGPT是一项很有意义的技术进步:
它是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务,并且在金融领域的基准测试中表现出色。这将有助于金融从业者更好地理解和应用自然语言处理技术,促进金融科技的发展。同时,BloombergGPT还可以为其他领域的语言模型的发展提供参考和借鉴。总的来说,BloombergGPT是一个有益的技术创新。
关键词:
(责任编辑:黄俊飞)推荐内容
- 金融圈注意了!彭博研究人员刚推出Bloomb
- 信用卡停息挂账的好处是什么?信用卡能不
- 联合能源集团(00467.HK)2022年度纯利升30
- 英雄联盟手游卡牌戏法隐藏任务怎么做 卡
- 华硕和Noctua据报道准备GeForceRTX40系列主板
- AI绘画,为何听不懂人话?|环球热讯
- 当前速看:国家医保局等四部门调整新冠患
- 《西之绝境》DLC新预告 全新机械可上天
- 当前报道:旭光电子(600353):3月30日北
- 职工活动室管理规定_职工活动室管理制度
- 海信空调遥控器下载 万能遥控器_海信空
- 记者:巴萨对引进罗克感到乐观,球员希望
- 咏菊诗朱元璋
- 每日热闻!贵州·重庆·四川签约携手保护
- 全球今日报丨新物种发布 京东超市联手钟
- 【图解年报】凯莱英:2022年归母净利润翻
- 财政部:前2月国有企业效益企稳回升 利
- 当前简讯:安纳达(002136.SZ)发布2021年度
- 当日快讯:武汉控股:旗下水务工程公司联
- 券商降薪,高管和普通员工谁更“受伤”?
- 航天科工203所一室获评2022年度二院优秀
- 堪称灾难!杜兰特复出拉胯!布克对飙爱德
- 【新视野】龙湾区天河街道综合执法队做到
- 张小泉的刀又断了!客服回应→|当前通讯
- 苹果WWDC 2023开发者大会定档6月6日-6月
- 杭州2023中国羽毛球俱乐部乙级联赛在哪里
- 【全球播资讯】亿欧俱乐部:姆巴佩哈兰德
- 天天观点:部分省考公务员招聘放宽至40岁
- 环球关注:分栏怎么设置excel_分栏怎么设置
- 【天天报资讯】润州人社:畅通用工“服务
- 苹果手机系统升级一半怎么取消-苹果手机
- 当前滚动:上海金融法院:中国企业防范国
- 股票行情快报:华天科技(002185)3月29
- 股票行情快报:天康生物(002100)3月29
- 环球即时看!公积金贷款怎么还款?有哪些
- 今日热闻!IGN盘点《王国之泪》10个新细节
- 美国劳动力市场仍吃紧 伦敦金反弹收涨-
- A股PPP概念龙头股票有哪些?(2023/3/29
- 中国足协公布获得2023赛季职业联赛准入资
- 村民用播种机播种育苗
- 茂名市户口迁移需要准备哪些材料
- 唐宫中国公布2022财年年度权益分配方案
- 摩托车油泵坏了有什么症状
- 1-2月份物流运行数据公布:物流需求恢复
- 人民币兑美元中间价报6.8771元,下调22个
- 观速讯丨今日E72i刷完一定要双格吗?
- qq飞车名字符号大全_qq飞车名字符号怎么
- 海信家电(000921):3月28日北向资金增
- 这么近 那么美 周末到河北丨海棠花竞相
- 银行业动荡之际 OPEC+下周料将维持减产
- 华金证券发布华曙高科研报,新股覆盖研究
- 亚通精工: 烟台亚通精工机械股份有限公
- 环球新资讯:江西省政府采购电子卖场正式
- 【新视野】2023郑州绿博园郁金香赏花时间
- 借呗和招联好期贷利息哪个低?简单对比一
- 同花顺回应“巨额补税”:没有其他办法,
- 惠州竞逐“新能源之都”:新能源电池挺进
- 世界今头条!羊毛衫放久了为什么有洞(羊
- 【科普中国军事科技】人工智能能做什么?
- 吉林化纤3月28日盘中涨幅达5%
- 航天科工203所一室获评2022年度二院优秀
- 堪称灾难!杜兰特复出拉胯!布克对飙爱德
- 【新视野】龙湾区天河街道综合执法队做到
- 张小泉的刀又断了!客服回应→|当前通讯
- 苹果WWDC 2023开发者大会定档6月6日-6月
- 杭州2023中国羽毛球俱乐部乙级联赛在哪里
- 【全球播资讯】亿欧俱乐部:姆巴佩哈兰德
- 天天观点:部分省考公务员招聘放宽至40岁
- 环球关注:分栏怎么设置excel_分栏怎么设置
- 【天天报资讯】润州人社:畅通用工“服务
- 苹果手机系统升级一半怎么取消-苹果手机
- 当前滚动:上海金融法院:中国企业防范国
- 股票行情快报:华天科技(002185)3月29
- 股票行情快报:天康生物(002100)3月29
- 环球即时看!公积金贷款怎么还款?有哪些
- 今日热闻!IGN盘点《王国之泪》10个新细节
- 美国劳动力市场仍吃紧 伦敦金反弹收涨-
- A股PPP概念龙头股票有哪些?(2023/3/29
- 中国足协公布获得2023赛季职业联赛准入资
- 村民用播种机播种育苗
- 茂名市户口迁移需要准备哪些材料
- 唐宫中国公布2022财年年度权益分配方案
- 摩托车油泵坏了有什么症状
- 1-2月份物流运行数据公布:物流需求恢复
- 人民币兑美元中间价报6.8771元,下调22个
- 观速讯丨今日E72i刷完一定要双格吗?
- qq飞车名字符号大全_qq飞车名字符号怎么
- 海信家电(000921):3月28日北向资金增
- 这么近 那么美 周末到河北丨海棠花竞相
- 银行业动荡之际 OPEC+下周料将维持减产
- 华金证券发布华曙高科研报,新股覆盖研究
- 亚通精工: 烟台亚通精工机械股份有限公
- 环球新资讯:江西省政府采购电子卖场正式
- 【新视野】2023郑州绿博园郁金香赏花时间
- 借呗和招联好期贷利息哪个低?简单对比一
- 同花顺回应“巨额补税”:没有其他办法,
- 惠州竞逐“新能源之都”:新能源电池挺进
- 世界今头条!羊毛衫放久了为什么有洞(羊
- 【科普中国军事科技】人工智能能做什么?
- 吉林化纤3月28日盘中涨幅达5%
- 保隆科技董秘回复:现阶段chatgpt对公司
- 家装行业资质参差不齐 跑路现象频发-当
- 预算40万,现在并不建议买BBA,为什么?|
- 鄂州市科协来我市考察
- “村BA”总决赛决出冠军
- 当前热门:东方铁塔全资子公司与老挝政府
- 全球新资讯:固定资产净值和残值_固定资
- 梦幻西游2新区5开冲级攻略_梦幻西游2新区
- 天天快报!盛爱颐年轻照片(盛爱颐)
- 当前要闻:山东省委书记林武视察金能化学
- 第七届“渝创渝新”创业创新大赛江北区选
- 怎么打开注册表管理器_怎么打开注册表
- 世界热文:北京玉渊潭:一园春色已备好
- 焦点资讯:新疆理化所与新疆师范大学签署
- 日本4月1日正式上线“色狼”教师数据库,
- 焦点热门:阿里投资的这家公司要IPO了,靠
- 霓凰郡主最后和谁在一起_霓凰郡主嫁给谁
- 漠河-哈尔滨-北京航线恢复运行
- 男孩因名字遭嘲笑致抑郁自残!防范校园欺
- 邵阳县:优质师资“下沉到县” 教育跑出