2023年大语言模型(LLM)专题分析 在量化金融中的应用展望分析

您所在的位置:网站首页 量化中的未来数据有哪些内容 2023年大语言模型(LLM)专题分析 在量化金融中的应用展望分析

2023年大语言模型(LLM)专题分析 在量化金融中的应用展望分析

2024-07-15 22:16| 来源: 网络整理| 查看: 265

1. 大语言模型的特点与功能

1.1 LLM 的基础原理

近期随着 OpenAI 的 GPT-4 模型发布、百度文心一言发布、微软 Copilot 发布,大语言模型(LLM,Large Language Model)成为市场关注焦点。对于 AI 模型运用较多的量化金融领域,LLM 将会带来怎样的改变?本报告将从各个角 度进行 LLM 在量化金融领域应用的展望。 在展望未来应用之前,我们首先以 GPT 模型为例简要解释 LLM 的基础原理。 2023 年 3 月 16 日,OpenAI 发布了 GPT-4 的技术报告,其中用一句话来介绍 GPT-4 即:GPT-4 是一个基于预训练的 Transformer 模型,用于预测某一文本 的下一个字词(token)。也就是说 GPT-4 是一个给定上文推测下文(单词)的神 经网络。同时,相比于 GPT 的早期版本,GPT-4 的输入拓展到了图片。

那么 GPT-4是如何通过预测下个单词来达成回答一段话的功能的?主要是将 生成的单词重新加回到上文中作为新的输入,使得模型继续生成下一个单词,循 环往复达到回答一段话的功能(称为 Autoregressive LM,自回归语言模型),类 似我们在使用智能输入法的过程中,输入法给出的对下一个单词的不断预测。其 基础模型 Transformer 来自 2017 年谷歌在 NIPS 上提出的论文“Attention is all you need”。其克服了传统序列推导模型(Sequence transduction model)采 用 RNN 时面临的问题,成为了解决此类问题新的通用模型。

如果 GPT-4 仅仅是根据上文“猜”下文,其又是如何产生逻辑性的?我们知 道 GPT-4 模型不仅可以进行简单的对话聊天,还可以实现指令识别、总结、推断、 模仿等一系列更为高级的智能。甚至还可以在人类知识水平测试中达到与普通人 类似的水准。那么这些智能是如何通过大语言模型训练得到的?

第一个重要的原因在于超大量样本训练带来的智能涌现。语言是人类知识传 承的载体,语言中本身蕴含着人类指令识别、总结、推断、模仿的行为,通过大 规模样本的输入和训练,量变引起质变导致 GPT 学会了部分逻辑,称为 Scaling law,也被解读为“涌现”现象。“涌现”是自然界较为普遍的一种现象,指的是 某种规则单独表达时不存在,但是在大规模互相作用下出现的特殊模式,比如仅采用一个简单的复二次多项式 f(z)=z^2+c 进行大量迭代计算便可以得到模式复 杂且在宏观上特征显著的 Mandelbrot 集。在大语言模型中,训练量或者参数量 提升到一定临界值后,会导致模型的表现大幅增强,而在数量级不够的情况下无 论怎么训练表现都将难有起色。在 2022 年的论文“Emergent Abilities of Large Language Models”中研究者就测试得到了支持该论据的实验结果。各类模型的 预测效果随着训练量或者参数量达到某一临界值后出现了质的飞跃。

GPT-4 的模型发展也是一定程度上依靠训练量和参数量的大幅提升。GPT-3 相比于 GPT-1,训练数据量增加了 9000 多倍,模型参数量增加了约 1500 倍。海 量的预训练数据集加上少量的优质范例数据辅助监督学习,使得大语言模型具备 了基础智能。

第二个重要的原因在于 RLHF 技术(Reinforcement learning for human feedback)。海量样本下的预训练保证了 GPT 能够获取海量的知识,但无法保证 GPT 能够以人类习惯的方式进行表达和交互,整体的表达可能有“瞎编”、“拼接”、 “生硬”等问题。因此,以人类偏好引导 GPT 进行语言输出是实现有效人机交互 的重要步骤。在 2020 年发表的论文“Learning to summarize from human feedback”中OpenAI提出了利用人工标注样本方式对GPT进行强化学习的方法。 通过人工比对 GPT 给出的摘要质量,给予人类偏好的文本以更高的奖励,从而强化 GPT 用人类偏好的方式进行表达的能力。从实验结果来看,确实对于输出文本 的质量有明显的提高。

1.2 LLM 的功能特点

特点一:“大语言模型是零示例推理者”。在 2022 年的论文“Large Language Models are Zero-Shot Reasoners”中,研究者发现通过在输入文本中简单的添 加“Let’s think step by step”就可以使得 GPT 模型进行“思考链”的模式推理, 对原先无法回答的问题进行“分而治之”的解答,最终得到正确答案的概率大幅 提升。

当然触发“思考链”的关键词并没有固定格式,论文中给出了其他几种更复 杂或者更简单的提示词,一样都能明显改善 GPT 的回答能力。

实验说明了 LLM 可以回答训练样本中未曾出现过,后续也未给出示例(零示 例)的问题,通过关键词触发对逻辑的调用和泛化,其具备了像人类一样的推理 能力。 点二:LLM 不是高级版本的搜索引擎。GPT 训练的目的不是为了要得到每 个问题的精确回答,而是要得到人类“最认可”的回答。因此区别于搜索引擎, GPT 给出的答案并不是显式的“记忆”在模型中的规范答案,而是通过超大量的 人类问答学习后,最能够让人类“满意”的回答。因此在某些需要精确回答的问 题下,GPT 可以切换到精确逻辑推导和类似“记忆”输出的回答模式,而在某些 需要创新或者幽默的回答下,GPT 又可以在理解提问者诉求的基础上,给出之前 没有“记忆”但符合要求的创造性回答。并且预训练的模式导致对 GPT 无法直接 删除或者修改“记忆”,只能通过不同的引导方式改变其回答的规则、方向、语气、 格式。在 OpenAI2020 年的论文“Language Models are Few-Shot Learners” 中,研究者发现“污染”数据(质量较低)不会影响模型的能力,也说明 GPT 的 能力并不来自对训练数据的直接“记忆”和“搜索”。

特点三:大语言模型能解决的不仅仅是“语言问题”。预训练的过程样本本身 不是精挑细选的,因此只要是能够用文字表达的任务都可以教给 GPT,保证了 GPT 处理各种任务的潜在可能性。因此除了传统的文本理解、文本分类、情感分析、 文本对话、文本摘要等工作以外,GPT 还可以进行指令编程、逻辑推理、文学创 作等等功能。并且 GPT 模型目前也在结合多模态(图像、声音)的路径上开展了 有效的探索,未来 LLM 不仅能“读”,还能“看”,能“听”,其可处理的任务类 型和互动方式都可能有更进一步的提升。

2. 大语言模型在量化金融中的应用展望

2.1 LLM 对量化研究的启示

LLM 的出现无疑会提升整体量化研究的效率。量化研究主要工作为做大量的 文献资料总结归纳,以及数据规律的探索和测试。LLM 的文本摘要以及指令编程 能够更快速高效的帮助量化研究完成这一过程。未来量化回测平台与 LLM 的结合 将大大降低量化研究的使用门槛,使用者不必精通复杂编程即可测试一些对市场 的基本猜想,并且得到更为坚实的实证结果,类似“王语嫣”的人机结合模式。 除了量化研究以外,整体金融行业的信息获取和处理效率也将大幅的提升,包括 热点事件总结、市场情绪分析、研报观点论证等工作,未来都可以通过 LLM 更高 效的完成。

量化金融未来可能形成“黑箱”为基础,“白箱”为交互的发展模式。虽然当 前 GPT 在人类知识水平测试中的结果仍为高中生水平,但未来随着模型的进一步 发展,以及通过合适的引导,LLM 模型自动进行量化研究具有一定可能性。量化 研究过去一直有着“黑箱”、“白箱”的争论,并且偏向于具有逻辑性的“白箱” 型研究。但 LLM 的出现使得“黑箱”本身具备了逻辑推理能力,加上“黑箱”本 身的统计学基础强,所储存的知识量大,能够帮助使用者更快速便捷的搜索和检 验投资逻辑,搭建投资框架体系。所需的仅仅是“白箱”的对话交互。 提出一个好问题仍是未来量化研究的重要要素。LLM 类似于一个拥有庞大数 据和逻辑链条的图书馆,如何在这个图书馆中引导出能解决我们实际研究目标的 方法是未来 LLM 应用端的重要课题。量化研究关注的问题非常的具体,因此 LLM 这样的“通用”模型未来能否解答“专业”问题非常关键。在 LLM 中,示例 (few-shot/one-shot)和提示词(prompt)对其能力的提升作用非常明显,也 就是说经过正确的引导,只需要极小样本的训练示范,LLM 就可以完成某个专业 领域的工作。因此未来如何“问”LLM 是使用者能否熟练运用此工具的关键。

2.2 LLM 在量化金融中的应用展望

2.2.1 用于研报信息提炼,提升信息获取效率

LLM 作为自然语言生成模型,在文本信息处理领域拥有得天独厚的优势,可 以用于提炼研报重点,将投资者从纷繁复杂的信息中解放出来。将民生金工报告 《量化捕捉宏观驱动下的行业戴维斯双击机会》的首页要点输入到 ChatGPT 中, 其较好地提炼了内容要点,可以有效地为投资者节省时间。

未来大语言模型能够每天对市场上成百上千计的研究报告统一进行要点提炼, 分板块、个股进行观点的归纳整理,并将重点内容推送给相关的投资者查阅。这 无疑将极大地节省投资者的精力,从而有更多的时间进行深度和系统的思考。

2.2.2 帮助投资者进行定量分析

LLM 拥有强大的数据整合与分析能力,可以帮助基本面投资者进行定量分析。 基于行业研究、个股研究的基本面投资者同样关心定量分析,比如日历效应,市 场风格表现等等。LLM 可以快速的实现验证。比如如果投资者关心市场近年来大 小市值风格表现, ChatGPT 的统计较为可靠。

投资者可以更前置地使用 LLM 的数据采集与分析功能、自然语言处理技术对 金融数据进行分析和预测,随着大语言模型的不断进化,简单的数据统计工作大 概率可以由 LLM 完成。 此外,量化策略、代码编程也是 LLM 的应用方向之一。ChatGPT 可以完成 一些简单的量化策略,例如构建回归模型,输出均线策略、利用 Scikit-learn 数据 库建立预测模型等,可以帮助投研人员构建、测试简单的量化策略。下图是 ChatGPT 构建的以沪深 300 为标的的均线投资策略,上穿 10 日均线买入下穿 20 日均线卖出,附上了代码以及运行结果,总用时不到 10 秒。

2.2.3 复盘市场热点

ChatGPT 使用广泛的语料进行训练,我们可以通过它及时知晓市场当下的投 资热点和主题,节省复盘时间。由于 GPT-3.5 最新训练数据截止到 2021 年 9 月, 无法准确回答当下最新的投资热点和市场焦点。而对 2021 年 9 月哪些板块热度 较高,其给出了较为准确的答复。我们认为大语言模型处理语言和数据的能力极 强,未来有望帮助投资者节省复盘时间,及时跟踪市场热点,把握投资机会。

2.2.4 宏观政策对比解读

基于 LLM 强大的语义分析能力,可以让其对比具体的两段文字的细节差异。 例如,让 GPT 对比两段政府工作报告中的社会发展主要预期目标的区别,其给出 的总结如下:

可以看出 GPT 在大段的文字中,对于个别字的变化导致的政策差异解读仍有 待商榷,如进出口目标中的“保稳提质”与“促稳提质”,被理解为了“提升进出 口质量”与“促进进出口增长”。但 GPT 的语义理解和对比效率极高,有理由相信 随着其在未来对于中文训练量的增加,能够在理解准确度以及对其他论据的联想 上做得更好。高效的文本比对能力可以被广泛应用于各种政策研究中。

2.2.5 投资者公开交流纪要总结与搜索

基于LLM的上市公司投资者公开交流纪要分析与应用可对大量上市公司投资 者公开交流纪要进行学习和总结,从中挖掘出可能存在的机会和风险,提高投资 决策的准确性和效率。为了更好地了解上市公司的情况,投资机构常常需要对其 进行深入的调研,上市公司会就此公开发布投资者交流纪要,投资机构也会据此 进行总结与分析,以期从中寻找投资机会和降低风险。然而,这一过程需要耗费 大量的时间和精力,并且容易受到人为因素的干扰和误判。

我们认为,在上市公司投资者公开交流纪要上,LLM 至少可以发挥以下几方 面的作用: 1. 总结:LLM 可以对大量上市公司的投资者公开交流纪要进行快速、准确、 简洁的总结,提取出其中最重要和最有价值的信息,如公司经营、发展 战略、行业趋势等,帮助投资机构节省时间和精力,提高工作效率。 2. 探索:LLM 可以根据上市公司投资者公开交流纪要中的信息,进行深入、广泛、创新的探索,发现相关投资标的的产业机会、订单情况和潜在风 险等方面的细节和规律,并给出合理、可靠、专业的建议和分析。 3. 标签:LLM 可以根据投资机构的需求和偏好,生成符合格式、标准和风 格的报告或标签,展示对上市公司投资者公开交流纪要的总结和探索结 果,以供进一步的量化分析。

2.2.6 企业相似性度量

我们在《量化专题报告:财报文本中公司竞争信息刻画与 ALPHA 构建》中提 出了用财报文本附注中关于企业经营范围的文本信息度量企业之间的相似性,这 样在市场出现补涨行情的时候,我们能较好地把握补涨行情(Kumar B S 和 Ravi V,2016)。而度量企业之间相似性不仅可以从业务布局,也可以从供应链、收入 占比以及量价信息等角度综合进行考虑(Joseph P. H. Fan 和 Larry H. P. Lang, 2000),我们将该问题交给 chatGPT 观察其是否能有一个较好的回答。 对于问题:“请你综合考虑业务布局、细分业务收入占比和供应链等因素,告 诉我与宁德时代最为相似的 5 个上市公司,并给出相似度数值和原因。”chatGPT 回答如下:

从回答来看,较为符合人类的主观认识,与我们基于财务文本的相似度计算 结果重合度较高,但其每次回答的内容都会有所不同,例如同样的问题它会回复: 比亚迪、正泰电器、格力电器、华为和比克电池。这可能是由于 GPT 在进行文本 信息度量时所依赖的语料库和模型参数不同,以及其在处理自然语言时所具有的 随机性和多样性导致的结果,可以通过进一步引导改进最终的结果。

2.2.7 情绪识别与分析

投资者情绪识别是指对投资者在股票、外汇等市场上的言论和行为进行分析, 从而了解他们对市场的看法和情感倾向。该技术在金融领域已经得到广泛应用, 可用于预测市场趋势和优化投资策略。然而,目前对于情绪识别的已有模型难以 对于部分投资者的“反话”进行正确的情绪识别。一项针对社交媒体上反转情感 的研究表明,反转情感是情感识别的一个重要挑战。该研究使用了大规模的推特 数据集,通过对情感词汇进行矛盾分析和语义分析,提出了一种可应对反转情感 的情感识别模型(Zhou Y, 2014)。 另一项关于情感识别的研究也提到了情感识 别模型对于反话的不足之处。该研究提出了一种基于认知模型的情感识别方法,通过将情感分为基础情感和高级情感两个层次,从而更好地处理反话等复杂情感 (Liu et al., 2020)。 经过对 GPT 的深入研究和探索,我们认为 GPT 在投资者情绪识别方面具有潜 在的能力。GPT 可以通过学习大量的投资者言论和行为数据,建立出一个情感识 别的模型,该模型可以识别出投资者的情感倾向,包括对市场的看法、乐观程度、 风险偏好等。同时,GPT 可以通过上下文理解投资者的语言含义,从而更准确地 判断反话,避免情感识别的误差(Radford, A, et al., 2019)。

海外已有一些针对 LLM 识别市场情绪的研究:“What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis”,其 发现 LLM 的“思考链”(CoT)模式可以更精准的识别投资者情绪,有助于形成 更稳定和准确的情绪标签。

2.2.8 基金经理的智能化定性评价

基金经理定性评价文字工程量大,整合分析、及时跟进具备挑战。目前我们 对于基金经理的定性刻画主要依靠调研和基金经理公开发言信息,而这类信息往 往较为分散,统计过程中很容易出现遗漏;此外,基金经理在经历市场波动的过 程中,通常会优化投资框架,甚至改变投资理念和方向。因此对于基金经理的定 性评价工作需要大量的文字资料、及时更新,还可能存在偏颇。 LLM 已可以根据冗长的投资者公开交流纪要对基金经理进行简单的定性评价。 将一段基金经理投资者公开交流纪要输入 chatGPT,要求返回对于基金经理的定 性评价。从当前的回复结果来看,chatGPT 目前主要还是基于输入资料进行整合 及总结,评价内容也主要是源自投资者公开交流纪要,但已经能够提出简单的评 价观点。

未来随着基金经理信息输入的增多,是否可以实现全方位定性评价。随着资 料库的完善,chatGPT 或许可以实现对不同基金经理在不同时间段的定性评价, 观测基金经理的成长路径,甚至给出基金经理投资理念和能力圈适应何种行情的 投资建议。

2.2.9 “他说的是真的吗?”ESG 评价纠偏

ESG 评价处于起步阶段,可信度和准确性还有提升空间。目前国内提供 ESG 评级的机构主要包括中债、中证指数、华证指数和商道融绿等,各家评级各有特 点,但是目前上市公司对于 ESG 数据披露较少,财报中对于 ESG 部分也以文字描 述居多,这可能会大大提高 ESG 评级的难度和工作量。 目前 GPT 缺少相关报告和数据,尚不能对公司在 ESG 方面进行全面评估。 将某公司高管在 ESG 论坛中的发言输入 chatGPT,首先提问了对该公司的 ESG 评价结果,但目前 chatGPT 可以进行总结与简单评价,但若需要进一步的评估则 可能需要更详细的 ESG 数据。此外,可通过 GPT 的语义理解能力帮助检验高管发 言的可信度,但目前在数据不完善的情况下还难以进行可信度识别。

相信未来基于 GPT 强大的语言理解和分类能力,在学习了社会新闻、舆情评 价、披露数据等数据之后,能够实现 ESG 投资智能评价。若可以将公司报告、新 闻事件、甚至社交软件中对公司的评价导入 GPT,储备充足的资料后,GPT 或能 实现对于公司的全面 ESG 评价,并据此对于高管发言进行可靠性检验和 ESG 评价 调整。

2.2.10 助力行为金融学发展

大语言模型有着模拟人类样本,预测特定人群对于某一事件反应的能力。这 一能力的来源是大语言模型训练数据中包含的大量人类相关信息,通过对信息的 “归纳总结”,大语言模型可以对人类样本进行可靠度较高的模拟。 2022 年 9 月 Lisa P. Argyle 等学者于文章“Using Language Models to Simulate Human Samples”中基于 GPT-3,探索了使用大语言模型作为特定人 类群体代理的可能性并提出了算法保真度的概念(Algorithm Fidelity),即在模 型中思想、态度、社会文化背景之间的复杂关系在多大程度上准确反映了特定人 类群体范围内的关系模式。其中的一个实验是对美国民主党派和共和党派人士之间差别的探索,他们将 7675 份描述不同党派人士的文本分别交于 GPT-3 和人类 处理,要求提取出其中的关键特质并判断其党派。结果如下图所示,气泡代表关 键词的相对出现频率,可以看到 GPT-3 与人类所使用的词汇基本一致。GPT 模型 能够挖掘具有相似特征的人类群体的潜在行为模式。

基于大语言模型的高算法保真度,我们便可以通过它分析预测不同人群对特 定事件的反应,例如人们对于公共政策的态度、对于重大公开市场消息的反应等。 Anton Korinek 于 2023 年发布在 NBER 的文章《LANGUAGE MODELS AND COGNITIVE AUTOMATION FOR ECONOMIC RESEARCH》中,给出了一个对 于美国放松移民限制政策,预测不同人群反应的案例。从 ChatGPT 的预测结果与 原因分析来看,整体语言顺畅、预测逻辑清晰。相较于传统的真人调研统计方法, 使用大语言模型模拟人类样本的成本更为低廉,样本大小可自由选择,并且得到 的结果与人类实验结果相似度较高。这种基于对市场各参与主体的“人物画像” 构建的行为推断功能使得其可用于行为金融学实验的构造,以辅助相关研究。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3