中金:量化投资新趋势(3):驶向另类数据的信息蓝海 摘要从量化策略的发展历史来看,量化策略创新发展一直交织着明暗两条线索,明线是量化策略模型的发展,暗线则是金融数据的爆发。... 

您所在的位置:网站首页 量化中的未来数据有哪些方面 中金:量化投资新趋势(3):驶向另类数据的信息蓝海 摘要从量化策略的发展历史来看,量化策略创新发展一直交织着明暗两条线索,明线是量化策略模型的发展,暗线则是金融数据的爆发。... 

中金:量化投资新趋势(3):驶向另类数据的信息蓝海 摘要从量化策略的发展历史来看,量化策略创新发展一直交织着明暗两条线索,明线是量化策略模型的发展,暗线则是金融数据的爆发。... 

2024-07-15 22:31| 来源: 网络整理| 查看: 265

来源:雪球App,作者: 财经子曰,(https://xueqiu.com/8831968704/215040229)

摘要

从量化策略的发展历史来看,量化策略创新发展一直交织着明暗两条线索,明线是量化策略模型的发展,暗线则是金融数据的爆发。另类数据对比传统结构化金融数据蕴含了大量新增信息,但由于另类数据的非结构化性质,通常不能够直接作为传统量化模型的输入。近年来机器学习模型的发展使得处理另类数据并提取剥离其中的关键有效的信息成为可能。本文认为量化策略发展的重要趋势之一为量化策略对“另类数据”的挖掘和使用,如何发掘另类数据以及用正确的方法将其应用在合适的模型之中是量化策略未来发展的重要方向之一。

另类数据:数据增量,信息蓝海#

1)另类数据的定义与分类:由于量化投资规模的总体上升,股票市场中由传统低频价量数据和基本面数据构造的量化策略池逐渐拥挤,另类数据受到越来越多投资者的关注。本文中,通过数据的原始生成目的是否服务于金融市场定价,以及数据被金融投资市场的利用程度这两个维度,我们对另类数据给出了一种有效的定义与分类方式。

2)另类数据种类越来越丰富:近年来随着科技发展,各种新型数据呈现指数级别增长趋势。根据IDC的数据显示,2020年全球共有64.2ZB的数据,而这个数量预计在2025年会增长到175ZB。从新闻和各类报告的文本舆情信息,到卫星图片中的港口交运数据,大量可以反映金融市场情绪、企业运营状态以及经济发展情况的领先指标蕴含在这片信息蓝海中。

3)海内外积极布局:另类数据本身的历史很长,但应用在投资领域的时日较短。海内外投资机构对于另类数据的布局均迅速发展。我们估计国内量化研究投资对另类数据的应用阶段正处于早期探索期的尾部。

机器学习:“因地制宜”协助另类数据处理,填补传统模型不足

机器学习模型快速发展种类繁多,各有优劣。在不同的投资场景中需要根据不同需求,利用合适的模型与算法,这是量化策略应用机器学习的关键与难点之一。除在经典量化领域的应用之外,本文认为将非结构化的另类数据处理成量化模型能够理解的结构化形式将成为机器学习模型在量化领域的核心作用之一。

投资应用场景翻新,量化守正出奇

另类数据的不断出现和科技的发展,催化了各种另类模型的发展,而另类模型和另类数据的结合所发掘的信息增量,将产生更新型的量化投资场景。本文展示一些使用另类数据在量化投资中的应用场景,以供参考:

1)挖掘新的alpha信息:利用高频交易数据,或者上市公司关联的新闻数据等新数据源,从中挖掘具有新增量信息的alpha因子,或者配合已有数据改进传统因子,构造有超额收益的量化策略。

2)被动投资、主题构建:使用上市公司年报中的主营业务部分构造业务关键词,将市场关心的主题词组与公司业务词组计算文本相关性并排序,从而选取其中相关性较高的上市公司,编制相关主题指数。

3)ESG投资:挖掘上市公司的社会责任报告,通过文本向量化和语义相关性计算社会责任报告对于ESG各类话题的重视程度,构建ESG的多空组合策略,多数年份获得显著超额收益。

正文

另类数据:金融投资的宝矿?

站在漫长的金融市场的视角来看,量化投资兴起的时间相对较短,Alfred W. Jones作为世界上第一家对冲基金创始于1949年,主要是使用多空股票策略获得收益。在纳斯达克交易所1971年上线并成为世界上第一个电子证券交易市场开始,股票的交易数据逐渐变得简单易得,量化策略在此基础上进一步发展。上个世纪70-80年代,基于股票价量数据的技术分析成为主流方法,道式理论得到发展并在现在仍作为多种技术分析手段的基础。1990年代 Fama-French和Barra的因子模型在CAPM模型的基础上利用公司基本面信息作为自变量解释股票的收益率。麦克刘易斯在《Flash Boys》中一书介绍了在2009年为了将交易数据的传输时间从17毫秒降低到13毫秒,从芝加哥到新泽西的一条上千公里造价不菲的光缆轨道建设的故事将高频交易的面纱揭开了一个小角。2010年代机器学习技术在图像识别,自然语言处理领域崭露头角,也给量化交易公司带来了新的探索方向,各类资产管理公司通过不同方式希望将最新的机器学习技术应用到量化交易中。

不难发现,量化策略的发展一直交织着明暗两条线索,明线是量化策略模型的发展,暗线则是金融数据的爆发。从技术图形分析到因子理论再到高频交易,量化模型的发展与可用数据的发展紧密相关。近些年机器学习模型的井喷发展除了算力大幅提升外,更重要的是具有去学习的对象,也即输入数据,例如社交媒体上取之不尽的图像数据可供如Google、Meta这样的互联网巨头学习使用。

对于量化领域来说,现有的结构化数据在经历十几年发展后可供挖掘的信息逐渐匮乏,市场策略逐渐饱和且新策略开发速度难以跟上资金体量的增长。量化策略亟待新的发展方向,本文认为在机器学习发展的背后,量化策略发展的重要趋势之一为量化策略对“另类数据”的挖掘和使用,如何发掘另类数据以及用正确的方法将其应用在合适的模型之中是量化策略未来发展的重要方向之一。

数据种类丰富,历史源远流长:从工业时代到信息与数字时代

几乎每一次金融市场的变革都是由于科技的发展与进步。在工业时代,投资活动中使用的数据少量且零散。步入信息时代和数字时代后,可使用数据丰富程度大幅提升,数据量也呈指数级增长。

在纳斯达克交易所1971年上线并成为世界上第一个电子证券交易市场开始,股票的交易数据逐渐变得简单易得,量化策略在此基础上进一步发展。由于量化策略规模的总体上升,股票市场中由传统低频价量数据和基本面数据构造的量化策略池逐渐拥挤,策略有效性衰减速度也逐渐加快,策略创新成为量化策略中的重点工作之一。

创新主要可以分为两个方面,一方面为模型层面的创新,主要表现为策略构造方式逐渐复杂,非线性程度加深,但其本质上还是对现有信息的精加工;另一方面为数据创新,主要表现为主动挖掘和创造信息增量。

机器学习和另类数据的出现给以上两种方向分别提供了思路,另类数据对比传统结构化数据蕴含了大量新增信息,机器学习模型将关键有效的信息从中剥离,应用到相应的投资策略中,两者应有机结合才能取得更好的实际效果。

股票投资者利用另类数据进行投资的历史比应用结构化数据的历史更久。在交易所尚未步入电子化之前,投资者主要是通过阅读报纸观看新闻来了解对应投资标的的情况。这种投资行为其实就是对新闻文本数据在投资方面的典型应用,实际上这种基于新闻信息的投资方式在现代仍是许多个人投资者的主要策略。一直以来由于另类数据的非结构化属性,导致传统的量化策略难以将其像价量数据一样作为输入变量加以利用。近年来随着NLP技术和机器学习模型的发展,许多非结构化数据例如新闻文本数据中可被模型挖掘的信息逐渐增多,量化策略对于此类数据的应用也逐渐加强。

► 另类数据的定义与分类

另类数据作为一个相对的概念,目前还没有一个统一的定义,而且另类数据的定义会随着时间变化:当某种另类数据逐渐被市场上大部分参与者所接纳和使用时,它也就不会再显得非常“另类”。目前来看,一个大多数人认可的定义为:另类数据是指投资研究中使用的非传统来源的新型数据。

结合另类数据的动态性和非传统性,我们对于另类数据做出以下定义:对量化策略来说,金融领域中应用较少的,或产生目的原本并非为了应用在投资和金融领域的数据即可被称之为另类数据。我们将常见的另类数据按照该标准划分类别,其中被标为深红色的数据类型其非结构化程度更深。也可按照产生主体划分[1]。

图表:按照数据另类性质分类

资料来源:中金公司研究部

图表:按照产生主体分类

资料来源:Eagle Alpha,中金公司研究部

► 另类数据的历史

新闻另类数据是各种另类数据中可追溯历史最长的数据之一。自活字印刷被发明以来,文本资料的传播和发行变得相对容易。16世纪左右,现代新闻报社开始在欧洲兴起,自此新闻发行活动一直延续至今。

企业活动产生的另类数据历史也相当久远,企业和企业之间以及企业与个人之间的交易行为会产生大量数据。企业记录自身经营活动的行为逐渐标准化为如今的财务报表。这也是另类数据逐渐变为标准化数据的典型例子。此外仍有许多在企业经营生产活动中产生的未被规范化的数据,例如企业之间的产业链关系数据、公司公告、广告发布、岗位招聘以及企业的专利权数据等。

公共政策部门颁布的宏观统计数据和各类政策文件以及官员的公开讲话也蕴含着大量信息。举例来说,近期美国通货膨胀率达到了40年新高7.5%,导致市场预期美联储将要在未来加息,而加息的力度可以通过美联储主要官员在各类公开讲话的措辞中体现出来。挖掘美联储官员讲话内容以推测美联储加息力度就是对另类数据中文本数据在金融经济活动中的典型应用。

可系统性使用的另类数据主要产生在互联网诞生之后,蒂姆·伯纳斯于1990年底推出世界上第一个网页浏览器和第一个网页服务器,推动了万维网的产生,导致了互联网应用的迅速发展。尽管经历了2000年初期的互联网泡沫,随着互联网用户的增加,互联网在现代经济生活中正发挥着日益重要的作用。个人用户和企业在互联网上发布相关信息,产生了大量的数据交换。例如用户最常使用的谷歌百度线上信息检索功能蕴含了互联网热点趋势信息,同時各类企业也带来如百度地图、招聘网站等提供地图与卫星图、企业招聘数据等各种另类数据。

2010年以后的移动互联网时代进一步催化了这一进程,智能手机让人随时随地使用互联网,进而创造更多种类的另类数据。用户会在Instagram、B站这样的虚拟社区中上传大量文本和视频,也会在通讯软件如WhatsApp和微信上进行日常交流,移动支付软件如支付宝、微信支付等数据隐含各类用户的消费习惯,美团、大众点评等软件上的评论信息则可以反应各类商铺的消费热度。

当移动互联网终端结合卫星GPS定位数据时,可以推断出各大商场的营业量的变化进而预测上市公司的财报数据。卫星数据属于感应器的一种,其中气象卫星的气象数据可以通过对天气的预测来判断农作物的收成状况进而预判相关商品期货的走势。目前应用最广的卫星数据类型仍为对地成像的图片类型数据,通过对特殊地点如特定港口和交通要塞的交通分析,对交通流量以及总体经济状况提供直观依据。

目前来说,互联网公司的中心化使得大量用户数据高度集中,互联网公司使用此类另类数据的方法较为单一,多为使用算法精准投放广告。随着监管的不断成熟,对于另类数据的使用也会更加规范。并且随着web3.0的不断发展,未来用户的数据有望会重新回到用户手中。

图表:另类数据历史追溯时长[2]

资料来源:Eagle Alpha,中金公司研究部

投资应用刚刚起步:从结构化数据到非结构化数据

虽然另类数据的历史源远流长,但量化策略对非结构化数据的应用历史却是刚刚启程,主要原因是在NLP等模型及高效的信息采集与传输技术出现之前,量化策略开发者们不能批量使用非结构化数据来满足量化交易策略体系化的特点。因此在2010年之前,量化策略主要使用的数据仍然是价量交易数据和上市公司披露的年报数据等,通过对此类数据的分析以及在各类模型中的应用,构造出可以形成超额收益的量化模型帮助做出交易决策。

由于价量及基本面数据的易得性,多种基于该类数据的量化策略迅速发展,模型的复杂性也随之升高,市场策略拥挤度一再上升,导致模型失效的周期也进一步缩短。一方面,近年来量化私募的快速发展导致了规模快速扩张,而单个量化策略本身的容量有限,同时很多量化策略难以随着规模的快速上升而迅速调整。另一方面,去年以来的量化基金收益率高波动和去年末的大幅回撤也使得市场出现对于量化策略高度同质性的一些质疑。

由于金融市场发展阶段的差异性,这种情况在海外发生的时间更早。参考美国私募市场发展情况,在2000年到2008年经历过一段快速增长期,后来由于市场策略的拥挤度逐渐升高,增长速度逐渐放缓。随着近10年来的科技发展,机器学习和NLP等技术使得文本数据等非结构化数据得以作为量化模型的输入数据,量化投资公司开始逐渐重视另类数据在量化策略中的应用,并总结出以下另类数据相对传统数据的优势。

图表:另类数据和传统数据的优势对比

资料来源:Eagle Alpha,中金公司研究部

量化投资寻求破局:从积极布局到更深入的理解

► 海外另类数据发展需求旺盛

2018年12月至2019年2月,Greenwich Associates[3]采访了全球投资管理公司的42位CIO、投资组合经理和投资分析师。受访者回答了有关未来 5-10 年投资研究将如何变化的问题。

关于他们是否打算使用另类数据,近50% 的投资经理表示他们正在使用另类数据,另有接近四分之一计划在未来 12个月内使用该数据。而在回答有关管理者期望增加或减少他们对哪些信息来源时,另类数据也是受访者回答中希望增加使用比例最高的信息来源。

图表:使用另类数据的时长分布(2019年)

资料来源:格林尼治协会,中金公司研究部

图表:是否打算使用另类数据(2019年)

资料来源:格林尼治协会,中金公司研究部

图表:对另类数据的上升需求比例最高(2018年)

资料来源:格林尼治协会,中金公司研究部

图表:基金公司应用另类数据种类(2019年)

资料来源:格林尼治协会,中金公司研究部

► 另类数据市场发展较快

目前来看,另类数据仍在以较快的速度不断积累,另类数据公司数量迅速增加和另类数据市场空间巨大。从数据积累方面看,根据IDC[4](国际数据公司)的一份报告,2018年全球有33ZB的数据,而这个数量预计在2025年会增长到175ZB,这依赖于计算机算力的提升和存储设备技术的提高。

从另类数据公司数量上看,据AlternativeData的统计数据[5],2018年全球另类数据公司已增长到近400家,国内另类数据公司大约占100家,国内发展迅速。根据出售数据的处理程度,另类数据公司主要分为三类:1)原始数据提供者,这类供应商只收集最原始的另类数据,对于数据的处理程度最小;2)轻处理数据提供者,提供与金融资产相关的可视化数据;3)信号提供者,一般关注于某个特定行业,向资产管理公司提供打包好的量化投资信号。

从市场空间上看,AlternativeData统计表明截止2017年全球已有约800支基金利用另类数据做投资决策,2017年投资机构对另类数据的投入规模约为4亿美金,行业正处于快速发展期,到2020年另类数据市场已增长到17亿美元。Grandview research预计2021年至2028年CAGR复合增长率将达58.5%。

图表:美国另类数据产业图

资料来源:格林尼治协会,中金公司研究部

► 滞后使用以及另类数据自身风险

贝莱德SAE(Systematic Active Equity)团队曾表示[6],为了产生持续的阿尔法,投资者应该接受获取、分析和理解快速增长的数据领域。那些无法做到这一点的投资者将面临在快速变化的投资环境中落后的风险。在德勤发布的一篇报告中显示,滞后使用另类数据将面临以下三类风险[7]:

图表:滞后使用另类数据带来的风险

资料来源:德勤,中金公司研究部

对于新型科学技术或新型数据的研究与应用,市场上的参与群体大多会遵循以下周期:在技术出现的前期,有一小部分创新开拓者由于体量较大,有更多的试错成本,积极利用新兴技术寻找竞争优势,随着市场的发展,更多市场参与者意识到该新兴技术或数据中蕴含的价值并及时跟进。随着早期探索者开始因此获益,越来越多的中小公司也开始跟进,直到该技术市场被参与者完全挤占,最后无法再获得新的竞争优势。我们认为,另类数据的使用周期符合这一模型的设定,并且按我们估计,国内量化研究与投资正处于早期探索期的尾部。

图表:另类数据应用周期

资料来源:德勤,中金公司研究部

不能及时跟进新型技术或新型数据固然会面临压力,但如何正确使用另类数据这样的新型数据同样值得思考。使用另类数据也会面临一定的阻碍和风险,主要包括另类数据缺乏处理另类数据的工具和人才等。并不是所有另类数据都可以帮助基金公司获取Alpha,因此另类数据公司在收集、清洗数据之前,需要基金经理来评判数据是否有价值,同时高效的处理和应用将是降低成本和提升效率的关键,因此另类数据公司应当具备机器学习等技术开发能力和高效的产品策略。目前另类数据正在全面崛起,国内外出现了一批创新型的另类数据公司,为传统金融机构提供新的创新动能。未来,另类数据在金融服务中的角色将越来越重要。目前使用另类数据设计的风险有以下几种:1.无效应用和错误指导;2.早期投入高成本;3.隐私问题;4.监管风险;5.另类数据信息在多家跟进后信息衰减[8]。

图表:基金经理于对冲基金使用另类数据的阻碍(2019年)

资料来源:格林尼治协会,中金公司研究部

图表:使用另类数据的风险

资料来源:德勤,中金公司研究部

机器学习:填补传统模型不足

另类数据最主要的特点之一是非结构化。传统量化模型在处理新型数据时有心无力,主要的限制在于另类数据的格式和大小与传统量化领域使用的结构化数据可以存在较大差异。例如新闻类的文本数据多以pdf、txt形式储存,卫星数据可能含有大量的图片格式数据。为提取和处理此类信息,各种新型另类模型高速发展,我们认为目前对于量化策略来说其中最重要的两个领域为机器学习模型和自然语言处理模型,他们是将非结构化数据转化为量化策略可以使用的结构化数据的核心。

机器学习是一个混合领域,结合了两个领域的概念和研究:统计学(数学)和计算机科学。与其起源相关,机器学习大致可以分为三类:经典机器学习、深度学习与强化学习。有监督和无监督学习的经典机器学习方法是统计学的自然延伸。量化分析策略的大多数应用都属于经典机器学习的范畴。深度学习方法对于处理卫星图像、自然语言处理和其他非结构化数据的分析中应用更广。例如在实践中,分析师可以构建卷积神经网络框架来直接从卫星图像文件中计算汽车数量变化的时间序列;强化学习方法可能构造出比人工交易更快速且胜率更高的自动交易策略。

机器学习解决传统量化问题

在机器学习领域,一个基本的共识就是“没有免费的午餐”。换言之,就是没有一类算法能完美地解决所有问题。机器学习不是一种一劳永逸的解决方法,越好的工具更需要知道正确使用方法才能完全发挥其优势,将机器学习模型生搬硬套到现有的量化策略中可能会过犹不及。传统量化模型使用的大多是20年以内的日度或月度数据,相对于适用于大量图片等大型数据集的深度学习等机器学习模型来说数据体量相对较小,强行使用会出现过拟合等问题。

不同机器学习模型由于其特性的差异导致其适用的数据特征、适用场景以及期望目标各有不同,根据特定场景差异化地使用相应的机器学习模型能够事半功倍,发挥出机器学习真正的能力。举例来说,不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。其结果是,在用给定的测试集来评估性能并挑选算法时,我们应当根据具体的问题来采用不同的算法。当然,所选的算法必须要适用于相应的问题,这就要求选择正确的机器学习任务。

► 机器学习模型宜“因地制宜”

机器学习模型(Machine Learning)是近年来量化领域尝试应用的重点模型。但目前大多数机构对于机器学习模型使用方法仍是使用传统价量数据和财务数据等高度结构化数据对模型进行训练,本质上仍是通过将数据集非线性化处理达到对存量信息的精细化提取。这种使用方法一方面仍然只使用了存量数据的信息,另一方面,传统数据不仅从维度还是从数据量来说都不太适合直接盲目应用在现有的机器学习模型中,尤其是具有复杂结构的深度学习模型,数据量的不足会直接导致过拟合等一系列问题,使得模型在样本内表现优秀,而在样本外很难应对市场风格(Regime)的调整。因此对于不同的问题,不同的数据应该根据相关模型的特点“因地制宜”。

机器学习发展经历了从感知机到支持向量机再到神经网络强化学习的几个阶段,随着计算能力的提升,机器学习模型结构也逐渐复杂。机器学习模型具体可以分为以下几类:

图表:机器学习模型分类[9]

资料来源:Iqbal H,中金公司研究部

我们整理了一些主流机器学习模型及其所常用的经典应用场景。更多关于不同机器学习模型的原理、优缺点及其合适的应用场景细节可参考文末附录A。

图表:机器学习模型与相关应用场景

资料来源:Iqbal H,中金公司研究部

► 机器学习应用场景广泛:资产配置、选股、衍生品定价等

传统量化模型多在价量、基本面以及宏观数据上开发择时、因子选股以及资产配置策略例如ARIMA、Fama-French因子模型与Black-Litterman模型等,机器学习也可以解决一些传统的股票量化模型的问题,例如卡尔曼滤波提取交易信号,LightGBM预测资产收益率等。时间序列方面,在经历ARIMA,GARCH模型的传统线性模型的发展后,机器学习中的RNN,LSTM等模型又对时间序列的预测提供了非线性的思路。

衍生品量化模型多借助常微分方程等数学模型计算衍生品的理论价格将其作为定价和交易的基础如Black-Scholes模型,而机器学习也可以帮助计算如何给某些奇异期权定价或帮助其对冲风险。

图表:衍生品定价领域传统模型与机器学习模型对照表

资料来源:CQF, 中金公司研究部

► 机器学习模型在量化研究领域广受欢迎

从 Markowitz 投资组合优化到最近的CAPM、EMH和因子模型,量化投资者已经表明他们愿意接受新技术和策略。将机器学习技术应用于金融投资问题主要有两种,其一是通过机器学习模型捕获数据和预测结果的非线性关系,第二是将非结构化的数据转化为量化模型可以理解的结构化数据或直接转化为交易信号。机器学习已在量化投资的许多领域中应用并取得了积极成果,包括投资组合优化、因子投资、债券风险可预测性、衍生品定价、对冲和交易策略等。

近年来机器学习模型在量化领域应用越发广泛,通过对2015年至2019年118篇机器学习在金融方向的研究论文后,Sophie[10]得出量化领域研究涉及话题最高频的两个主题是收益率预测和组合配置。其中涉及的模型最多的是多层神经网络模型、支持向量机模型以及LSTM。

图表:涉及金融领域的机器学习论文主题分布(2015-2019年)

资料来源:Sophie Emerson, 中金公司研究部

图表:涉及金融领域的机器学习模型主题分布(2015-2019年)

资料来源:Sophie Emerson, 中金公司研究部

机器学习提供了比以前更复杂的金融分析的能力。从这些文献中可以看出,量化投资者已经接受了新出现的工具和技术。越来越多的论文将机器学习技术应用于投资问题。多种机器学习方法已应用于量化金融领域,最流行的方法是神经网络模型,其次是 SVM 和 LSTM。机器学习已应用于回报预测、投资组合构建和风险建模等领域的问题。这些机器学习方法利用传统的财务数据,以及利用新型另类数据。大数据提供了需要分析的新数据集,而机器学习技术能够对复杂(非线性)关系进行建模并分析新型数据。在金融投资领域最重要模型之一的时间序列模型方面,机器学习应用也得到了长足的发展。

图表:时间序列建模发展

资料来源:CQF,中金公司研究部

NLP技术助力量化策略数据开疆扩土

另类数据中占比较大的一部分为文本数据,例如社交软件、新闻和政府文件数据。为使量化模型取得文本数据中蕴含的信息,首先需要NLP模型来讲非结构化数据处理成量化模型可以理解的结构化数据,例如将新闻文本转化成新闻舆情指数。NLP全称为自然语言处理(Natural Language Processing),它的目的是尝试从传统模型难以理解的人类语言文本中取得其中包含的信息。

► NLP结合深度学习模型发展迅速

20世纪50年代到70年代自然语言处理主要采用基于规则的方法。70年代以后随着互联网的高速发展,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。从2008年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究。由最初的词向量模型到2013年word2vec再到2018年的BERT,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。关于NLP模型的特点细节请参考附录B。

图表:NLP主要模型发展史

资料来源:NLP Institutes,中金公司研究部

► NLP在量化策略里的直接应用

文本相关性

计算文本相关性是NLP中的一类基本任务类型。主要是通过语义识别,计算两文本之间在语义上的相关关系,其中又主要包括两句话意思的相似性,和两句话在上下文中的关联度。LAUREN COHEN[11]通过计算上市公司年报文本在时间序列上的相似性,构造出文本相似性因子和有效的交易策略。

文本舆情

通过对新闻、社交媒体、政府工作文件、基金公告和公司年报数据打分来系统性地判断大量文本的方向。体现出量化策略的优势,传统分析师没有覆盖到的标的,没有精力去逐个分析的文本文件,隐藏着宏观和微观的大量信息,如何将其中的信息有效提取是量化分析师面临的主要问题。在下一章节我们展示了NLP技术在另类投资策略中的一些应用场景。

投资应用场景翻新,量化守正出奇

另类数据的不断出现和科技的发展,催生了各种类别的另类模型的发展,而另类模型和另类数据的结合所发掘的信息增量,将在量化策略中大有可为。

文本数据被动投资:主题构建

使用文本分析的主题投资更加直观,补充了从文本主题到投资标的中间缺失的重要一环。传统的主题投资主要是使用人工对上市公司股票打相应的标签,并不定时手动更新。但使用机器学习模型和上市公司的年报数据,我们可以将上市公司的主营业务的关键词全部有效提取出来,并根据其重要性排序,进而得到一个上市公司标的对于相关主题的重要性。

在相关热点新闻出现后,如“东数西算”、“元宇宙”概念出现,即可使用主题词组与所有上市公司的主营业务高频词汇计算相关系数,构造出主营业务最贴近相关主题的股票投资组合。

由于年报相关披露章节不固定,需要根据年报披露年份抓取不同部分文本。

图表:上市公司年报章节内容有所调整

资料来源:中国证券监督管理委员会,中金公司研究部

以山西焦化和宁德时代年报内容中抓取出的主营业务关键词组成词云实例:

图表:山西焦化2016年主营业务词云图

资料来源:山西焦化2016年公司年报,中金公司研究部

图表:宁德时代2018年主营业务词云图

资料来源:宁德时代2018年公司年报,中金公司研究部

计算主营业务关键词与市场热词词组之间的相关性,并将所有词组与上市公司相关性加总,得到该市场热点与上市公司的相关性,并可以据此计算哪些上市公司与市场热点主题最相关,并根据最相关上市公司标的组成市场主题投资组合。

高频量化数据应用:市场微观结构观察与选股alpha挖掘

高频因子由tick级别的交易数据衍生出来,由于这类数据每秒钟都可能出现大量买单或卖单,所以数据总体体量会比常规数据要高几十甚至几百倍,这其中也包含了更多信息可供挖掘。在之前的微观指标构建的报告《市场微观结构系列(2):高频视角下的微观流动性与波动性》中,我们定义了一些微观流动性指标和波动性指标用以对市场微观特征进行跟踪观测(具体微观特征构建详见文末附录C)。

我们以2016年1月至2021年9月的A股股票tick数据计算所有股票的微观特征指数,并结合主流指数的成分股权重数据,构造主流宽基指数及行业指数的微观流动性特征。通过观察主流宽基指数在各个不同维度的微观流动性特征指标时间序列变化,可以得出结论:小盘股指数流动性总体低于大盘股,而2021年开始,中证500高频流动性持续改善。而从具体的细分指标来看:

高频弹性指标在中证500和中证1000在2020年初前走势基本相同,但2021年后开始分化,中证1000指数在弹性维度的流动性特征有较明显的恶化。

高频宽度指标方面,中证500与中证1000指数从2017年4月开始在宽度维度流动性上明显削弱,并与沪深300和上证50发生明显分化,这种分化程度在2018年10月份达到最大值。此后慢慢降低到2019年5月进入局部低值,并进入到流动性不断改善的宽度长期下行阶段。而上证50和沪深300则是呈现长期缓慢下行的形态。

不同深度指标之间走势基本一致:2016到2018年上证50与沪深300和中证500与中证1000之间的差距最大,在此期间前者展现出稳定高于后者的流动性特征,在2018年之后两者逐渐趋于一致直到2021年年初,此后中证500的市场深度特征逐渐超过上证50和沪深300的市场深度,表现出流动性方面的显著改善。

图表:主流宽基指数弹性均值

资料来源:万得资讯,中金公司研究部

图表:主流宽基指数宽度均值

资料来源:万得资讯,中金公司研究部

图表:主流宽基指数平均深度均值

资料来源:万得资讯,中金公司研究部

图表:主流宽基指数有效深度均值

资料来源:万得资讯,中金公司研究部

更多细节请参考《市场微观结构系列(2):高频视角下的微观流动性与波动性》。

除了利用高频量化用以刻画市场特征,也可以从中挖掘alpha信息。通过tick数据中的level2数据,构建盘口深度因子。在2016年以来盘口深度因子IC序列较为稳定,在中证1000、中证500与沪深300股票池内,ICIR分别达0.76,0.26与0.36。

图表:盘口深度因子历史IC序列

资料来源:万得资讯,中金公司研究部(统计期:2016-02-01至2021-09-30)

图表:盘口深度因子分组收益表现

资料来源:万得资讯,中金公司研究部(统计期:2016-05-01至2021-09-30)

更多细节请参考《市场微观结构系列(3):微观特征因子及其策略应用》。

新闻舆情数据应用:文本数据中的alpha

新闻舆情指数是从新闻数据中抓取的文本中使用NLP技术构建出的情绪指数。从与上市公司相关的新闻中可以分析出该新闻对于上市公司的情绪,将其作为对于股价影响的参考。

本文使用原始数据为数库从大型金融新闻网站获取所有新闻并按照正向、负向和中性对每条新闻进行情绪分类,并将其映射到相关上市公司。本次因子测试主要使用加权到单日单个上市公司的新闻舆情指数。数据示例如下表:

图表:数库新闻数据样本

资料来源:数库,中金公司研究部

获取公司舆情指数需要NLP的技术手段,但如何使用上市公司的舆情数据更为关键。以下为新闻动量因子构造方法:将上市公司过去一个月内有新闻的交易日的收益率综合计算作为当月新闻动量因子,并将其作行业与市值中性化处理。其原理是投资者是有限理性的,他们的对于信息的认知能力有限,而导致市场反应不足。并且金融分析师也会根据新闻信息调整他们对于个股的收益预测,但这个过程通常会存在几天的时差,这就会导致这些信息所导致的股价变动也存在一定程度上的时间滞后,成为新闻动量效应的驱动力之一。

经过市值和行业中性化之后的新闻动量的因子测试序列如下:

图表:新闻动量因子IC序列测试

资料来源:数库,中金公司研究部

除2021年6月份IC值负值较大外,大部分月份IC值都稳定为正,累计IC值也呈现一条稳定上升的折线。上图IC均值为2.99%,波动率为4.12%,ICIR为0.73,胜率为73.86%。

通过构建多空策略,买入因子得分高的一组,卖出因子得分低的一组,得到最近2014年以来的收益曲线如图。最近八年多空策略的年化收益为11.17%,Sharpe比例为1.4,最大回撤为11.81%,胜率达67.05%。

图表:单因子多空策略净值

资料来源:数库,中金公司研究部

图表:多空策略分年份表现

资料来源:数库,中金公司研究部

另类数据ESG策略

ESG(Environment、Social、Governance)可持续社会责任投资概念是使用非结构化数据的另一典型应用场景。对于上市公司的环保情况、社会责任和公司治理目前来说都不存在类似财务报表的标准化披露指标,所以对于上市公司在ESG方面的评价很大程度上是依赖于如污染排放量、岗位提供数量、员工离职率等非结构化的数据进行评估。而不同地区和不同行业的相关指标可比性有较大差异,例如重工业公司的污染排放和金融企业的污染排放量显然是不可比的,如何构建出一套一定程度上标准化的测评框架是当期ESG工作的难点之一。

在上述非结构化数据之外,企业本身也会像年报一样披露企业社会责任报告,挖掘企业社会责任报告中的有效信息也能在一定程度上帮助对于一家企业ESG计划的评估。

为了获得上市公司在CSR报告中对ESG的重视程度指标,我们采用NLP(自然语言处理)模型对CSR报告的文本进行量化分析,NLP建模分析步骤如下图所示:

图表:利用企业CSR报告计算ESG重视程度指标

资料来源:中金公司研究部

CSR报告的ESG重视程度指标存在短期超额收益。我们使用CSR报告的ESG重视程度得分进行排序,以得分排名前20%和后20%构建出多空组合进行分析。总体来看ESG重视程度更高的组合大多具有更高的短期收益,CSR报告ESG重视程度与短期股价存在正相关。从CSR报告发布60个交易日内的收益表现来看,ESG高分组相比ESG低分组的收益优势较明显。这种收益优势在除2015年之外年份均稳定存在,且在2016年和2017年最为明显。不仅如此,我们发现CSR报告发布的事件对股价的影响力有逐渐提高的趋势,说明投资者对于CSR报告的关注度在提升。

图表:公司ESG重视程度指标多空收益

资料来源:万得资讯,中金公司研究部

图表:公司ESG重视程度指标多空收益曲线

资料来源:万得资讯,中金公司研究部

更多细节请关注报告《ESG投资系列(2):ESG与企业经营、企业价值》。

附录

A. 常见机器学习模型特点

图表:常见机器学习模型特点-上

资料来源:Iqbal H, 中金公司研究部

图表:常见机器学习模型特点-下

资料来源:Iqbal H,中金公司研究部

B. 深度NLP模型特点一览

图表:NLP深度学习

资料来源:NLP Institutes,中金公司研究部

C. 高频微观流动性指标汇总表

图表:高频微观流动性指标汇总表

资料来源:中金公司研究部

参考文献:

[1] Eagle Alpha. 2019. “Alternative Data Use Cases Edition 6”

[2] Niall Hurley. 2021. “B2021 Alternative Data Report: Year in Review”. Eagle Alpha

[3] Brad Tingley. 2020. “FISD Alternative Data Council: A Guide to Alternative Data”. Greenwich Associates

[4] David Reinsel. 2018. The Digitization of the World: From Edge to Core. IDC

[5]Alternativedata.2022.网页链接

[6]Deloitte.2017.Warming up to collective intelligence investing.

[7]Blackrock.2015.“The Evolution of Active Investing. Finding Big Alpha in Big Data”

[8] Deloitte US. 2019. “Alternative Data – Perspectives and Insights”

[9] Iqbal H. 2021. “Machine Learning: Algorithms, Real‑World Applications and Research Directions”. SN Computer Science

[10] Sophie Emerson. 2019. “Trends and Applications of Machine Learning in Quantitative Finance”. 8th International Conference on Economics and Finance Research

[11] LAUREN COHEN. 2020. “Lazy Prices”. Journal of Finance



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3