《中国金融》|大数据在经济金融分析中的应用

您所在的位置:网站首页 大数据在外贸领域的应用 《中国金融》|大数据在经济金融分析中的应用

《中国金融》|大数据在经济金融分析中的应用

2024-01-14 07:53| 来源: 网络整理| 查看: 265

作者|陈华  张黎娜「中国证监会科技监管局;中国互联网金融协会」

文章|《中国金融》2023年第19期

在数字经济时代,大数据及其分析技术的应用已几乎渗透到社会的每个领域。近年来,以生成式预训练Transformer模型(Generative Pre-Trained Transformer,GPT)为代表的大语言模型(Large Language Model,LLM,以下简称大模型)显示出巨大的应用潜力,进一步强化了大数据对社会各行各业的赋能作用。GPT是一种基于人工智能技术,用大规模数据进行预训练,经调优后可自动生成文本、视频、音频、图像等各种类型内容的人工智能生成内容(Artificial Intelligence Generated Content,AIGC)模型。它不仅对数据和算力的需求产生了指数级增长,同时也赋予了数据在经济金融分析中更大的潜在价值。本文将从数据资源、实证工具、理论研究、大模型等方面,探讨大数据及其技术在经济金融分析中的创新应用及其面临的一些挑战。

数据资源视角

从数据寻找规律、发现规律、验证规律,是经济学的实证分析传统。正是以数据为基础的实证研究范式,让现代经济学被广泛认为是最具有科学性的社会科学。传统的经济金融分析主要依靠结构化数据,如微观层面的财务数据和市场交易数据以及宏观层面的经济统计数据等。这些数据虽然质量较高,但大部分是低频数据且数据量有限,从而有损相关计量模型的预测精准性。

大数据技术的应用则有助于克服上述经济金融分析范式的不足。在数字化浪潮下,数据资源呈指数型爆发式增长。2010年全球数据量为2ZB(ZB是Zettabyte的简写,中文译作泽字节,1泽字节等于10万亿亿字节),预计到2025年将增长到181ZB。大数据技术为高维经济建模创造了可行的数据条件。从此,经济学家和分析者们或不再担忧数据太少,反而是焦虑数据太多,因为大数据量太大也会同时带来“噪声”大、密度低等困扰。特别是许多大数据属于非结构化数据如文本、图形、视频、音频等,如何从中提取有效的经济金融指标至关重要。

与原始数据相比,通过大数据技术加工后得到的特征变量更有助于经济解释和预测。例如,从股票贴吧的文本数据中提取和构建投资者情绪指标,可以反映市场的非理性程度;基于高频经济数据,构造实时的宏观经济指标,可对传统的滞后的低频(如季度、月度)宏观经济指标形成有效补充;利用大量的异质性市场主体微观数据,可以让经济决策者精细地洞察微观经济形势变化,避免合成谬误,从而实现精准施策、靶向发力;在传统低频财务数据的基础上增加高频另类数据,可以有效提升企业信用风险模型预测的及时性和准确性。

实证工具视角

大数据不仅为经济金融分析提供了丰富的数据资源,而且其分析模型还可以成为经济金融分析的有效工具。

从方法论角度看,与计量经济学类似,机器学习、深度学习等大数据分析模型也是建立在数理统计基础上的数据科学。例如,自然语言模型和计量经济学的金融时间序列模型“异曲同工”,均是对时间序列数据的建模。因此,许多机器学习和深度学习模型或算法在经济金融分析场景亦可适用,甚至在某些场景还可以起到更好的效果。

一是能够捕捉到计量经济模型没有覆盖的经济特征。例如,计量经济模型更多是线性模型,无法刻画经济变量的非线性关系,而深度学习模型具有强大的非线性函数表达能力。目前,证券分析师们已经开始利用深度学习模型,识别和捕捉传统线性资产定价模型中的非线性因子。

二是可以刻画现有计量经济模型无法呈现的经济结构信息。在现代经济学建模过程中,微观主体往往被假定为相互独立的决策者。例如,各生产者(消费者)按照各自的生产函数(效用函数)进行生产(消费)决策,中央银行的货币政策规则与财政部门的财政政策规则相互独立;各主体行为之间的关联是间接的,首先是影响到市场的供需变化和价格变化,然后再影响其他主体行为。这是现代经济学“无形之手”理论的基本要义。依此构建的计量经济模型,虽然具有较好的经济理论基础,但无法纳入主体之间的现实关联关系,如社交网络、股权网络、生产网络、供应网络等。这样的分析模型在实证上难以捕捉或呈现更丰富的经济特征,如经济主体的从众心理、羊群效应、趋同效应等非理性行为。而基于知识图谱的图分析方法,则可以有效构建和分析经济主体之间的网络关系,弥补计量经济模型的上述不足。典型的应用例子是,可以利用知识图谱分析金融市场主体之间的关联,实证研究单个主体的系统重要性以及主体之间的风险传染。

三是提高模型的预测能力。传统计量经济模型注重模型参数的估计及显著性检验,在样本内具有更强的经济解释能力;而机器学习和深度学习模型采用非参数估计方法,在样本外预测方面表现更优。

理论研究视角

大数据分析模型除了在实证上可以成为经济金融分析的有益工具,在理论上它们也可以相互融合。以强化学习为例。在时间维度上,现代经济学研究(特别是金融学)的一个关键问题是跨期优化,即在未来不确定情况下怎么作出最优决策并实现收益或价值的跨期最大化。这是动态规划方程(Dynamic Programming Equation)的求解问题。而强化学习正是利用蒙特卡罗模拟、深度学习、时间差分(Temporal Difference)算法等技术求解动态规划方程的方法。如今,基于强化学习的经济学研究正在推进,部分成果已经在金融市场上得到应用和检验。

当然,任何科学研究都没有万能的方法和模型,大数据分析模型也存在不足。其最大的不足在于一些大数据分析模型在理论上不具有可解释性。对于自然语言识别、图像识别等感知智能而言,结果的准确性要比可解释性更重要(例如,人们通常只关注机器学习对语言的翻译是否准确,而对其背后的机理是否可解释不在意),但在经济金融的实际应用场景中,由于监管要求或出于算法公平的目的,可解释性要比准确性更重要。因此,发展可解释的大数据分析模型,在大数据分析模型中融入经济理论,提高模型的经济解释能力,或将成为大数据经济金融分析的研究重点。最终甚至可能衍生出新的交叉学科,如大数据计量经济学。 

大模型视角

2022年11月,美国科技公司开放人工智能(OpenAI)发布人工智能聊天应用程序ChatGPT。该大模型上线后不到3个月就突破了1亿月活用户,成为史上用户增长速度最快的消费级应用程序。不少人认为,ChatGPT是40余年来最具革命性的技术进步,将引发一场颠覆式的商业模式变革。

与小模型相比,大模型展现了强大的内容生成能力。大模型可以根据用户要求,生成与之相匹配的内容,包括文本、图像、音频、视频等,在自动问答、机器翻译、文本创作、文本摘要、阅读理解等任务的性能表现显著强于小模型。大模型与之前小模型的主要区别在于其模型“变大”后带来的“涌现”能力:当模型的规模(计算量、模型参数或数据集大小)达到一定程度时,模型的任务性能急剧上升。其最大特点是“暴力出奇迹”——需要投入大规模的算力和数据集。以ChatGPT为例,其训练参数达到1750亿个、训练数据45TB,每天可生成45亿字的文本内容。支撑ChatGPT的算力至少需要上万颗英伟达最先进的GPU A100,单次模型训练成本超过1200万美元。

大模型、大数据、大算力让AI再次迎来了高光时刻,各行业均高度关注大模型在本领域的应用,调动资源发展垂直领域大模型:有的在通用大模型基础上,利用专业领域数据进行适配微调;有的则是混合通用数据和专业领域数据,重新预训练大模型,如彭博社训练了金融领域大模型Bloomberg GPT。可以预见,通用大模型和垂直领域大模型的发展将促进大模型在包括经济金融在内的各个领域的广泛应用,金融行业的研发、投顾、客服、营销、风险管理等业务的智能化水平将大幅提升。

具体而言,大模型将给经济金融分析带来两个层面的变化。一是与数据的交互方式更加智能化、人性化。从知识压缩视角看,大模型实质上是一个超级知识库。它通过对大规模语料的学习,将知识压缩为大模型的参数。基于大模型的智能化能力,数据的读取、输出、调用、应用将变得高度智能化,就像ChatGPT那样以人性化的方式开展。二是大模型将成为经济金融分析的高效智能助手。大模型可以智能地支持经济金融分析人员高效开展信息检索、信息抽取、信息归纳、内容总结、情感分析、代码撰写、文档撰写、主体识别、关系识别、逻辑推理等任务。不仅如此,大模型还可通过外部插件扩展和提升更广泛的能力,如文献搜索、文档解析、数学计算、自动化执行等,从而更好地支持经济金融分析。截至2023年8月底,ChatGPT插件已将近900个,为用户提供了更多智能化工具。

大模型在本质上依然是概率模型,虽然它的内容生成已达到人类难辨的水平,但仍无法完全保障模型输出的准确性和可信性,其分析预测结果仍将存在“一本正经胡说八道”的风险。因此,在应用大模型开展经济金融分析过程中,不能过于迷信大模型的能力,还需采用优化策略,提升模型输出的稳健性和准确性。

结  语

综上所述,随着人工智能技术的快速发展,大数据在经济金融分析中的赋能作用得到了极大提升。大数据分析模型不仅可以有效缓解经济计量模型的“数据不足”问题,而且能够为经济金融分析提供更丰富的工具,辅助捕捉计量经济模型没有覆盖的经济特征以及计量经济模型无法呈现的经济结构信息,提高模型预测能力。除了实证方面的应用,大数据分析模型还可以在理论上与经济金融学融合,包括开展基于强化学习的经济学研究、发展大数据计量经济学等。大模型将使经济金融分析人员与数据的交互方式更加智能化、人性化,并成为经济金融分析的高效智能助手。尽管如此,大数据分析模型仍存在诸多亟待完善的地方,特别是需要进一步提高模型输出的可解释性和可信性。■

(本文为作者个人观点,不代表供职单位意见)

 (责任编辑  张林)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3