学术圆桌

2024-02-01 07:03| 来源: 网络整理| 查看: 265

“

编者按

指数是一种测量特定社会现象和社会问题的工具或框架。当前，世界范围内一些影响力较大的国际问题指数往往存在比较明显的价值观偏见问题，甚至带有意识形态底色。因此，各国在国际话语权争夺中都在努力打造各种指数。中国学者在建构中国自主知识体系的“指数”方面亦作出了诸多努力。本期“学术圆桌”重点介绍“全球治理指数”“全球数字经济发展指数”“全球软实力指数”三种与国际关系研究密切相关的指数建构过程，以期为指标体系研究与国际话语权建构带来更多思考。

”

▼

人工智能与“全球治理指数”的建构

严行健

当前，世界范围内一些影响力较大的国际问题指数往往存在比较明显的价值观偏见问题。如全球和平指数（Global Peace Index）将一国的和平水平直接与军费、是否拥有核武器甚至自杀率挂钩。而一旦涉及民主议题，诸如民主指数（Democracy Index）等指标体系所构建的评价规则中则蕴含更加明显的意识形态色彩。因此，建立中国自己的国际问题指标体系并扩大其影响力，已成为一项非常紧迫的工作。作为中国国际关系研究中的重要指标体系，“全球治理指数”（SPIGG）经过近十年的运行已在数据和方法论层面取得进展。而以ChatGPT为代表的生成式人工智能（AIGC），则因其突破性进展进一步拓宽了国际关系研究中的指标体系的建构空间。

“全球治理指数”体现中国思考

SPIGG包括4项概念指标（机制、绩效、决策、责任），以及24项测量指标，并以年度报告和专题报告的形式评估全球189个国家参与全球治理的情况。该指数在构建上充分借鉴了国内外相关指数的经验，并形成了一些自己的特色。

一方面，测量指标突出了中国对全球治理的理解。在这些指标体系中，既包含“加入国际协定数量”等通行指标，又突出了减贫及经济发展对全球经济贡献度等内容。它既回应了各国对于全球治理理念的“最大公约数”，又突出了中国特色，传递了中国声音。

另一方面，该指数以客观指标获得说服力。当前大多数以国家为评估对象的指数多属于客观指标和主观指标（需依赖访谈或专家评分）结合。一些指数甚至完全是主观型的。而SPIGG在指标体系的构成上则全部为客观数据，唯一依赖专家评估的是各项指标的权重关系。客观数据虽然增加了测算的难度，但增加了数据含金量，扩大了指数的影响力。

AIGC在指标体系创新中的应用

实现指标体系的创新必然面临方法论上的困难。以SPIGG为例，其运行一直面临着以下三方面挑战。而生成式人工智能的出现为此提供了新的解决思路。

第一，数据完整度存在边际成本递增问题。当前，该指数使用两类客观数据，一为诸如世界银行各国投票份额等直接数据。二为频数数据，即衡量各国在特定领域中承担或加入指标体系的频数。衡量频数数据的前提是创建事件数据库。以该指数中的“国家承办国际会议”指标为例，研究者需要梳理出国际会议列表并赋予相应权重，并根据各国承办情况赋分。自建国际会议数据库工作面临的主要困难在于，每年新增的代表性国际会议相对容易通过互联网搜索，但如果试图扩大搜索范围，尽量避免遗漏那些影响力相对较低的国际会议，则检索工作的成本迅速增加。生成式人工智能巨大的训练集为解决这一问题提供了可能性。例如，通过不同的组合提问方式，ChatGPT可以给出相当完整的2019年政府间国际会议清单。通过人工复核，证明其能够填补人工搜索中的遗漏，并大大降低检索工作耗费的人力成本。

第二，数据信息密度低。该指数不断尝试通过自主数据挖掘方式丰富数据来源。如该指数尝试基于自然语言处理技术对诸如联合国安理会每日简报等数据进行分析，提取各国表态的频数和力度。这项工作所使用的材料信息密度低，需要比较复杂的数据分析技巧。生成式人工智能擅长自然语言处理。在测试中，ChatGPT从给定材料中识别出各国表态的频率、观点以及态度强弱等信息，且准确率高于指数团队基于编程语言解释器（Python）搭建的自然语言分析工具。类似测试也证明其具有处理报刊文章及智库报告等文字的能力，能够被用于各类文本数据的信息挖掘，大大丰富现有数据来源。

第三，指标代表性和可测量性之间存在矛盾。SPIGG由概念层和测量层构成。理论上来说，理想的测量层指标应该兼具代表性和可测量性，但在现实情况下，二者往往处于矛盾关系中。尤其是一些极具代表性的指标可能因为测量难度过大而只能选择替代性指标。例如，在测量各国对全球治理贡献度时，最佳的测量视角是行为结果而非行为本身，但前者往往难以测量。又如，全球治理的成效通常是各国共同努力的结果，其很难被拆分为具体国家的贡献。因此，该项目只能用诸如“派遣维和部队数量”等测量指标加以替代。生成式人工智能的出现改变了一些代表性指标难以测量的现状。例如，利用前文中提到的生成式人工智能自然语言处理手段，研究者可以针对全球冲突热点地区的新闻媒体和网络自媒体中的相关文本进行分析，从中获取当地居民和官方对各国参与维和及重建等工作的评价，并转换为各国贡献度。

AIGC在指标体系构建中的应用

除了方法创新，在构建相关指标体系的过程中，还可能会面临以下两方面困难。而生成式人工智能技术的合理使用可以在一定程度上将之克服。

一方面，指标代表性和可测量性之间的矛盾会被放大。在国际关系领域发出中国声音，意味着需要在指标体系中传达中国对诸如治理、民主和国际安全等关键概念的独特理解。这种理解会导致指标在概念层出现中西差异，并在测量层被放大，表现为一些具有代表性并能够产生广泛影响的指标缺乏可测量性。事实上，现今在国际上产生比较大影响力甚至对中国造成一定压力的西方指标体系往往是那些依靠专家主观评估的指数。其原因在于这些指数关注了能够产生重大影响力但难以测量的领域，而专家打分实际上是针对指标缺乏可测量性的一个解决方案。

专家评估法往往因客观性不足以及评估结果与公众认知之间存在差异而广受质疑。生成式人工智能强大的自然语言处理能力为解决这一矛盾提供了另一个方案——引入基于文本数据挖掘的指标。例如，世界银行、世界卫生组织及联合国教科文组织等机构会针对相关重要会议发布简报等文本，生成式人工智能可以据此判断各国在其中的影响力。同理，也可对具有重要国际影响力的媒体报道展开类似分析。这一方式弥补了专家评估缺乏客观性问题，结果说服力较高，且数据具有独创性，能够在国内外快速形成影响力。

另一方面，生成式人工智能可以弥补指标体系研发和运行工作缺乏足够人力资源支持的问题。当前，全球范围内具有较大影响力的国际关系与全球治理类指标体系往往由重要政府间国际组织、跨国非政府组织以及智库发布。这些机构拥有强大的专家团队支持。此外，研发具有鲜明中国特色的指标体系需要关注一些西方学界政界关注较少的领域，此时团队可能缺乏现成数据，导致人力成本进一步增加。

生成式人工智能的出现至少可以从三个方面缓和这一矛盾。第一，其庞大的训练集可以用来提示可能的数据来源，并降低资料搜索所耗费的时间。第二，其自然语言处理能力能够极大降低文本处理所需要的人力成本。如目前已有地方开始尝试利用其快速处理自填式问卷中主观题文本。第三，基于生成式人工智能技术开发的数据辅助运算工具、数据可视化工具和排版工具能够大大缩短数据处理、可视化和报告制作等工序所需的人力成本。

总而言之，社会科学指标体系的构建，从本质上来说可以理解为一个由指标信效度、指标可测量性和指标测量成本三者之间构成的“不可能三角”。实践中，极少能找到同时满足三者的指标。生成式人工智能的出现，弥补了一些高信效度指标在可测量性和测量成本上的不足，为学界构建和推广中国国际关系指标体系提供了新思路。

（作者系华东政法大学政府管理学院副教授）

全球数字经济发展指数的学术与实践价值

陈胤默王喆张明

2023年10月18日发布的《第三届“一带一路”国际合作高峰论坛主席声明》指出，要打造数字资源共建共享、数字经济活力迸发、数字治理精准高效、数字安全保障有力、数字合作互利共赢的数字丝绸之路。未来一段时间内，如何增强我国数字经济的国际竞争力及参与国际数字规则制定成为我国发展数字经济的关键所在。

构建全球数字经济发展指数的必要性和重要性。数字经济是“一种主要依靠数字技术运作的经济”。对全球数字经济发展的有效测度是分析和比较各国数字经济发展水平，培育数字竞争优势，营造开放、公平、公正、非歧视的数字发展环境的重要前提和基础。

当前，测度全球数字经济发展水平需解决两个关键问题：其一，在指标选取、时空样本范围方面，指标构建面临兼顾全面性、可得性的难点。其二，对中国等新兴国家的数字经济发展水平和特征事实进行客观评估与比较。

全球数字经济发展指数（TIMG）吸收已有数字经济指数优点的基础上，形成一套全新的测度全球数字经济发展水平的指标体系。该指数特色在于：一是该指数全方位测度数字经济的发展水平，从国家资源禀赋差异和制度环境视角归纳一国数字经济发展的驱动因素，构建评估数字经济发展的基本分析框架。二是该指数具有时间跨度长、国家范围广的特点，这有利于进行横向和纵向的跨国比较。三是该指数不同于西方评价体系中的指标选取方法，而是更多使用反映规模经济和网络效应的总量指标，以及与数字经济相关性更强的技术和制度指标，在符合数字经济特性的同时，能够客观凸显中国等新兴国家的竞争优势和不足。

全球数字经济发展指数的内涵和原理。在指标体系方面，TIMG指数的指标体系共由4个一级指标、12个二级指标以及24个三级指标构成。具体而言，一级指标包括数字技术、数字基础设施、数字市场以及数字治理四个维度。在数字技术一级指标下设研发产出、人力资本、创新水平等二级指标；在数字基础设施一级指标下设普惠性、便捷性和安全性等二级指标；在数字市场一级指标下设需求侧、供给侧、国际市场等二级指标；在数字治理一级指标下设数字政府、经济与社会环境、政治与法律环境等二级指标。

在样本选取方面，TIMG指数的度量范围涵盖106个全球主要经济体，时间跨度为2013—2021年。考虑到原始数据存在不同指标的内涵差异较大、度量单位不尽相同、指标间不具有可比性等问题，TIMG指数通过标准化方法将原始数据统一到同一维度以解决该问题，即采用无量纲化方法对原始数据进行处理。在指数权重方面，对于各级指标的权重确定采用等权重法。

全球数字经济发展指数的评级结果。基于TIMG指数对全球数字经济发展水平的测度，得到如下五个重要发现。

第一，全球数字经济呈现持续发展趋势。2018年后，主要国家数字经济发展的追赶态势呈现加速状态，TIMG指数全球中位数开始超过平均水平。数字市场和数字基础设施是推动数字经济快速发展的主要力量，而数字技术和数字治理相对滞后。

第二，北美、东亚、西欧是数字经济发展水平最高的三个地区，东南亚、西亚等亚洲其他地区和中东欧、独联体国家的数字经济发展处于中等水平，非洲、拉丁美洲地区的数字经济发展较为落后。

第三，总体而言，2021年，中国在数字市场和数字基础设施领域优势较大，分别排名全球第二位和第三位。但是，中国在数字技术和数字治理方面存在一定的差距，分别排名全球第15位和第41位。

第四，“一带一路”共建国家（地区）的TIMG指数在2017年后开始超过非“一带一路”共建国家（地区）。

第五，数字经济将成为未来国际合作的新领域和竞争赛道。目前，欧盟、美国、英国等发达国家是数字经济国际合作主要参与者和规则制定者。从TIMG指数得分和数字经济国际合作情况来看，一个国家的数字经济发展水平越高，该国在数字经济国际合作中的参与程度也越高。然而，数字经济国际合作与数字经济发展依然存在不匹配的情况。后发国家正在通过参与数字经济国际合作提升本国数字经济发展水平。

全球数字经济发展指数的价值与应用。在理论方面，TIMG指数将为全球数字经济的相关理论研究和统计指标体系设计提供参考。当前，学术界就数字经济的内涵、范围界定、统计口径等方面，还未形成统一标准。现有研究对数字经济发展水平的度量主要通过构建指数的方法来实现，并多聚焦于国内数字经济发展状况。目前，国内仍然较为缺乏一套兼顾时间连续性和指标可比性的指标体系，用以科学而全面地测度全球数字经济发展水平。TIMG指数通过梳理国内外关于数字经济指标体系的研究，结合当前数字经济快速发展的现实情况，构建了一套系统、全面、长时间维度的全球数字经济发展指数，这有利于开展跨国数字经济发展的相关理论研究。

在实践方面，TIMG指数对2013—2021年涵盖106个全球主要经济体的数字经济发展水平进行测度。这一方面有助于政策制定者和金融从业者更好地了解全球数字经济的发展现状、空间特征和未来趋势；另一方面有利于识别一国数字经济发展的国际定位、发展瓶颈等关键问题。在全球数字经济发展逐渐呈现国际合作的大背景下，充分把握本国数字经济发展的国际竞争优势和劣势，有助于更好地开展数字经济国际合作，促进本国数字经济健康且可持续地发展。TIMG指数结合中国数字经济发展的实践特征和全球数字经济发展演进的一般规律，为全球数字经济发展的量化评估提供开放式、动态化的公共产品，有助于推动创新、客观的全球数字经济评价标准和体系构建。

（作者系中国社会科学院国家金融与发展实验室研究员；中国社会科学院国家金融与发展实验室研究员；中国社会科学院国家金融与发展实验室副主任）

▼

全球软实力评价矛盾之源与指数重构方案

赵瑜佩

20世纪90年代，软实力伴随“美国衰弱论”思潮与“现实主义权力”概念盛行之时提出，大量关于软实力的研究与政策建议应运而生。

软实力研究的现状

一方面，美苏冷战，苏联在军事上几乎能与美国抗衡，日本的经济实力也不断追赶美国。在此背景下，美国衰弱论调此起彼伏，如保罗·肯尼迪认为美国正遭受“帝国的过度扩张”，很快会走上西班牙与英国衰弱的老路。另一方面，国际政治的学者与实践者——尤其对于肯尼思·华尔兹等新现实主义者而言，普遍将权力视作有形的胁迫性权力。最为引人注目的是学者约瑟夫·奈对美国衰弱的论调抱有怀疑，认为尽管美国在军事和经济上有被苏联和日本追赶的趋势，但是在文化输出方面有着他国无法匹敌的优势。在这一思考逻辑下，奈认为只强调权力胁迫与交易的属性是片面的，他强调，人们凭借思想与吸引力也可以影响他人，操纵他人所想与行动的议程。由此，奈提出了“软实力”的概念，试图反驳美国衰弱论，并弥补当时学术界盛行权力概念的局限性。

此后，奈进一步阐明了国家软实力主要依靠的三种资源：文化（对他国具有吸引力）、政治价值观（得以在国内外践行）、外交政策（被认为合法且具有道德权威）。自此，关于软实力概念的争议引起学界与政界的广泛讨论。首先在其构成要素方面。奈最初定义中的软实力由文化、政治价值观与外交政策三部分构成。美国参议院外交关系委员会则认为，国家软实力的构成要素包括国际贸易、海外投资、发展援助、外交倡议、文化影响力、人道主义援助和灾难救济、教育以及旅游等多方面内容。

其次，西方学者对软实力概念的争论也集中在对“软实力”与“软实力资源”界定方面。在此情况下，通过“权力资源”的软硬来判断一种权力是软实力还是硬实力，从而使得权力本身变得可测量，因此软硬权力的二分法在这些研究下并不被视为问题。在某种程度上，这种“软实力”与“软实力资源”不分的情况，掩盖了软实力与硬实力之间关系模糊这一问题。

要打造一个全球软实力指数（SPI），就要从构建人类命运共同体的高度出发，主张不同社会制度、不同意识形态、不同历史文明、不同发展水平的国家求同存异、包容发展，坚持合作、不搞对抗，坚持开放、不搞封闭，坚持互利共赢、不搞零和博弈，反对以美国为代表的霸权主义和强权政治，用构建全球软实力评价体系等方式客观公正地维护和拓展各国正当利益，并为推动人类社会发展进步作出应有贡献。

SPI指标的分类

一是客观数据指标，包括政府、组织、个人、文化、外交、教育共六个领域，占总体系比重60%，全部采用客观数据。其中，政府的二级指标应包括但不限于政治意见领袖的数字参与数、数字基础设施基数、数字政府的覆盖率、数字战略政策数量、政府在线服务指数、国内智库总数、拥有国际组织投票权数量；在组织（企业）指标中，建议包括数字科技核心技术数、数字科技全球领军企业占比、全球性数字平台占比、企业和组织数字化覆盖比、全球专利数量占GDP比例、世界经济论坛竞争力指数排名、外国直接投资额占GDP比例、研发支出占GDP比例；在个人指标领域，包括网民数量、网民百人占比、每百人手机数、移民（入）占总人口比重、移民（出）占总人口比重、文盲率、犯罪率等；在文化领域，二级指标建议包括数字文化产业规模与外向度、国外游客收入占GDP比重、主要电影节参展影片数量、外国记者在国内的总人数、联合国教科文组织世界遗产的数量、全球前百名博物馆排名数量、音乐全球榜单上榜率、奥运奖牌数、社交媒体的海外用户数、英语或多语网站数量、国家电视台的海外收视人数；在外交领域中，二级指标可涵盖外交发言人社媒参与量、海外发展援助总额占GDP比重、驻外使馆数量、国内外国使馆数量、常驻多边代表团数目、参与的国际组织数量、外交文化使团数量、免签证国家数量；在教育领域中，包括海外留学生总人数、在线教育水平、高等教育入学率、全球顶尖大学数量、学术期刊论文发表数量、国际留学生人数占总人口比重、教育经费占GDP的比重。

二是主观数据指标，针对影响力领域，共10个指标，其中建议包括全球性数字平台影响力、主流媒体数字化影响力、本国对全球文化的贡献度、对X国历史文化了解情况、具有国际知名度的企业数量、具有国际知名度的NGO数量、具有国际知名度的名人、处理全球事务的正义感、吸引外国人旅游和就业及留学的程度、国际媒体对本国负面报道频率，占总体系比重40%，采用问卷调查等方法进行数据调研。

构建SPI指标的重点

第一，如何建立公正客观的全球软实力评价体系数据收集方法，并评测出一套适应新全球化的评定报告？对于一个国家的软实力强弱的判断，一方面，应该包括本国民众的数据，也包括其他国家民众对该国的看法和评价，且软实力很重要的一个方面就是体现在对其他国家的影响力上。因此，衡量一个国家的软实力更需要从他国视角进行分析和判断。另一方面，要包括来自不同国际组织的定量数据，也需要包括来自不同国家问卷调查的定性数据。但实际情况是，很多指标体系的数据只有问卷数据，且问卷数据的范围和数量都十分有限，这些问题需要在我们的数据收集工作中加以解决。

SPI指数相比其他指标的一个优势是，在确定指数问卷之后，系统梳理问卷发放的国家和地区，以及确定合理的问卷发放数量。对比现有软实力评价体系问卷发放范围和数量，比如美国的2019年“软实力30强”报告中，一共调研了25个国家，每个国家发放500份问卷，累计发放问卷12500份，问卷样本量仍不满足统计学意义上的显著性。经过合理性测算，我们认为问卷发放国家至少应该达到20—25个以上，并且每个国家的数量级至少应该达到1000份。

第二，如何在数字化背景下重构评价体系，从而更好地融入国际战略传播？探究这个问题主要是为切实解决中国在国际传播中“文本在场，建构缺席”的困境。在打造世界各国软实力评价体系的同时，还需要从“定义自己”“阐释想法”“动员认同”的角度，建构一套体现科学性和公正性的叙事体系，提高对软实力议程的设置能力、对软资源舆论的引导能力，继而达到提升中国国际战略叙事建构能力的目标，更好地传播中国声音。

（作者系浙江大学传媒与国际文化学院研究员）

原标题：《学术圆桌 | 国际关系研究中的“指数”及其话语权建构》

【本文地址】

学术圆桌

学术圆桌

今日新闻

推荐新闻