基于多维政策实体及其关系的科技政策演化路径揭示方法研究 |
您所在的位置:网站首页 › 共现的类型 › 基于多维政策实体及其关系的科技政策演化路径揭示方法研究 |
1 引 言
科技政策作为一个复杂的思想和社会行为系统, 在促进国家科学技术以及经济社会发展的同时, 自身也一直处于动态的变化过程。针对政策随时间的演化研究一直是科技政策研究中的重要内容[1]。为探究科技政策制定、实施和评估过程中的特点、规律以及演化路径, 研究者常常以政府发布的法律法规、报告与计划等官方科技政策文献[2]为分析对象, 客观地探讨政策科学研究内容。 随着开放政务信息的日益增多和循证政策科学研究的不断深入, 也伴随着计算语言学和文本挖掘技术的不断提升, 科技政策量化演化分析作为计算社会科学的一个典型应用, 其对科技政策文本的结构化、语义化解构分析, 有着重大的需求。在此背景下, 可纳入计算研究的政策文本类型除了官方政策文献外, 逐渐扩展到在政策制定过程中形成的研究、咨询、听证或决议等公文档案, 甚至包括政策推进过程中报道、评论等形成的政策舆情文本[3]。而政策主体、政策客体(受众)、政策目标、政策工具等政策研究对象, 内嵌于上述各种类型的政策文本中, 记录政策制定、实施和评估过程的特点与规律, 隐性地揭示了科技政策推进的关联路径。本文围绕利用科技政策推进过程中产生的各类文件(主要指官方的阶段性进展报告、科技政策新闻等), 基于文本中多维政策实体及实体之间的多种关系, 探索揭示科技政策演化方式的新方法。 2 研究现状从研究方法上看, 政策演化的分析方法大体上可以分为定性与定量两大类。早期主要依靠对少量政策文献的质性解读来研究科技政策的演进。随着统计、内容分析、文献计量、信息可视化等研究方法的不断发展, 不少研究开始关注利用大样本量的政策文献数据总结相关规律与结论, 提升政策研究的客观性、可重复性和可验证性。在这些定量分析方法中, 量化分析的结构化对象包括主题词、时间、政策主体、政策工具、合作关系等, 根据技术特点及分析对象, 定量分析方法又可分为基于内容分析法的内容量化分析、基于文献计量的政策计量分析和基于社会网络分析的政策网络分析。 基于内容分析法对政策文献进行分析的主要思路是抽样选择相关主题或相应领域的有限政策文件, 针对具体分析目标, 构建对应的定量标引框架, 然后对政策文献中的文本内容进行编码、分类和人工标引, 再进一步对转化后的数据文件进行定量分析, 最后解读政策[4,5,6,7,8]。从文献计量的角度对政策演化进行描绘, 早期并不是以政策文献本身所包含的内容为研究对象, 而是以科技领域发表的科技论文或社会科学领域发表的研究科技政策的论文为研究对象, 通过对文献中包含的主题、作者、机构等进行计量分析, 从发文量、引文、主题词图谱、学科交叉等角度, 或从宏观上评价一国或多国的科技能力, 支持科技政策的决策, 或宏观分析针对某个领域科技政策的研究趋势[9]。在观察到政策文本中也存在与文献计量中呼应的特征分析项后, 部分研究者开始尝试借鉴文献计量的分析方法, 形成政策计量方法, 主要从科技政策文本中包含的主题、发文机构等角度, 借助共词分析等基础方法, 构建相应的合作网络, 分析政策的主题分布、主题走向、政策变迁、政策扩散、府际关系[10]等。随着社会网络分析、复杂网络等的发展, 研究者开始尝试将定性的政策网络方法与定量的社会网络分析方法进行有效融合, 从网络视角分析公共管理与政策, 并逐步形成政策网络分析方法[11,12]。通过构建政策制定、实施过程中各类政策主体的关联, 借助社会网络中节点的个体属性(点中心度、凝聚度等)及网络整体属性(稳定性、小凝聚子群等), 分析各网络的属性特征, 从政策扩散方向、政府部门间的关系、各级政府政策执行传递等角度, 发现并解释政策之间潜在的复杂逻辑关系。 综上, 当前利用的科技政策文献主体上以政策结果为主, 大量记录了政策文献产生、政策推动发展的政策文本未能被充分利用, 而这些政策文本中往往记录了大量政策动态进展中的知识内容。如何应用这些文本中的知识内容揭示政策的演化过程值得深入探索。 3 科技政策实体及其关系模型构建参照Anderson等的研究, 科技政策的形成与推进、发展可看作是政策主体、政策目标与政策举措协调统一的过程[13]。在这一过程中, 研究者关注的内容主要包括政策主体、政策客体、政策体系(政策目标、实施机制、政策工具)、政策过程(政策制定、政策质性、政策过程)等众多内容[14]。这些内容中涉及的关键要素包括政策的制定者、政策的受众、不同阶段政策实施过程、政策实施效果及政策的反馈等内容。从这些要素在文本中的表征来看, 科技政策的制定者、受众往往表征为各类机构或群体的名称, 如政府、科学共同体、公众、非政府组织等[15], 政策工具常常表现为各种策略、方法、行动、项目、法律/法规/法案等命名实体, 而科技政策目标、科技政策过程、科技政策实施效果和政策的反馈则主要通过一些语句或关键词进行表征。基于此, 从表征形式上可以将这些关键要素分为命名实体及主题词两大类。这两大类关键要素也是当前政策演化众多研究不同层面上涉及的研究对象。本文并不对科技政策涉及的所有内容进行全面探索, 结合后续这些关键要素及要素间的关系能被自动识别的可能性和准确性, 仅关注政策行为主体、科技政策举措、科技政策受众三类。这三类政策实体间主要存在共现(包括句内、段内、篇内三种窗口内的共现)、语法(主谓宾)、语义(限定于合作、目标、参与等)三类关系。 基于此, 笔者设计科技政策实体及其关系框架, 如图1所示。 图12096-3467-3-5-57/img_1.png图1 科技政策实体及其关系框架 2096-3467-3-5-57/img_1.png图1 科技政策实体及其关系框架 ![]() 图1 科技政策实体及其关系框架
(1) 科技政策行为主体。在传统的科技政策演化研究中, 研究者认为政府部门作为拟定科技政策的绝对中心部门, 分析政府机构的关系结构及权利变迁情况, 即可以反映科技政策演化的规律。近来, 也有研究者意识到, 科技政策推进中, 虽然政府部门拥有天然最高治理权, 但高校、科研院所和高科技企业也发挥着重要的作用。本研究的科技政策行为主体即包含政府机构、科技机构、院校、企业、其它公私组织在内的科技政策执行力量。 (2) 科技政策举措。科技政策举措是为推动科技政策发展而采用的各种手段。本研究要从科技政策文件中自动识别相应政策举措, 考虑到现实的可操作性, 主要采用政策形式分类, 将科技政策举措分为科技计划、科技项目、奖励、法案等几类。 (3) 科技政策目标主体。科技政策目标主体是科技政策行为主体和科技政策举措所着力的目标对象, 如教育领域科技政策受众涉及的主体是学生、教师、学校等。 4 基于政策实体及其关系的科技政策演化路径揭示方法设计 4.1 基于政策实体及其关系的科技政策关联机制分析在以科技文献为核心的研究中, 文献特征项间的关系是一种普遍存在的现象(如共著等), 这些关系之间存在直接关联, 如论文与作者关联; 也存在间接关联, 如文献耦合、同被引等[16]。参照科技文献的特征项关联现象, 如果将本研究中定义的三类科技政策实体看作科技政策的三个特征项, 这些特征项之间也存在各种关联, 依据关系链的直接与否, 政策实体之间的关联也可以分为直接关联和间接关联两种, 科技政策直接、间接关联示意图如图2所示。 图22096-3467-3-5-57/img_2.png图2 科技政策直接、间接关联示意图 2096-3467-3-5-57/img_2.png图2 科技政策直接、间接关联示意图 ![]() 图2 科技政策直接、间接关联示意图
(1) 直接关联。科技政策的直接关联指三种类别的科技政策实体特征项之间具有直接关系, 可以直接表征科技政策中实体的前序、后继关联, 如图2中, A、B、C、A-B、A-C、B-C中直接表征出来的联系, 这类关联是各特征项之间最基本的联系, 也是用于后续发现特征项之间间接关联的重要基础。 (2) 间接关联。科技政策的间接关系指同类实体特征项之间的关联并未直接存在, 而是借助其他实体特征项而产生联系, 这种关联是对直接关联的延伸与扩展。如图2中, B1-B2、B1-B3、B1-B4, 原本不存在直接关联的两个科技政策举措分别借助其他实体形成“共政策举措链”等。除了这种通过与其他实体之间的直接关联构成的间接关联外, 通过多级路径形成的关联也是一种类型的间接关联。间接关联产生的联系正是本研究中关注的重点之一。 4.2 基于多指标的科技政策关联计算在上述关联机制分析的基础上, 进行相应的政策关联计算方法设计。需要注意的是, 本文科技政策的演化路径主要是刻画同种类型的科技政策实体演化路径。因此, 研究中所使用的直接关联指同种类型科技政策实体间的关系, 即形成关系对的科技政策实体属于同一大类, 如共同属于科技政策行为主体、科技政策举措或科技政策受众。 (1) 总体框架 如图3所示, A节点和B节点的关联分别可以通过4幅图展示。图3(a)与图3(b)分别代表A、B之间存在直接的有向(特定语义的)或无向(部分无向语义和共现)关联; 图3(c)代表A与B虽然不存在直接关联, 但存在多个共现实体如D、F; 图3(d)则表示A与B之间不存在直接关联, 也没有多个共现的第三方实体, 但A和B之间存在多个第三方实体可联通的路径, 如经过C、E、D的连接, 最终A和B也存在关联。本研究要计算出这4种形式下, A、B之间关联的可能性及联通强度。 图32096-3467-3-5-57/img_3.png图3 科技政策关联的类型 2096-3467-3-5-57/img_3.png图3 科技政策关联的类型 ![]() 图3 科技政策关联的类型
为说明整个关联计算的过程, 笔者以科技政策举措为例, 设计如下方案。 ①初始关系对构建 在构建初始关系时, 采用subjecttool和objecttool表示组成关系前后的两个政策举措, 在由政策举措Vi和Vj组成的关系中, Vi与subjecttool对应, Vj与objecttool对应, Vi和Vj之间存在直接关系和间接关系, E(Vij)代表两个政策举措的关系集合, 如公式(1)所示。 $\begin{align} & E({{V}_{ij}})=\{(Name({{V}_{i}}),Time({{V}_{i}})),\ (Name({{V}_{j}}),Time({{V}_{j}})), \\ & \ \ \ \ \ \ \ \ \ \ \ \ DirRela({{V}_{ij}}),\ InDirRela({{V}_{ij}}), \\ & \ \ \ \ \ \ \ \ \ \ \ \ Direction({{V}_{ij}}),Stren({{V}_{ij}})\} \\ \end{align}$(1) 其中, Name(V)代表政策举措的名称, Time(V)代表政策举措首次出现的时间, DirRela(Vij)和InDirRela(Vij)分别代表两个举措的直接关联数值和间接关联数值, Direction(Vij)代表关系的方向, Stren(Vij)代表综合直接关联和间接关联后的关联强度。通过分别测算DirRela(Vij)和InDirRela(Vij), 最终获得Direction(Vij)和Stren(Vij)值, 为最终的演化路径描绘提供支持。 ②关系计算 为实现Direction(Vij)和Stren(Vij)的测算, 参照共现关系融合、相似度计算、最短路径计算等方法, 从语义关联、同共现关联、共实体链、路径衰减指数4个维度分别测算两个政策实体之间的关系。 考虑到待计算的科技政策实体对之间存在4种形式的关联, 并不是每一对实体对之间均需要全部计算4个维度的关联强度, 针对此, 笔者采用伪代码的方式设计了下述的计算流程。在计算过程中, 待计算的实体对Vi和Vj之间若已经存在直接语义关联, 则不再计算同共现关联、共实体链及路径衰减指数三个维度的值; 若两者之间不存在语义关联但存在同共现关联, 需要同时计算其同共现的直接关联与共实体的相似度(因为本研究中同共现窗口包括篇章、段落和句内三种, 存在同共现, 其关联强度未必强, 比如在同一个篇章内出现过一次共现的两个实体, 总体上看, 其关联强度较弱, 需要计算共实体的相似度), 但不再计算关联路径的衰减指数。当两个实体之间不存在直接关联时, 则优先计算共实体相似度, 只有在两者间前三个形式的关联均不存在时, 才计算两者的关联路径衰减指数。 Define: CanRelat(Vi,Vj)//候选关系对 FloatrelaStren, relaStren2;//关联强度 If(Semantic(Vi,Vj)exist){//语义关联 return relaStren; }else{ relaStren=coocurence(Vi,Vj);//同共现关联 if(coocurence(Vi,Vj)>0{ relaStren2=similarity(Vi,Vj);//共实体关联 return relaStren,relaStren2; }else{ relaStren=similarity(Vi,Vj);//共实体关联 if(similarity(Vi,Vj)>0){ return relaStren; }else{ relaStren=path(Vi,Vj);//关联路径衰减指数 } } } (2) 直接关联的计算方法 基于上文设计, 在计算直接关联时设置semRelaDegree (直接语义关系)和coRelaDegree(共现强度关系)两个指标。按照是否存在直接语义关联, 分别将semRelaDegree设置为0和1(0代表无语义关联、1代表有语义关联), 并记录语义关系的方向, 值设置为0、1、2, 分别代表无向、A指向B、B指向A。 在计算coRelaDegree时, 分别对共篇、共段、共句的直接关系设置0.1、0.5和1的权重系数, 采用权重系数与共现频次相乘的方式获得关系强度, 计算方法如公式(2)所示, 此处计算得到的semRelaDegree和coRelaDegree两个数值分别存储记录到每一个实体关系对中, 用于后续综合计算。 $\begin{align} & coRelaDegree=0.1\times Fre{{q}_{coText}}+0.5\times Fre{{q}_{coPara}} \\ & {{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}{{^{{}}}^{{}}}^{{}}+1\times Fre{{q}_{coSen}} \\ \end{align}$ (2) (3) 间接关联的计算方法 针对间接关联, 参照文献计量的相关方法, 分别构建如下的计算方法。 ①共实体相似度计算 共实体相似度指与两个无直接关联的实体分别直接关联的实体集合的相似度。以图3(c)为例, 可以形成A(D, F)与B(C, D, F)两个直接关联实体集合, A(D, F)代表与A直接共现的实体集合为(D, F), B(C,D,F)代表与B直接共现的实体集合为(C, D, F), 计算A与B的共实体相似度, 即计算(D, F)与(C, D, F)集合的相似度。在实际共实体中, 存在以下两种情况: 1)当两个待判定的无直接关联的实体均只有一个相同的第三方共现实体时, 其强度与具有10个相同的第三方共现实体强度是有差异的, 即链接强度对实际的实体相似度有影响。在计算此实体相似度时, 需要考虑待判定实体的链接强度。 2)两个待判定的无直接关联的实体与共有实体之间的直接共现关系也存在差异, 这里同时需要考虑两个待判定实体与共现实体之间的直接关系强度。 针对1), 笔者同时考虑与两个待判定实体共现的第三方实体的相似性与相似强度, 将两个待判定实体的出度和作为实体链接密度, 在计算出关系的出度后, 叠加上两个待判定实体共现的链接数, 表示这个关系对整体的贡献。针对2), 笔者采用与直接关联类似的计算方法获取直接相关的关系强度, 并用此关系强度作为特征值参与后续计算。 在共实体的相似度计算中, 笔者设计的计算流程如图4所示。获取待判定关联对中的两个实体Vi和Vj后, 分别获取与这两个实体存在直接关联的实体集合Vin和Vjm, 同时参照公式(2)计算出各实体的关联强度, 分别将Vi和Vj中的实体按照字顺进行同方向排序(同降序或同升序), 形成排序后的向量; 对两个向量中的内容进行逐个比对, 发现相同实体后记录该共有实体的值及直接共现的关联强度, 叠加上两个待判定实体共现的链接总数; 参照余弦夹角距离公式, 计算获得共实体的相似度。 图42096-3467-3-5-57/img_4.png图4 共实体相似度计算 2096-3467-3-5-57/img_4.png图4 共实体相似度计算 ![]() 图4 共实体相似度计算
②关联路径衰减指数计算 参照社会网络分析中路径长度的定义, 关联路径的衰减指数指待计算的两个无直接关联的实体之间连通的距离, 两个节点之间可能存在多条路径, 其中经过节点序列最少的路径长度即两个节点之间的关联路径衰减指数。在图3(d)中, A和B之间通过4步可以形成一条连通路径, 则A和B之间关联路径的衰减指数为4, 若A和B之间存在多条路径, 则以其最短路径作为两个实体之间的衰减指数, 路径越长, 关系越弱。 为计算关联路径的衰减指数, 选用图搜索中最短路径的计算方法, 采用迪杰斯特拉算法(Dijkstra)[17], 基于完整的科技政策实体关系图, 计算获得任意两个科技政策实体之间的最短路径。 (4) 综合指标的计算方法 通过上文方法分别计算出4种关联形式下待计算实体对之间的关联后, 需要进一步综合计算候选关系对的综合关联强度和关联方向。但是, 在从上述4个维度对实体之间的关联进行计算时, 不同维度上的计量标准和取值范围并不相同, 如通过直接关系中的同共现关系计算的结果在[0,∞), 而通过共实体相似度计算获得的值在[0,1]区间, 关联路径衰减指数则是[2,∞)上的整数集合。为从4个维度综合考量科技政策实体之间的关联强度, 需要对计算结果进行标准化。 ①4个维度的取值范围统一设为[0,1], 取值不在[0,1]区间的维度结果需归一。 ②候选关联对之间存在4个维度中任意前序的维度关联后, 虽然不再计算后续维度的关联, 但均赋值为1。即如果候选关联对之间存在明确的语义关联, 则不再计算后续的三个维度的关联强度, 但后续三个维度的关联强度分别记为1, 即认为存在明确语义关联的候选关联对, 其关联强度最大。 在对不同维度进行归一处理时, 主要涉及直接关系中的同共现关系强度和关联路径衰减指数。针对这两个维度的指标, 分别采用不同方法进行归一。在同共现关系强度归一时, 参照线性函数的归一化方法, 以同共现关系强度为例设计计算方法如公式(3)所示。 $standCoocu(X)=\frac{X-\mathrm{Mi}{{\mathrm{n}}_{coocur}}}{\mathrm{Ma}{{\mathrm{x}}_{coocur}}-\mathrm{Mi}{{\mathrm{n}}_{coocur}}}$ (3) 其中, standCoocu(X)表示第X个关系对的同共现关系强度标准化值, X为在该维度上计算出生成的待归一coRelaDegree值, Mincoocur表示该维度上计算出的最小同共现关系强度, Maxcoocurr表示该维度上计算出的最大同共现关系强度。与同共现关系不同, 当关联路径越短时, 两个实体间关联强度应该越大, 反之, 则关联强度越小, 如果采用公式(3), 则会出现路径越短强度越小的情况。针对此, 笔者设计对关联路径衰减指数进行归一的计算方法如公式(4)所示。 $standPath(X)=\frac{\mathrm{Ma}{{\mathrm{x}}_{path}}-X}{\mathrm{Ma}{{\mathrm{x}}_{path}}-\mathrm{Mi}{{\mathrm{n}}_{path}}}$ (4) 其中, standPath(X)表示第X个关系对的关联路径衰减指数标准化值, X为在该维度上计算出生成的待归一路径长度, Minpath表示该维度上的最短距离, Maxpath表示该维度上的最大距离。 通过归一化计算, 将每一个维度的结果归一化到[0,1], 将4个维度上的值相加, 可获得综合的关联强度。基于此, 得到图3中4种形式下可能连通的科技政策实体之间的关联强度, 为后续结合节点的时间属性和关联强度展示科技政策的演化路径提供支持。 5 实 验 5.1 实验数据集为验证本研究提出的科技政策演化路径揭示方法, 选用美国白宫科技政策办公室(Office of Science and Technology Policy, OSTP)官方网站发布的各类科技政策新闻、领导人讲话、科技政策进展公告等作为科技政策文本, 并选择“科学、技术、工程和数学教育(Science, Technology, Engineering and Mathematics,STEM education)”这一主题遴选相关科技政策文本, 时间上采用覆盖奥巴马总统整个执政周期的数据。以奥巴马总统正式上任为时间起点, 以“STEM”、“science, technology, engineering and mathematics”、“Educate to Innovate”等与STEM密切相关的主题词在OSTP官网上进行检索, 共获到527篇包含上述主题词的科技政策文本。进一步通过提取文本标题、文本发布时间、资源类型分类、正文内容获取、查重、相关性判断等处理, 最后获得不重复的209篇科技政策文本, 这些文本来源包括Blog、Statement & Releases、Report等栏目下的HTML、PDF文本, 时间跨度上从2009年4月27日至2016年10月15日, 基本覆盖了奥巴马政府的整个执政周期。各个时间段不同类型的科技政策文档分布情况如表1所示。其中2013年是美国“STEM五年计划”的发布年, 主要发布了各类正式政策报告和政府预算报告, 文本内容规模大, 以部署任务为主, 较少有明确的执行措施, 因此剔除这一部分数据; 2015年也以发布法案、报告为主, 预处理中也将这一部分数据剔除。 表1 表1 ![]() (注: 这里的报告仅指直接介绍STEM education进展的各类陈述性报告, 如PREPARE AND INSPIRE: K-12 EDUCATION IN SCIENCE, TECHNOLOGY, ENGINEERING等政策文报告未纳入分析。) 5.2 政策实体及其关系的识别基于上述数据集合, 使用GATE、Stanford Parser等工具, 配合笔者撰写的几十条命名实体识别与关系识别规则, 在自动识别的基础上辅以人工调整, 共识别出各类科技政策实体实例8 665个。按照科技政策实体实例的规范表达与详细类别属性进行分组, 实际非重复的科技政策实体实例共涉及2 534种, 这2 534个实例在8年中共被提及8 665次。具体类型分布和年度分布如表2和表3所示。 表2 表2 ![]() 表3 表3 ![]() 除科技政策实体外, 本研究中另一个计算要素为科技政策实体的实例之间的关系。基于上述识别出的2 500多个科技政策实体, 从数据集中识别出各种类型的关系包括不同共现窗口(篇章内、段落内、句内)的共现关系及具备明确语义关联的关联共计522 819次, 这些关联中存在一定的重复(比如两个科技政策实体实例之间同时存在句法依存的语义关系和共现关系)。各类关系的总体分布情况表4所示。 表4 表4 ![]() 通过数据处理, 从实验数据集中共识别出532个奥巴马执政期间针对“STEM education”这一科技政策议题采取的政策举措, 这532个举措先后在8年间出现, 本实验意在针对这532个科技政策举措, 发现两两政策举措之间存在的前序、后继关系, 描绘出其8年期间的演化路径, 从而展示奥巴马执政期间针对“STEM education”的政策脉络。 (1) 科技政策举措及关系对的时序抽取 本研究使用的科技政策举措直接来源于相应的科技政策文本, 因为科技政策文本本身自带发布时间属性, 因此, 为简化研究, 将首次出现某政策举措的科技政策文本发布时间作为政策举措的首次出现时间。针对有限的5个标记了时间的法案, 进行人工处理, 如“No Child Left Behind Act of 2001”, 将其出现年份修订为“2001”。 从抽取出的科技政策实体表中, 提取这532个科技政策举措并将其进行时间排序, 构建按照时间序列排列的科技政策举措列表。为保障科技政策举措关联的完整性, 在构建候选关系对时, 并不限于前文中识别出的共现举措对和语义关系对, 而是假定任意两个科技政策举措之间都可能存在潜在关联。理论上来说, 532个科技政策举措实例之间任意两个举措形成关系对时, 将形成一个532×532的关系矩阵, 除去举措实例自身的关联, 可形成141 246个时序关系对。按照此设计, 从排序第一的科技政策举措进行顺次扫描, 构建相应候选政策举措关系对集合。 (2) 科技政策举措关系的计算 在候选关系对构建完成的基础上, 按照4.2节设计的计算方法分别针对每一个共现对, 判断其在4个维度的关系强度以及形成关系的数量。 在第一轮直接关联的语义判断中, 仅获得55对举措关系对, 经过第二轮的直接共现关联判断后, 共获得5 795对举措关系对(包含5 273对仅篇章内共现的关联, 其中有2 484对仅篇章共现1次, 占直接共现对总数的42%, 而句内共现仅有257对)。4步关系计算完成之后, 最终发现87 385个举措的关系对。这说明, 如果不考虑关联强度, 在建立的候选关系对中, 有53 861多个举措关系对间的关联不成立, 即通过任意一种方式均无法连通。 从关联强度上进一步分析这87 385个存在关联的举措关系对, 综合关联强度经过归一化计算之后的强度分布如图5所示, 可以看出, 大量的关系对强度很低, 在第2 069对关系之后, 关系强度出现很长的长尾。而在有较明显关联强度的关系对中, 关系强度大于1的仅有258对(涉及175个不同举措), 关系强度大于等于0.5的存在792对(涉及310个不同举措), 关系强度大于0.3的存在1 430对(涉及361个不同举措)。 图52096-3467-3-5-57/img_5.png图5 科技政策举措综合关联强度结果分布 2096-3467-3-5-57/img_5.png图5 科技政策举措综合关联强度结果分布 ![]() 图5 科技政策举措综合关联强度结果分布
(3) 科技政策举措演化路径的验证 为验证本研究所提演化路径计算方法的有效性, 以及选择一个合理的关系强度作为标准进行关系对的选择, 借助相关研究报告和文献, 分别从关系强度大于1、关系强度大于0.5、关系强度大于0.3的关系对中随机遴选25对关系, 确定计算出的两个举措之间是否存在前序后继的关联(因为语义关系的准确度已经进行了准确度判断, 并经过人工修正, 这里主要针对非直接语义关系计算出的关系对)。这25对关系判断的结果如表5所示。从比对验证结果可以看出, 在任何关系强度下, 均存在无法通过搜索引擎、报告、文献查证的关系对(有部分原因是举措实例本身识别时不完整或错误), 在关系强度为0.5-1时, 有20%的关系无法查证, 在关系强度介于0.3-0.5时, 比例增加到40%。通过验证可以看出, 基于本研究提出的算法, 可以在一定程度上发现仅仅通过语义关系和共句关系识别无法获得的科技政策关联, 发现潜在的未直接共现的科技政策举措之间的关联性。从准确性角度看, 针对本实验, 可采用0.5为阈值作为演化路径关系的遴选标准。 表5 表5 ![]() 为更直观地描绘科技政策举措的演化路径, 结合研究中科技政策实体的特点、每一个政策举措首次出现的时间及关系强度, 利用D3中的相关组件, 构建了新的举措演化路径的可视化效果。 在实际处理时, 总体上以年度为横轴, 同一年度上的举措按照其具体时间的先后顺序进行排序, 若存在直接语义指向联系, 关系发出者将排至关系接受者前面, 同一时段内关联强度紧密者形成相应的团。关联强度大于1时的科技政策演化路径如图6所示, “Educate to Innovate”举措的路径关联如图7所示。图中每一列为一个年度上出现的主要能连通的科技政策举措, 整个实验数据的区间为2009年-2016年8年内, 所以总体上2009年-2016年每一年为一纵列, 在2009年之前出现的相关节点统一作为一个时间序列进行展示, 不同颜色的节点代表不同类型的举措, 部分连线上存在的箭头表示这两个节点之间存在语义上的前序、后继关系。从演化路径图中可以看出, 在“STEM education”发展的过程中, 以“No Child Left Behind Act”、“American Recovery and Reinvestment Act”、“Educate to Innovate”、“Race to the Top”、“AmeriCorps”、“Let Girls Learn”、“Change the Equation”、“National Math and Science Initiative”等前序后继的科技政策举措, 较直观地呈现了科技政策举措之间的发展脉络。 图62096-3467-3-5-57/img_6.png图6 关联强度大于1时的科技政策演化路径 2096-3467-3-5-57/img_6.png图6 关联强度大于1时的科技政策演化路径 ![]() 图6 关联强度大于1时的科技政策演化路径
图72096-3467-3-5-57/img_7.jpg图7 “Educate to Innovate”政策的演化路径 2096-3467-3-5-57/img_7.jpg图7 “Educate to Innovate”政策的演化路径 ![]() 图7 “Educate to Innovate”政策的演化路径 5.5 结果验证 借助Kuenzi等[18,19]撰写的专门针对STEM相关背景、联邦政策、法案行动等的国会研究服务报告, Assefa等[20]针对美国STEM所做结构研究中的综述部分及人工阅读OSTP官方发布的年度研究报告[21,22], 对图中所呈现结果进一步比对, 查找可验证的线索。通过比对发现, 由于现有综合性分析的报告最新出版时间为2014年, 因此2014年之后发生的变动在现有研究中无法直接论证, 但在2014年之前本研究中通过图搜索形成的部分路径结果在报告中有所提及, 一定程度上证明了本研究所提演化路径计算方法的有效性。 6 结 语本研究从科技政策演化路径中涉及的实体及实体间关系入手, 分析科技政策演化中关联的形成机制, 分析出不同关联形成机制的量化考核维度, 综合运用研究中抽取出的各类关系, 构建从直接语义关系、直接共现关系、间接共现关系、关联路径衰减指数4个维度综合计算科技政策实体关联的多指标模型, 计算发现科技政策实体之间的关联强度和关联方向。并以实验数据集中的科技政策举措为例, 对所提演化路径方法进行验证, 结合科技政策实体的时间属性对科技政策的演化路径进行直观揭示。本研究形成一套完整的借助公共可获取的权威科技政策进展相关文本分析科技政策演化的新思路, 为科技政策研究人员在大数据循证政策研究中提供了一种新思路。同时本研究提出的科技政策文本表示方法, 也进一步提升了社会科学领域公开可获取信息的利用方式与方法。 但是, 本研究的样本量、政策领域仍比较有限, 未来需要进一步通过扩展样本量、迁移到其他政策领域进一步验证算法的有效性。此外, 除了人工比对和专家判读等方式验证计算出的演化路径, 尚未找到更合理的定量验证方法, 未来也需要探求更为有效的检验、验证方法。 作者贡献声明刘建华: 提出论文整体框架, 完成计算方法的设计、开发, 撰写论文; 张智雄: 参与计算方法设计, 对论文内容提出修改意见; 张琴: 参与实验数据的采集、清洗和分析工作。 利益冲突声明所有作者声明不存在利益冲突关系。 支撑数据支撑数据由作者自存储, E-mail: [email protected]。 [1] 刘建华. STEMText.db. 奥巴马执政期间与STEM education议题密切关联的209篇科技政策文本及其对应分段、分句信息. [2] 刘建华. STEMObjects.db. 科技政策文本中识别出的各类科技政策实体. [3] 刘建华. STEMEdge.db. 科技政策文本中识别出来的各类科技政策实体之间存在的共句、共段、共篇、语义等关联关系. [4] 刘建华. STEMPath.db. 基于多指标模型计算出的各类科技政策举措间演化路径的各维度值及最终的归一指标. |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |