温勇①
①沈阳市第六人民医院信息中心,110006,沈阳
摘要文章应用复杂网络的相关知识,对国内的医学信息文献数据进行数据挖掘。通过构建机构科研合作网络,以机构为研究对象,对网络的静态参数、动态演化进行挖掘分析,找出数据在机构间科研合作网的静态特征。推演并证实,机构的影响力和活跃度可能不仅体现在发文量上,同时也体现在与其他机构的合作程度上。
关键词 复杂网络 科研合作网 社团结构机构
1 引言
如今时代,学科间的渗透日益扩展,特别是大量的数据正在涌入医学信息领域,使该领域日益扩大,研究开发向纵深发展,使得一些基于大数据的大科学研究项目也越来越具有广域性和交叉性。如何从大数据中追踪这些项目之间的内在联系和潜在的交叉关系,挖掘其特征及分析演化过程,进而发现医学信息科研内容和水平的变化趋势,是一个亟待解决的问题。
理解上述做法是非常重要的,弄清楚数据源的本质是分析流程中最重要的一部分。反复地加载数据、检查它们的表现、调整加载过程、从而选择能够更好地服务于目标的数据,虽然看起来并不复杂,但却是至关重要的。如果没有完成这些步骤,也就不可能进入后面的分析环节。近几年,由于计算机数据处理和运算能力的飞速发展,研究发现大量的真实网络既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特征的网络。这样的网络被学术界称作复杂网络。随之,人们发现使用复杂网络的方式研究海量数据间的关系是一个非常行之有效的方法,尤其适用于医学信息领域的研究。
本文以国内万方数据近十年的医学信息文献数据为基础,以项目题目关键词为研究对象,运用复杂网络的分析方法,试图利用关键词的统计特征筛选出关键词网络的骨干节点网络,将研究重点集中在有意义的词关系上,再通过分析骨干网络中的重点节点的社团演化情况,总结出有标志性特征的关键词的一般研究规律。
2 相关工作
2.1社团分析 通常自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述。一个典型的网络是由许多节点与连接两个节点之间的一些边组成的,其中节点用来代表真实系统中不同的个体,而边则用来表示个体间的关系,规则是两个节点之间具有某种特定的关系则连一条边,反之则不连边,有边相连的两个节点在网络中被看作是相邻的。几年来的复杂网络研究表明,复杂网络通常是由若干个“群(group)”或“团(cluster)”构成的。每个群内部的节点之间的连接相对非常紧密,但是各个群之间的链接相对来说却比较稀疏。这种结构称之为社团结构。用于从复杂的网络结构中抽取出社团结构的算法称为社团发现算法。通过引入网络分析的方法对医学信息文献数据进行分析的方法正受到越来越多业界学者的青睐。人们研究作者合作网络已经有很长时间,使用作者合作网络研究社会结构和科研合作网的影响。通过分析大量医学信息文献数据的科研合作网络发现作者合作网络是一个小世界网络,并具有无尺度特性,作者的中心度与其被引用次数有很大关联。
原数据是采用医学信息中的项目课题,可包含项目题目,项目负责人,项目所在机构,项目申请年份。实验所用关键词数据是从每个项目题目中抽取出来词语,可以看作代表这个项目内容的主题词。抽取规则保证去除一般常用词,每个关键词在每个题目中至多出现一次。
2.2 网络演化分析 在针对真实网络结构和演化行为的实证研究方面证实了科研合作网的统计特性,发现该网络是一个典型的具有幂律分布的小世界网络。其度量节点聚集程度的新指数——集团度,并分析了大量真实网络,发现这些网络都具有幂律的集团度分布。
在关键词网络的研究方面,以医学信息刊物五年的核心期刊的关键词数据研究了共词网络的复杂结构,表明共词网络内存在明显的小世界和无标度现象,统计分析其关键词及其共现关系的增长规律,首次从关键词使用的角度定量地证明了医学科学发展具有创新性和递进性,已有的科学概念是新科学命题产生的知识基础。通过引入网络分析的方法对医学文献数据进行分析的方法正受到越来越多信息研究专家学者的青睐。人们研究作者合作网络已经有很长时间,通过分析不同学科的科研合作网络发现医学理论研究人员喜欢独自或和很少几个人合作发表论文,而医学实验研究人员更喜欢和更多的同行合作。针对中国医学信息期刊大数据的研究发现,作者合作网络是一个小世界网络,因其具有无尺度特性,故作者的中心度与其被引用次数有很大关联。可以从评估结果分析,医学科研机构与其它单位合作发表的论文比例愈高,说明其作者横向科研能力较强。如在国外合作中, 涉及到了的国家和地区愈多, 说明作者在国际横向科研合作方面的能力愈强。然而,针对此类研究还有待进一步加深,对我国医学数字图书馆的机构合作网络分析得出,机构合作网络松散,机构间的合作关系显现出很强的地域性特征,因此,研究机构之间的合作关系网络也有了更广泛的意义。
2.3 数据预处理 采集实验所用的关键词数据是从每个项目题目中抽取出来词语,可以看作代表这个项目内容的主题词。抽取规则保证去除一般常用词,每个关键词在每个题目中至多出现一次。同一个关键词可以出现在多个项目中,不同的项目又可能由不同的研究机构和不同的项目负责人申请,属于不同的领域,这些不同的科研项目、研究机构、项目负责人和研究领域都是这个关键词的相关属性。数据中每条记录代表一篇文献数据中的一个作者,包含文献编号,作者姓名,所属机构。文献编号是一篇文献的唯一标识,包含期刊编号、年份信息和文章编号,从这里可以提取出文献所属期刊以及发表日期,供分析所用。假设机构名称在几年内可能改动,所以将初步机构名称的数据进行合并规范。
首先提取每一篇文献的年份信息,按年份分为十个子集,每个子集包含一年的文献数据。然后,在每一年的数据集中,如果两个作者所属的机构合写了同一篇文章,则这两个机构之间建立了合作关系。以此合作关系可以形成一个机构的科研合作网络。按时间建立十个机构的科研合作网,可分析网络的特性和演化状况。如下图,下面是一个机构科研合作网络,每个点代表一个机构,机构之间的连线代表机构之间有过合作。
图1-1 机构科研合作网络
(图1-2 机构科研合作网络)
2.4 机构合作网络的演化分析 图1-1反映了机构科研合作网的基本统计特征。从分布的节点来看,由于机构数量较多,其中很多在网络中为孤立点,因此连通分量的个数较多。但从孤立点所占比例来看,比大多数年份的孤立点比例要小,而且从最大连通分量的规模来看,也比大部分年份的最大连通分量规模大,说明十年内,机构之间的合作是有所变化和扩展的,每年合作的机构不会完全相同,慢慢的演化成了全网的合作。
2.5 静态特征分析
2.5.1网络结构分析聚集系数(cluster coefficient)通常被用来描述网络的传递性。比如说,在你的联系人关系网络中,你的各个联系人很可能彼此也是有联系的,这种属性成为网络的聚集特性。从实际意义上则认为,它表示假如AB间有一条边,BC间有一条边,则AC间有一条边的概率,公式如下:(注:E表示边,C表示边?,d表示边)
根据公式计算,在10年的医药文献数据集的机构合作网络中,最大的极大团规模与最小的极大团规模之差近2倍,显著高于其他网络,例如电信网络。这表现出机构科研合作网络的局部化特征明显,部分机构之间互相合作非常紧密。
从机构科研合作网络的子图分布与最大子图规模来看,基本保持在50%的机构是相互关联的,这个程度虽不算高,但从网络的孤立点比重来看,相当多的机构则几乎孤立或形成各自的小团体,游离在主团体之外。
由此上述三个特征可以分析出,机构科研合作网络整体上联系比其他网络紧密,但是只限于主要机构间的联系,仍有将近半数的机构习惯于单独发文,不与或很少与其他机构合作。2.5.2 动态特征分析节点度分布:节点的度是最直观的描述一个节点的重要程度的指标之一。结合机构合作网络,它代表了一个机构的学术交流情况。从图1-1展示节点的度分布情况来看,因为每年的机构数量不同,因此将每个节点的度除以总节点数当做机构的合作率,作为统一的衡量指标。在两幅图中都可看出,大部分的点的合作关系非常少。整个网络中,机构的总数是在呈上升趋势,然而机构之间的合作紧密程度却跟不上机构的增加速度。每年有大量新的机构发文,但它们不与其他机构合作,或只是在局部范围内合作。这表明机构合作网络的连接度分布函数也近似呈现幂率分布的特性,表现出它也是一个无标度网络。
3 结论与展望
本文以万方数据近10年间国内的医学文献为研究数据,将大数据环境下医学信息的相关特性进行挖掘及演化分析。从静态和动态两个角度,分析了网络中个体和群体的特征和演化规律。又根据关键词的统计特征发现了项目关键词的分类规律,并从中滤掉有干扰性的领域常用词,进而得到一个特征明显的关键词共现网络,并分析了这个网络的结构特征,发现了关键词共现网络从松散到聚集的发展过程。综合来看,机构科研合作网的合作较其他类网络更紧密,也呈现出非常明显的局部性特征。这个特征既显示出机构科研合作网的科研能力的提升,又显示出机构之间的交流合作仅只限于局部网络,近一半机构不与或很少与其他机构合作。研究发现尽管医学界的科研水平在不断上升,发文量和影响力都在不断扩大。但通过典型机构的分析来看,机构的发文量并非是决定机构影响力的唯一因素,广泛的发文期刊分布一定程度上反映了机构的合作领域的广泛性,而机构的合作机构数量,也就是网络中节点的度更加明确的体现了机构在群体间的影响力和活跃度,这也表明科技应用在医学领域的蓬勃发展。
在以后的研究中,我们将进一步扩大数据源,从更广泛的范围分析我国医学信息领域相关研究机构科研合作的特征,将更多属性引进网络,进行分年份的多维演化分析并展示,从而发现和总结在大数据环境下数据特征及演化规律。
参考文献
[1]汪小帆 .复杂网络理论及其应用___清华大学出版社,2013(1)
[2]Bill Franks .驾驭大数据.北京:人民邮电出版社,2013(1)
[3]张鹏, 王继民, 王建冬. 我国数字图书馆研究论文(2005-2009)的统计分析——社群分析[J].数字图书馆论坛.2010(3-4):120-127
[4]彭奇志.基于SCI的科研机构学术成果评估与实证分析[J].情报杂志,2008,27(9)
[5]张鹏, 王继民, 王建冬. 我国数字图书馆研究论文(2005-2009)的统计分析——社群分析[J].数字图书馆论坛.2010(3-4):120-127