利用开放数据进行心理学研究

黄梓航 1,2,3王可4 蔡华俭 1,2,3   2018-09-14 10:02:54

(1 中国科学院心理研究所行为科学重点实验室,北京,100101)

(2 中国科学院心理研究所人格与社会心理研究中心,北京,100101)

(3 中国科学院大学,北京,100049)

(4 武汉大学哲学学院心理学系,武汉,430072)

摘要 在开放运动的潮流下,不同领域纷纷发布公众可以免费获取、自由使用的开放数据,其中不乏反映人类方方面面的大数据,为心理学研究提供崭新的资料。为了促进研究者对这些数据库的利用,本文对大量现有的具有心理学研究潜力的公开数据库进行了搜集和整理,介绍了通过数据搜索引擎、数据综合门户、专业领域数据集和已有的调查项目四种获取开放数据的途径,列举包括基因、神经、自然环境、社会环境等九大专业领域中利用开放数据展开心理学研究的范例。开放数据具有样本巨大多样,分析灵活,执行高效经济等优点,同时也面临数据重用的可靠性、心理、规范与技术方面的挑战。

1 引言

长期以来,几乎所有的科学研究数据都是封闭的、“一次性”的。一旦某个课题完成,数据也就束之高阁,无人问津。这不仅限制了数据的价值,也导致大量相关研究停留于低水平的重复,造成资金和人力的极大浪费。心理学领域同样如此:《Nature》曾刊文指出,心理学研究缺少公开数据的传统,不利于学科的积累和发展 (“A fair share”, 2006)。近些年来,在“开放获取”、“开放数据”等呼吁的推动下,越来越多的研究者和组织主动公开数据,以供研究者利用这些数据进行研究。

比如,由政府部门、各学科、不同组织机构所开放的许多公共数据就可以帮助我们探索人类许多心理与行为规律及其影响因素。目前看来,国内心理学研究者对公共数据的利用尚不足够,造成这种情况的一种可能原因是研究者不知道世界范围内有哪些可供利用的公开数据,也不知道如何获取和利用这些数据进行研究。鉴于此,本文拟对现存的、世界范围内的、对人类心理与行为研究有潜在价值的公开数据源进行收集整理,并分门别类地进行介绍。基于此,我们还将通过诸多发表的经典研究实例,详细介绍如何获取各种开放数据,并利用这些数据进行研究。最后,我们对利用开放数据进行研究的优点、局限以及有关技术问题进行讨论。我们期待本文能够激发越来越多的研究者利用公开数据来开展心理学研究。

2 开放数据简介

开放数据(Open Data)源起于科学研究和创新的诉求。最早对开放科学数据的提议,可追溯到1957-1958 年间举办的国际地理物理年会(International Geophysical Year)所建构的 World Data Center 系统(Minster, Campbell, Dozier, Fleming, Gille, Hartmann, & Thompson,2007)。21世纪初,互联网的发展与普及使数据的刊出与获取代价大大降低,彻底改变了开放科学数据的环境。伴随着日益自由开放的理念推动,全球掀起了开放获取(Open Access)、开放源代码 (Open Source) 等一系列开放运动。虽然开放获取的期刊和数据库取得了很大进步, 但仍然无法满足人们的需要,因为其大多只报告结果而不提供原始数据,不可重复使用(Murray-Rust, 2008)。而人们上传开放数据的一个显要目的是实现互操作性(interoperability)(Miller, Styles, & Heath, 2008),即不仅在两个或多个系统或组成部分之间交换信息,还可以对已交换的信息加以使用。除了为提升学术上的互操作性,公民对政治日益增强的参与意识也推动各国政府部门开放数据(谭健, 2011)。正是出于让数据具有更多再使用性与公开性的愿景,开放数据蓬勃发展。

“开放数据”目前尚无统一的定义,不同的组织、机构有不同的理解。简单地说,“开放数据”是运用“大数据”(Big Data)技术,将公共数据集成于“公共数据系统”(Public Data Set),通过特定的在线平台,免费向公众开放(吴伟强, 吴安琪, 杨婧雯, 2014)。例如,当你浏览天气预报或使用全球定位系统(GPS)时,你就在使用开放数据。值得注意的是,开放数据与大数据不同:大数据的数据资源通常是无方向而且保密的,而开放数据是有目的性且公开的——由相关组织主动发布,人们可以依个人目的进行使用、分析和应用(Gurin, 2014)。

我国各类图书馆、科技信息研究机构从2001年起尝试搭建科学数据开放共享服务平台,科技部将中国气象局作为科学数据共享的第一个试点(李慧佳, 马建玲, 王楠, 王思丽, 张秀秀, 2013)。发展到2014年,中国在开放数据指数排名中位居全球第57位(Open Knowledge, 2015),然而无论源自中国政府部门还是城市的开放数据,目前都未明确开放许可(Open License),即没有给出可以合法自由地使用数据的权利声明。在开放数据的道路上,中国刚刚起步。但越来越多的开放数据项目与平台,如中国综合社会调查(China General Social Survey)、国际科学数据服务平台(http://datamirror.csdb.cn/)等,正日益受到学者的重视,具有极大的研究潜力。

3 开放数据的获取

开放数据种类广泛,既包括人类微观的基因、神经环境,也涵盖宏观的社会生态环境,如文化艺术、科学、经济金融、自然环境、统计部门数据等等。通过将各领域的开放数据与心理、行为指标结合,现已诞生诸多充满前景的研究方向,如新兴的基因神经文化学(Kitayama & Uskul, 2011; Minkov, Blagoev, & Bond, 2014)、社会生态心理学(窦东徽,石敏,赵然,刘肖岑,2014; Oishi, 2014)等。这些领域借助跨领域数据,正在逐步揭示基因、神经、个体和社会生态环境等因素如何互相影响、相互塑造。获取开放数据通常有四种方法:使用专门的数据搜索引擎、浏览数据综合门户、选定数据所属的专业领域和利用已有的调查项目。下面我们对这些途径分别予以介绍。

3.1 数据搜索引擎

通过数据搜索引擎获取数据是网络时代最为常用和便捷的一种方式。这里,我们整理了常用的开放数据搜索引擎,并呈现在表1中。

2 综合领域数据门户

3.2.1 国际或地区组织的开放数据门户

许多国际组织在其网站上都提供既能在线交互式分析,又能下载储存的数据,其范围往往涵盖世界上诸多国家的多种方面,包括人口性别比、贫富状况、社会发展和气候变化等,各组织又有不同的侧重,列举如下(表2)。

3.2.2 我国各级机关部门开放数据门户

中华人民共和国国家统计局(http://data.stats.gov.cn/) 是我国综合数据领域集成门户中最为全面的开放数据门户之一,既提供月度、季度、年度、普查、地区这类按时间、空间分类的数据,也提供按主题分类的13个部门数据,包括就业及社会保障、卫生和社会服务、文化和体育、科技等部门,并提供了可以导出下载的电子版统计年鉴。除此之外,还有一些地区、地方等级的开放数据门户,列举如下。

3.2.3 其他主流国家各级机关部门开放数据门户

在全球广泛的开放政府运动影响下,越来越多的国家、城市的各级行政部门将数据向公众开放,这些数据在相应的政府网站中可以找到。下表列举一些国家或组织的开放数据门户。

3.3 专业领域数据门户

不同的学科内部往往有专属的数据分享平台,可根据需要深入特定领域。以下根据目前心理学的研究热点,简要介绍几大常见的领域。

3.3.1 基因类的数据

人类基因数据可谓是开放共享中的领头羊,具有革命性的价值(Kaye, Heeney, Hawkins, De Vries, & Boddington, 2009)。其中,国际人类基因组单体型图计划(The International HapMap Project)就是从开放数据中受益良多的典型案例(Manolio, Brooks, & Collins, 2008)。

3.3.2 脑与神经类的数据

神经科学的数据分享与开放程度很高,脑成像是其中最有代表性的领域。目前,有许多专门介绍这些数据库的文献(Poline, Breeze, Ghosh, Gorgolewski, Halchenko, Hanke, & Marcus,2012; Van Horn, Grafton, Rockmore, & Gazzaniga, 2004; Van Horn & Ishai, 2007; Van Horn & Toga, 2009)。2014年,在线的磁共振成像数据库就有超过8000个(Poldrack & Gorgolewski, 2014);同年12月,《Nature》子刊《Neuroscience》以大数据为主题(Focus on big data)深入讨论了包括开放数据在内的大数据对神经科学的意义与应用。神经科学不仅开放数据,还在规范、整合、管理、计算共享等方面做出了许多尝试,并开发出了许多相应的软件、社区或平台(Das, Zijdenbos, Harlap, Vins, & Evans, 2011; Dinov,Lozev, Petrosyan, Liu, Eggert, Pierce,& Parker,2010; Halchenko & Hanke, 2012; Keator et al., 2013),值得其他领域学习。

3.3.3 自然环境的数据库

已有研究发现,地理、气候和灾害等自然环境的差异影响着许多人类心理变量(Oishi, 2014; 窦东徽,石敏,赵然,刘肖岑,2014),而背后的机制还有待深入的探索。下表列出了相关领域的常用数据库。

3.3.4 人口与社会环境数据库

列举常用的以人口、社会环境为主题的研究数据库如下。

3.3.5 政治方面的数据库

政治影响着社会生活的各个层面,同样也是心理学的研究对象之一。下表列出了常用的政治相关的开放数据库。

3.3.6 经济方面的数据库

在以经济为主题的数据库中,列举常用的开放数据库如下。

3.3.7 文化方面的数据库

除了综合数据门户中的教育部、文化部等政府部门,还有一些组织或项目提供了具有特色的反映文化的开放数据,列举如下。

3.3.8 卫生类的数据库

列举世界范围内知名的卫生类数据库如下。

3.3.9 网络类的数据库

数据挖掘是收集网络数据的一大途径。随着社交网络等平台的兴起,用户产生的数据也成为了分析对象。如斯坦福大学的SNAP项目就提供了相关的社会网络数据。除此之外,各大网络公司也陆续开放了各自平台上用户的宏观数据。

3.4 调查研究项目数据

一些规模较大的研究项目往往会建立专门的网站持续更新其调查进展与数据。下面,我们对一些较为著名的项目予以介绍。

3.4.1 世界范围调查研究项目数据

世界范围内的研究项目经常分散在国际组织数据综合门户或社会科学领域数据门户之中,这里列举历史较为悠久的两个:1985年开始的国际社会科学项目(International Social Science Program, ISSP)(http://www.issp.org/) 与1981年开始的世界价值观调查 (World Values Survey)(http://www.worldvaluessurvey.org/wvs.jsp)。

3.4.2 亚洲调查研究项目数据

亚洲范围内的调查相关数据库列举如下。

由于开放数据正在不断发展之中,以上所覆盖的只是冰山一角,相关的专著也在跟进,如《Data Source Handbook》(Warden, 2011)等数据手册。未来我们期待有能够更全面地整合这些资源的平台,以使不同领域的开放数据更加方便查找。

4 以从专业数据库展开的心理学研究为例

在获取开放数据后,如何利用这些数据进行心理学研究呢?在此,我们以从专业数据库展开的心理学研究为例,做简单的举例介绍。

4.1 基因类

在人类基因库的综合资源平台中,最常用的为美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI) (http://www.ncbi.nlm.nih.gov/)。如Wolock等(2013)利用其中的Gene Expression Omnibus数据库,发现吸烟会调节特定精神障碍基因的表达。此外,一些主题性或特色性的项目也经常被使用,如研究者通过分析1000 Genomes Project(http://www.1000genomes.org/data)中的人类全基因组数据,探索嗅觉受体基因与HLA基因的单核苷酸多态性(Ignatieva, Levitsky, Yudin, Moshkin & Kolchanov, 2014)。

4.2 脑与神经类

在综合类数据库中,最为有名的是1000 Functional Connectomes Project (http://fcon_1000.projects.nitrc.org/fcpClassic/FcpTable.html),有研究者利用其提供的大样本很好地回答了争议已久的性别的脑差异问题(Joel, Berman, Tavor, Wexler, Gaber, Stein, & Liem,2015)。人类连接组项目(Human Connectome Project)(http://www.humanconnectome.org/)也经常被使用,如研究者利用其中不同的人口群体样本来探索结论的适用范围(Kochunov, Thompson, Winkler, Morrissey, Fu, Coyle, & Sampath,2016),或利用其检验新分析方法的有效性(Kammen, Law, Tjan, Toga & Shi, 2016)。

4.3 自然环境类

在社会生态心理学取向的研究中,多数都使用了公开数据来量化生态变量。如Vliert等(2013)在讨论中国不同省份的气候与其个人主义-集体主义水平的关系时,就使用了中国气象数据网(data.cma.cn)提供的公开数据作为各个省份气候的数据源。Grossmann等(2015)则使用了国际灾害数据库(www.emdat.be/database)作为美国各州灾害数量的数据源,探究其与文化变迁之间的关系(也见Santos,Varnum, & Grossmann, 2017)。

4.4 人口与社会类

在研究人与城市、社会的关系时,研究者们也常常用到公开数据。例如,Miyamoto等(2006)在探寻不同文化的物理环境时,就参考了美国人口统计局(www.census.gov)和日本总务省统计局(www.stat.go.jp)的人口数据, 以及美国参考网(www.referenceusa.com)和日本信息网(itp.ne.jp)的地点数据。 Pollet和Nettle(2008)则用IPUMS(Integrated Public Use Microdata Series, https://usa.ipums.org/usa/)所提供的统计数据作为美国各州性别比例的指标,来研究性别比例和择偶偏好之间的关系。

4.5 政治类

有研究者认为,国家的民主程度与个体层面的心理特征之间存在联系(Inglehart & Baker, 2000)。在其所提出的现代化理论中,Inglehart认为,民主之所以能够提升个人的幸福感,是因为民主的政体让国民有了自由选择的权利。相关的使用世界价值观调查(worldvaluessurvey.org)为数据源的研究也证明了这一观点(Inglehart, Foa, Peterson, & Welzel, 2008)。

4.6 经济类

已有研究利用开放数据证实了宏观经济与个人行为之间的关系。例如,Hill等人(2012)发现,在经济衰退时期,女性用于化妆品的消费反而会增加。在研究中,他们使用了来自美国劳工部(www.bls.gov)的失业率数据和来自美国人口统计局的消费数据来作为经济和女性消费的数据来源。

4.7 文化类

在这里,Google Books Ngram项目(http://books.google.com/ngrams)特别值得一提,它是基于过去五个世纪中八百余万图书、几千亿单词的语料库,反映了语言、文学、文化随时间的变迁,包括8种语言(Lin, Michel, Aiden, Orwant, Brockman, & Petrov, 2012),并在不断扩大,已经成为心理学研究文化差异、文化变迁的强大工具(Hamamura & Xu, 2015;Greenfield, 2013; Grossmann & Varnum, 2015; Oishi, Graham, Kesebir, & Galinha, 2013; Zeng & Greenfield, 2015)。

4.8 卫生类

疾病对人类文明的进程有着深远的影响(贾雷德·戴蒙德,2006)。卫生类的开放数据能够帮助我们更好地理解这一关系。借助全球流行病和传染病在线网络(www.gideononline.com),Fincher等(2008)发现,传染病的盛行程度和集体主义呈正相关关系。他们认为这是因为集体主义清晰的内外群体划分可以在一定程度上抵御外来疾病。

4.9 网络类

除了参考对Facebook, Twitter, LinkedIn与Google+等常用的社交网站进行数据挖掘的方法,亲自进行数据收集外(Russell, 2013),也有研究者直接利用斯坦福大学的SNAP项目(http://snap.stanford.edu/data/)中已采集好的数据,比如揭示facebook社区中的反社会行为(Cheng, Danescu-Niculescu-Mizil & Leskovec, 2015)。

5 开放数据用于研究的优点与局限

5.1 开放数据用于研究的优点

5.1.1 更大量多元的样本

面对时间、空间、经济等诸多客观条件的限制, 一般研究通常只能对有限数量的被试进行研究, 即使是所谓的“大样本”, 样本量其实也非常有限。同时,因为研究者亲自收集多样化样本往往需要耗费较高的研究成本,故当下许多心理学研究采用方便取样,被试几乎都是在校大学生,且往往是具有西方文化(western)、受教育程度较高(educated)、工业化(industrialized)、富裕(rich)且民主(democratic)特点的群体(Henrich, Heine, & Norenzayan, 2010a)。这种取样不仅有同质性较高的问题,更值得注意的是这一群体远远无法代表所谓的“普通人”:综合比较视知觉、公平、合作、空间推理、分类和演绎推理、道德推理、自我概念、动机以及智力遗传性等各方面表现,结果都表明他们和人口中其他95%的人存在显著差别(Henrich, Heine, & Norenzayan, 2010b),这对研究结果的解释与推广造成很大的限制。相比之下, 来自行政部门、专业机构,或是大规模调查项目的开放数据,往往包含数量庞大的被试,调查对象覆盖全国甚至全球各地,涵盖各年龄、种族、社会地位等类别。如中国家庭追踪调查2010年的调查样本分布在我国25个省/市/自治区,规模为16000户。而世界价值观调查所覆盖的国家或地区现已包含全球至少90%的人口,每个国家或地区至少有1000人以上的样本,至今累计有近四百万个回答者(World Values Survey, 2015)。如此大规模、多元的样本对过去大多数研究几乎是不可想象的, 但在人人可以共享开放数据的今天,这种“大数据”的便利就已经触手可及。大数据时代下心理学研究甚至有希望让“样本即是整体”,从而不再需要过多的元分析(喻丰, 彭凯平, 郑先隽, 2015),而开放数据的使用可以加快这一天的到来。另一方面,目前心理学正面临着可重复性的危机。开放科学组织(Open Science Collaboration, 2015)对2008年发表的一百项心理学实验研究进行的重复实验表明,其中仅有68%的研究结论成功被重复。使用公开数据也能够通过提高样本数量和代表性来增加结论的可信度。

5.1.2 更灵活准确的分析

调查项目中往往包含诸多问题,这给研究者从不同角度利用这些问题提供了巨大的空间。一方面,相比直接发放问卷测量欲测变量,从开放数据的调查项目中选择想要分析的变量更能避免被试对研究目的的猜测而产生要求特征等问题。例如研究主观幸福感的影响因素时,如果直接在测主观幸福感问卷前后问“金钱对你有多重要”,很可能受社会称许性的影响,而选择其他调查数据项目之中间接反映金钱相关价值观的问题来分析应该更为真实(Ng & Diener, 2014)。另一方面,题目的多样性允许研究者根据研究目的更灵活地做出选择和解读。基于世界价值观问卷,Inglehart和Welzel提出描述价值观的广为接受的传统-理性维度(Traditional-Rational Index)(Inglehart & Welzel, 2005),不过,也有研究者质疑其并不适用于描述中国的价值观,继而用儒家文化视角对问卷中问题的重新分析,基于其中的问题构建出新的更能体现中国文化特点的儒家人际关系指数(Confucian Index of Interpersonal Relations)(Gu, 2013)。可见,开放数据能够让研究者们更加灵活地选取研究视角,构建理论。

专业领域的开放数据,相比旧有笼统的结果报告,其内容更加全面,细节越来越多,这对进行更为精确的分析非常有利。以传染病对心理影响的研究为例:过去受限于关于传染病流行度有限而模糊的数据,在对其统计时仅能较为简单地编码(Gangestad & Buss, 1993; Low, 1990),而今越来越多的传染病的感染率、死亡率等数据都可以通过查找相关的开放数据获得,数据记录下更多细节,如从过去整个国家层面细化到省份甚至县城,且被保存为便于分析处理的格式。传染病的数据已可以参与更为严格的统计分析,如对文化变迁的影响(Grossmann & Varnum, 2015)。类似地,描述灾害、地理环境、气候等等社会生态系统各方面更加详细、易获取的开放数据,将极大地深化与拓展对人类与环境关系的研究(如Van de Vliert, Yang, Wang & Ren, 2013)。

5.1.3 更高效经济的研究

如果能借助已有的开放数据,避免重复测量或无效测量,在其基础上更有针对性地收集数据,无疑可节省大量研究所需的经济、时间、精力等成本,克服个别独立的小型数据集或小规模测量的局限,取得更满意的研究结果。特别是在脑成像的研究中,数据获取的经济成本与用于管理数据的时间成本都十分巨大。一些常见的临床研究中,往往需要健康的控制组被试数据,而这一资源在网上的开放数据中完全可以找到,那么就无需重复收集,从而更合理地分配资源(Poline, Breeze, Ghosh, Gorgolewski, Halchenko, Hanke, & Marcus, 2012)。考虑到我国心理实验室的设备较为落后,许多国内一流的心理学系也面临实验室空间不够、设备不足等问题(王娱琦, 余震坤, 罗宇, 陈杰明, 蔡华俭, 2015),诸如脑成像、基因等开放数据的使用将对相关的教学、研究非常有益。

开放数据除了如上所述能加快研究进展,优化资源分配以外,还可以使被试的贡献最大化,激发新的研究问题,用于测试新的分析方法,提高出版与数据的质量,增加引用率,满足对可重复性的需求,更好地达到研究资助机构的初衷,促进科学界形成互相信任、欣赏、合作的文化氛围(Gomez-Marin, Paton, Kampff, Costa, & Mainen, 2014; Molloy, 2011; Piwowar & Vision, 2013; Poldrack & Gorgolewski, 2014; Poline,Breeze, Ghosh, Gorgolewski, Halchenko, Hanke, & Marcus, 2012)。总而言之,其优点十分明显。

5.2 开放数据用于研究的局限

5.2.1 数据重用信效度难保障

一些公开数据所测的心理变量并未使用严格编制的心理学量表,或数据反映的问题与所欲研究的变量不完全相同,或由于使用者不了解数据的准确含义,使其应用于具体研究时,信效度难以保障。如世界价值观调查中对“信任”价值的测量仅使用了一道题目,即“一般来说,您认为大多数人是可以信任的,还是和人相处要越小心越好?”,这引起研究者对其可靠性的怀疑。虽然研究者将之对比各国人在实验室信任博弈任务中的表现差异,发现结果支持世界价值观调查中这一题目的有效性(Johnson & Mislin, 2012),但这一题目中“大多数人”所包含的具体范围对不同国家的人却有所不同:儒家文化国家的人对“大多数人”的范围理解得比其他文化中的人更小,而富裕国家比贫穷国家的人对该范围理解得更大(Delhey, Newton, & Welzel, 2011),这意味着如果控制其代表的范围后再比较人际信任感的话,各国的排名会有很大改变,而以往许多研究不加控制地比较这一结果。此外,由于跨领域地使用公开数据,加之一些数据缺乏相应的说明,研究者对数据所代表的实际含义可能产生误解。如有研究者(Ruan, Xie, & Zhang, 2014)批评“大米理论”(Talhelm, Zhang, Oishi, Shimin, Duan, Lan, & Kitayama,2014)在使用中国国家专利局提供的专利登记所在地数据时,没有考虑到许多专利以大学或研究机构所在地登记,而不是“大米理论”研究者以为的按专利申请人出生时所在的省份登记。在排除大学或研究机构注册的专利地点这一可能的干扰变量后,分析结果不再符合“大米理论”的预测。同样地,对于实验数据,由于不同实验室有不同的收集条件、分析方法,互相比较可能会产生混淆(Gomez-Marin, Paton, Kampff, Costa, & Mainen, 2014)。

5.2.2 心理、规范与技术的挑战

目前开放数据本身主要面临研究者心理上分享数据的动机不足,道德、行业、法律规范不成熟,技术待普及、待完善这三方面的挑战,阻碍了其在研究中的使用。

在心理层面,许多研究者缺乏分享数据的动机,造成大量研究数据没有开放(Wicherts, Borsboom, Kats, & Molenaar, 2006)。一些研究者担心把数据开放后,同行会抢先把成果发表,或数据被人重新分析以挑战原来的发现或解读,甚至怕研究工具不先进,让外界看到由此得到的数据后担心不够有竞争力(Poline, Breeze, Ghosh, Gorgolewski, Halchenko, Hanke, & Marcus,2012)。事实上,对那些不愿分享数据的研究,即便已得到出版,其数据仍可能存在问题。如国外研究者发现,那些不愿分享数据的心理学研究相比开放数据的研究,重新分析后显示出更多错误(Wicherts, Bakker, & Molenaar, 2011),或钻了更多心理学“游戏规则”的漏洞,如使用小样本而非大样本以使结果显著、发表偏倚等(Bakker, van Dijk, & Wicherts, 2012)。

在规范层面,道德、行业及法律上尚未形成共识。对于以人类为对象的研究,道德上的争论一直存在,特别是基因、脑成像等数据,都可作为个人身份的识别码,所以往往涉及如何平衡个人隐私与公众利益的问题(Boulton, Rawlins, Vallance, & Walport, 2011)。尽管隐私安全问题在技术上可以得到解决,但开放数据使被试的信息在不同研究中使用,可能违背其最初签订的知情同意书,且难以通过伦理审查委员会的审批(Poline,Breeze, Ghosh, Gorgolewski, Halchenko, Hanke, & Marcus,2012)。科学行业内,我国由于数据开放方面发展起步较晚,至今政府并未出台完整、系统的科学数据开放获取政策,而如国家自然科学基金委员会等科研资助机构对科研成果开放也没有明确的规定,种种原因使我国科学数据的开放获取还没有形成规模(李慧佳,马建玲, 王楠, 王思丽, 张秀秀,2013)。未来不仅该鼓励科学家们开放研究数据,更应该设立制度给予奖励,并且制定统一规范的数据分享标准(Gomez-Marin,Paton, Kampff, Costa, & Mainen, 2014)。同时,法律许可也应跟进,因为对我国目前已经开放的数据,许多并没有开放许可,声明任何人都可以自由地使用(Open Knowledge, 2015)。

在技术层面,无论是对数据的开放者,还是对数据的获取者,都存在技术知识普及上与实际操作上的阻碍。一些研究者对开放数据必要的技术手段(如ftp/sftp, http/https, choice of infrastructure)或原则(如“潘顿原则”(Panton Principles))(Molloy, 2011)了解不足,或不清楚自己的数据集如何与元数据(metadata)相连接,使得其他人难以找到分享的数据(Poline, Breeze, Ghosh, Gorgolewski, Halchenko, Hanke, & Marcus,2012),这对数据获取者意味着开放数据的可检索性、可发现性、可解释性与可重新利用性都比科学文献更低(李慧佳,马建玲, 王楠, 王思丽, 张秀秀,2013)。在科学领域之外,对于各级政府、各大职能部门,虽然它们都有开放的数据和信息平台,可是其数据同样基本处于不精确、不完整、分散化分布的状态,这种信息“碎片化”阻碍着开放数据的获取(吴伟强,吴安琪,杨婧雯,2014)。不过这一问题正逐步得到解决,如神经科学领域已不仅要求开放数据,还进一步提供对开放数据整合、计算的工具或平台(Das,Zijdenbos, Harlap, Vins, & Evans,2011; Dinov,Lozev, Petrosyan, Liu, Eggert, Pierce,& Parker,2010; Halchenko & Hanke, 2012; Keator,Helmer, Steffener, Turner, Van Erp, Gadde, & Nichols,2013),同时开放知识基金会(Open Knowledge Foundation)等组织也在为各领域都能实现这一目标而努力(Molloy, 2011)。我国中科院搭建的国际科学数据服务平台(http://datamirror.csdb.cn/)也初具规模(杨友清,陈雅, 2014)。在心理学体系内,也有研究者开始搭设用于共享实验设计和数据的开放平台(如Gureckis,Martin, McDonnell, Rich, Markant, Coenen, & Chan,2015; Rouder, 2016)。

6 总结与展望

源于对科学研究与创新的诉求,开放数据在上世纪中期被提出,而在本世纪初伴随一系列互联网开放运动蓬勃发展,在技术、政府等多方推动下,呈现出更加丰富、更加细致、更加开放的趋势。研究者可以通过专门的数据搜索引擎、数据综合门户、专业数据领域、已有的调查项目在各领域的开放数据中寻找或结合心理与行为指标,进行更为高效、经济、更具生态效度与可重复性的心理学研究。

相比国外大量的开放数据库以及借助其发表的大量心理学研究, 国内心理学研究者对利用开放数据进行心理学研究还远没有足够重视,更未发挥出其巨大的潜能。国内开放数据快速增多的趋势,意味着将其用于心理学研究存在巨大的发展空间。其样本的巨大多样性,分析的灵活准确性,执行的高效经济性等诸多优点预示着其广阔的发展前景。然而,它还面临着数据重用质量难以保证的风险,以及研究者心理障碍、道德与法律规范、技术层面的挑战,需要多学科、多部门的通力合作,为解放其在研究中的应用潜力铺平道路。

《重塑发现》(Reinventing Discovery)一书的开头写到: “历史学家们从现在回溯一百年,会发现两个科学时代:前网络科学时代和网络科学时代” (Nielsen, 2012)。伴随着网络科学时代的到来,“数据密集型科学”已被学者认为是继实验、理论、计算模拟后的第4科学研究范式,而发展数据科学的主要阻力在于缺乏工具,以及开发这些工具的巨大成本(Hey, Tansley, & Tolle, 2009)。开放数据具有成为突破这一阻力的强大工具的潜力,它使科学研究不再闭门造车,而是开启了开放式创新(Open Innovation)的平台,这能够加快研究进程,增进创新速度(Gurin, 2014)。心理学作为行为科学的重要分支,将受惠于维度更广、描述更细、生态效度更高的大行为数据(Big Behavioral Data),从而进一步解读行为背后的基因、神经、解剖、环境等因素纷繁交错而成的织锦,但也需提出新的理论框架与实验设计来与之适应(Gomez-Marin, Paton, Kampff, Costa, & Mainen,2014)。面对开放数据这一新生事物,我们应直面它并驾驭它,让它为心理学研究带来新的力量。我们也呼吁更多研究者把自己的研究数据变为开放数据,相关机构尽快建立制度规范数据开放。国外许多学者正在为促进行为科学领域的数据分享做出尝试(Sablonnière, Auger, Sabourin, & Newton, 2012),而我国的心理学者们也该行动起来,共同促进并见证网络科学时代带给心理学的无边而崭新的可能性。

参考文献

窦东徽, 石敏, 赵然,刘肖岑 (2014). 社会生态心理学:探究个体与环境关系的新取向. 北京师范大学学报(社会科学版)(05), 43-54.

贾雷德·戴蒙德. (2006). 枪炮, 病菌与钢铁: 人类社会的命运. 谢延光译,[上海] 上海译文出版社 2008 年版.

李慧佳, 马建玲, 王楠, 王思丽, 张秀秀 (2013). 国内外科学数据的组织与管理研究进展. 图书情报工作, 57(23), 130-136.

谭健 (2011). 开放数据及其应用现状. 图书与情报(4), 42-47.

王娱琦, 余震坤, 罗宇, 陈杰明,蔡华俭 (2015). 利用网络进行心理学研究: 西方与中国概况. 心理科学进展, 3, 015.

吴伟强, 吴安琪, 杨婧雯 (2014). “开放数据”(Open Data) 的基本逻辑——以 NYC Open Data 为样本. 浙江工业大学学报: 社会科学版, 13(4), 388-393.

杨友清, 陈雅 (2014). 科学大数据共享研究: 基于国际科学数据服务平台. 新世纪图书馆(3), 24-28.

喻丰, 彭凯平, 郑先隽 (2015). 大数据背景下的心理学: 中国心理学的学科体系重构及特征. 科学通报 (中文版), 60(5/6), 520-533.

张云泉, 徐葳, 龙桂鲁 (2015). 数据科学: 问题导向的交叉学科创新. 科学通报 (中文版), 60(5/6), 425-426.

A Fair Share. (2006). Nature, 444(7120), 653-654. Retrieved from http://dx.doi.org/10.1038/444653b

Bakker, M., van Dijk, A., & Wicherts, J. M. (2012). The rules of the game called psychological science. Perspectives on psychological science, 7(6), 543-554.

Boulton, G., Rawlins, M., Vallance, P., & Walport, M. (2011). Science as a public enterprise: the case for open data. The Lancet, 377(9778), 1633-1635.

Cheng, J., Danescu-Niculescu-Mizil, C., & Leskovec, J. (2015, April). Antisocial Behavior in Online Discussion Communities. In Ninth International AAAI Conference on Web and Social Media.

Chiao, J. Y., & Blizinsky, K. D. (2009). Culture-gene coevolution of individualism-collectivism and the serotonin transporter gene. Proceedings of the Royal Society B: Biological Sciences, rspb20091650.

Das, S., Zijdenbos, A. P., Harlap, J., Vins, D., & Evans, A. C. (2011). LORIS: a web-based data management system for multi-center studies. Frontiers in neuroinformatics, 5, article 37.

Delhey, J., Newton, K., & Welzel, C. (2011). How general is trust in “most people”? Solving the radius of trust problem. American Sociological Review, 76(5), 786-807.

Dinov, I., Lozev, K., Petrosyan, P., Liu, Z., Eggert, P., Pierce, J.,... & Parker, D. S. (2010). Neuroimaging study designs, computational analyses and data provenance using the LONI pipeline. PloS one, 5(9), e13070.

Fincher, C. L., Thornhill, R., Murray, D. R., & Schaller, M. (2008). Pathogen prevalence predicts human cross-cultural variability in individualism/collectivism. Proceedings of the Royal Society of London B: Biological Sciences, 275(1640), 1279-1285.

Gangestad, S. W., & Buss, D. M. (1993). Pathogen prevalence and human mate preferences. Ethology and sociobiology, 14(2), 89-96.

Greenfield, P. M. (2013). The changing psychology of culture from 1800 through 2000. Psychological science, 24(9), 1722-1731.

Gomez-Marin, A., Paton, J. J., Kampff, A. R., Costa, R. M., & Mainen, Z. F. (2014). Big behavioral data: psychology, ethology and the foundations of neuroscience. Nature neuroscience, 17(11), 1455-1462.

Grossmann, I., & Varnum, M. E. (2015). Social structure, infectious diseases, disasters, secularism, and cultural change in America. Psychol Sci, 0956797614563765.

Gu, M. L. (2013). Inglehart‐Welzel's Traditional vs. Rational index revisited: A comparison between China and the West. Asian Journal of Social Psychology, 16(3), 213-227.

Gureckis, T. M., Martin, J., McDonnell, J., Rich, A. S., Markant, D., Coenen, A.,... & Chan, P. (2015). psiTurk: An open-source framework for conducting replicable behavioral experiments online. Behavior research methods, 48(3), 829-842.

Gurin, J. (2014). Open data now: the secret to hot startups, smart investing, savvy marketing, and fast innovation: McGraw Hill Education.

Halchenko, Y. O., & Hanke, M. (2012). Open is not enough. Let's take the next step: an integrated, community-driven computing platform for neuroscience. Frontiers in neuroinformatics, 6, article 22.

Hamamura, T., & Xu, Y. (2015). Changes in Chinese culture as examined through changes in personal pronoun usage. Journal of Cross-Cultural Psychology, 46(7), 930-941.

Henrich, J., Heine, S. J., & Norenzayan, A. (2010a). Most people are not WEIRD. Nature, 466(7302), 29-29.

Henrich, J., Heine, S. J., & Norenzayan, A. (2010b). The weirdest people in the world? Behavioral and brain sciences, 33(2-3), 61-83.

Hey, T., Tansley, S., & Tolle, K. M. (2009). Jim Gray on eScience: a transformed scientific method.

Hill, S. E., Rodeheffer, C. D., Griskevicius, V., Durante, K., & White, A. E. (2012). Boosting beauty in an economic decline: mating, spending, and the lipstick effect. Journal of personality and social psychology, 103(2), 275-291.

Ignatieva, E. V., Levitsky, V. G., Yudin, N. S., Moshkin, M. P., & Kolchanov, N. A. (2014). Genetic basis of olfactory cognition: extremely high level of DNA sequence polymorphism in promoter regions of the human olfactory receptor genes revealed using the 1000 Genomes Project dataset. Frontiers in psychology, 5, 247.

Inglehart, R., & Baker, W. E. (2000). Modernization, cultural change, and the persistence of traditional values. American sociological review, 65, 19-51.

Inglehart, R., Foa, R., Peterson, C., & Welzel, C. (2008). Development, freedom, and rising happiness: A global perspective (1981-2007). Perspectives on psychological science, 3(4), 264-285.

Inglehart, R., & Welzel, C. (2005). Modernization, cultural change, and democracy: The human development sequence: Cambridge University Press.

Joel, D., Berman, Z., Tavor, I., Wexler, N., Gaber, O., Stein, Y.,... & Liem, F. (2015). Sex beyond the genitalia: The human brain mosaic. Proceedings of the National Academy of Sciences, 112(50), 15468-15473.

Johnson, N. D., & Mislin, A. (2012). How much should we trust the World Values Survey trust question? Economics Letters, 116(2), 210-212.

Kammen, A., Law, M., Tjan, B. S., Toga, A. W., & Shi, Y. (2016). Automated retinofugal visual pathway reconstruction with multi-shell HARDI and FOD-based analysis. Neuroimage, 125, 767-779.

Kaye, J., Heeney, C., Hawkins, N., De Vries, J., & Boddington, P. (2009). Data sharing in genomics—re-shaping scientific practice. Nature Reviews Genetics, 10(5), 331-335.

Keator, D. B., Helmer, K., Steffener, J., Turner, J. A., Van Erp, T. G., Gadde, S.,... Nichols, B. N. (2013). Towards structured sharing of raw and derived neuroimaging data across existing resources. NeuroImage, 82, 647-661.

Kitayama, S., & Uskul, A. K. (2011). Culture, mind, and the brain: Current evidence and future directions. Annual review of psychology, 62, 419-449.

Kochunov, P., Thompson, P. M., Winkler, A., Morrissey, M., Fu, M., Coyle, T. R.,... & Sampath, H. (2016). The common genetic influence over processing speed and white matter microstructure: Evidence from the Old Order Amish and Human Connectome Projects. NeuroImage, 125, 189-197.

Lin, Y., Michel, J. B., Aiden, E. L., Orwant, J., Brockman, W., & Petrov, S. (2012, July). Syntactic annotations for the google books ngram corpus. In Proceedings of the ACL 2012 system demonstrations (pp. 169-174). Association for Computational Linguistics.

Low, B. S. (1990). Marriage systems and pathogen stress in human societies. American Zoologist, 30(2), 325-340.

Manolio, T. A., Brooks, L. D., & Collins, F. S. (2008). A HapMap harvest of insights into the genetics of common disease. The Journal of clinical investigation, 118(5), 1590-1605.

Minkov, M., Blagoev, V., & Bond, M. H. (2014). Improving Research in the Emerging Field of Cross-Cultural Sociogenetics The Case of Serotonin. Journal of Cross-Cultural Psychology, 0022022114563612.

Minster, B., Campbell, J., Dozier, J., Fleming, J., Gille, J., Hartmann, D.,... & Thompson, A. (2007). Earth Observations from Space: The First 50 Years of Scientific Achievements. Paper presented at the AGU Fall Meeting Abstracts.

Miyamoto, Y., Nisbett, R. E., & Masuda, T. (2006). Culture and the physical environment holistic versus analytic perceptual affordances. Psychological Science, 17(2), 113-119.

Molloy, J. C. (2011). The open knowledge foundation: open data means better science. PLoS biology, 9(12), e1001195.

Ng, W., & Diener, E. (2014). What matters to the rich and the poor? Subjective well-being, financial satisfaction, and postmaterialist needs across the world. Journal of Personality and Social Psychology, 107(2), 326.

Nielsen, M. (2012). Reinventing discovery: the new era of networked science: Princeton University Press.

Oishi, S. (2014). Socioecological psychology. Annual review of psychology, 65, 581-609.

Oishi, S., Graham, J., Kesebir, S., & Galinha, I. C. (2013). Concepts of happiness across time and cultures. Personality and Social Psychology Bulletin, 39(5), 559-577.

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac47161-8.

Palmer, C. L., Weber, N. M., & Cragin, M. H. (2011). The analytic potential of scientific data: Understanding re-use value. Proceedings of the American Society for Information Science and Technology, 48(1), 1-10.

Piwowar, H. A., & Vision, T. J. (2013). Data reuse and the open data citation advantage. PeerJ, 1, e175.

Poldrack, R. A., & Gorgolewski, K. J. (2014). Making big data open: data sharing in neuroimaging. Nature neuroscience, 17(11), 1510-1517.

Poline, J.-B., Breeze, J. L., Ghosh, S., Gorgolewski, K., Halchenko, Y. O., Hanke, M.,... & Marcus, D. S. (2012). Data sharing in neuroimaging research. Frontiers in neuroinformatics, 6.

Pollet, T. V., & Nettle, D. (2008). Driving a hard bargain: sex ratio and male marriage success in a historical US population. Biology Letters, 4(1), 31-33.

Rouder, J. N. (2016). The what, why, and how of born-open data. Behavior research methods, 48(3), 1062-1069.

Ruan, J., Xie, Z., & Zhang, X. (2014). Does rice farming shape individualism and innovation? A response to Talhelm et al. (2014)(December 2,2014). IFPRI Discussion Paper 1389. A vailable at SSRN: http://ssrn.com/abstract=2539567.

Russell, M. A. (2013). Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More. “O'Reilly Media, Inc.”.

Sablonnière, R. d. l., Auger, E., Sabourin, M., & Newton, G. (2012). Facilitating data sharing in the behavioural sciences. Data Science Journal, 11(0), DS29-DS43.

Santos, H. C., Varnum, M. E., & Grossmann, I. (2017). Global increases in individualism. Psychological science, 28(9), 1228-1239.

Talhelm, T., Zhang, X., Oishi, S., Shimin, C., Duan, D., Lan, X., & Kitayama, S. (2014). Large-scale psychological differences within China explained by rice versus wheat agriculture. Science, 344(6184), 603-608.

Van de Vliert, E., Yang, H., Wang, Y., & Ren, X. P. (2013). Climato-economic imprints on Chinese collectivism. Journal of Cross-Cultural Psychology,44(4), 589-605.

Van Horn, J. D., Grafton, S. T., Rockmore, D., & Gazzaniga, M. S. (2004). Sharing neuroimaging studies of human cognition. Nature neuroscience, 7(5), 473-481.

Van Horn, J. D., & Ishai, A. (2007). Mapping the human brain: new insights from FMRI data sharing. Neuroinformatics, 5(3), 146-153.

Van Horn, J. D., & Toga, A. W. (2009). Is it time to re-prioritize neuroimaging databases and digital repositories? NeuroImage, 47(4), 1720-1734.

Warden, P. (2011). Data Source Handbook: “O'Reilly Media, Inc.

Wicherts, J. M., Bakker, M., & Molenaar, D. (2011). Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results. PloS one, 6(11), e26828.

Wicherts, J. M., Borsboom, D., Kats, J., & Molenaar, D. (2006). The poor availability of psychological research data for reanalysis. The American Psychologist, 61(7), 726-728.

Wolock, S. L., Yates, A., Petrill, S. A., Bohland, J. W., Blair, C., Li, N.,... & Bartlett, C. W. (2013). Gene× smoking interactions on human brain gene expression: finding common mechanisms in adolescents and adults. Journal of Child Psychology and Psychiatry, 54(10), 1109-1119.

Zeng, R., & Greenfield, P. M. (2015). Cultural evolution over the last 40 years in China: Using the Google Ngram Viewer to study implications of social and political change for cultural values. International Journal of Psychology, 50(1), 47-55.

onducting Psychological Studies via Open Data

HUANG Zihang1,2,3 ; WANG Ke4; CAI Huajian1,2,3

(1 Key Laboratory of Behavioral Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China)

(2 Center for Personality and Social Psychology, Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China)

(3 University of Chinese Academy of Sciences, Beijing 100049, China)

(4 Department of Psychology, Wuhan University, Wuhan 430072, China)

Abstract

With the ongoing open data trend, various fields have published free public access data, providing new resources for psychological studies. At present, psychological field has not benefit much from this trend. This article collected and categorized databases that bear psychological value, introduced four methods to access open data, and listed examples from nine fields that utilized open data. Open data has the advantages of massive sample, flexible analysis and efficient execution, but also faces the challenges from data reuse reliability, psychological, protocol and technological issues.

Key words: open data; open database; methodology; psychological study

上一篇回2018年9月第9期目录 下一篇 (方向键翻页,回车键返回目录)加入书签

© 2016 毕业论文网 > 利用开放数据进行心理学研究