论科研数据开放共享的三种路子

2018年12月24日21:24:18论科研数据开放共享的三种路子已封锁评论 110 views

刘晶晶1,2 马建华1

(1.中国科学院文献谍报核心 北京 100190;2.中国科学院大学 北京 100049)

摘 要:AG平台女优科研数据是开展科学研究的次要支撑前提。通过收集调研,并连络具体案例,详尽阐发了科研数据开放共享的三种实现路子,并指出三者是相互联系关系,层层嵌套的全体:数据学问库存储和发布科研数据,在此根柢上,数据期刊颁布颠末同业评断的科研数据描述符,继而学术期刊能够大概大体颁布有可几次验证的科研数据所支撑的学术论文。

环节词:科研数据 数据共享 数据学问库 数据期刊 数据申明文件

DOI 10.3969/j.issn.1002-1965.2015.10.025

1 科研数据是开展科学研究的次要支撑前提

科研数据是指在科技勾傍边(测验测验观测查询拜访等)或通过其他编制所获取的反映客观世界本质特征变化规律等的原始根底数据,以及按照不合科技勾当需要,进行系统加工拾掇的各类数据集[1]。科学研究是一个轮回的、动态的过程,科研数据不只是科学研究的功能,更是进一步成长科技和措置科研的基石[2-3]。科研人员基于数据来思虑、设想和开展科学研究,越来越多的研究是成立在对已有科研数据重用的根柢上,可理解的科研数据成为支撑科学结论查验的次要按照[4],这恰是2009年微软在《The Fourth Paradigm》[5]中所描述的新型科研编制——数据浓密型科研(data intensive science)。科研数据作为科学研究的次要构成部门,不只是一项研究功能可否可托的证据,更是科学群体“判断、同意、拒绝、理解该项工作以及进一步晓得并重用数据的根柢”[6]。科研数据已然成了科技界的“一等公民”(First-class Citizens)[7]

2 科研数据开放共享势在必行

科研数据具有次要的价值。孙九林院士已经指出“科研数据作为一种成本,不只是动静和学问的源泉、科学的基石,仍是学问立异的策动机和思惟库、人类社会持续成长的动力,具有复杂的科学价值、社会价值和经济价值”[8]。欧洲研究大学联盟( The League of European Research Universities,LERU) 在2012 年12 月颁布开放科研数据的声明,也指出“开放科研数据代表科学研究编制的革命性变化,需要重视向数据驱动的研究改变”[9]。美国国度科学基金会( National Science Foundation,NSF)在《21世纪科学研究的动静化根柢设备》[10]AG平台女优演讲中,大白提到“新的科学机缘来自于越来越无效的数据组织、共享和独霸。将来的科学手艺立异将越来越倚重于科学数据的劣势,以及通过成熟的数据挖掘、集成、阐发与可视化东西将其转化为动静和学问的能力”。科研数据开放共享的需要性由此可见。

在已有的、高质量的、可供获取的科研数据的根柢上,科研人员能够大概大体对已有研究功能验证,推进科学研究的查验和几次机制,进而削减科学不端行为;还能够大概与其他数据进行整合,独霸现无数据提出新的研究问题,进行更多更深切的学问打点和内容挖掘;有助于扩大公共赞助的功能,使其为公家所有;有助于添加引用的机缘,承认科研数据供给者的贡献,推进科研评价系统的美满和多元化[11-12]。原科技部部长徐冠华院士曾说过:“科研数据共享势在必行,科研是群体性的勾当,数据是最次要的根柢,开展科研数据共享的次要性丝毫不亚于颁布学术论文”[13]

3 科研数据开放共享的三种路子

为了无效地推进科研数据开放共享,科研人员逐步构成了较为规范的数据权益贡献系统,以及较为系统的内容审核、格局规范、共享引用要求。拾掇科研数据开放共享的三种路子[14-15],如表1所示。

表1 科研数据开放共享的三种路子

论科研数据开放共享的三种路子

3.1 数据学问库 数据学问库(data repository),因其本身跟着科学手艺编制和环境的变化而成长,面临不合的学科范畴、不合的数据形态、不合的把持层面有着不合的特点。有学者认为它是存储和打点科研数据、支撑科研勾当及其学问创作发觉的数字学问库[16];也有学者认为它是一种动静根柢设备,用以确保科研人员在独霸科研数据过程中最大的获取性、不变性和可用性[17]。数据学问库是推进科研数据开放共享的根柢环节,在数据质量审核、组织存储、共享引用方面都需要厘清了了的规范要求。

a.数据学问库理当做好科研数据的质量审核。数据学问库必需要对发布的数据内容进行严酷审查和组织,确保文档颠末同业评断,其元数据是规范、切确、可用的。数据学问库还理当对包含小我的、敏感的或不合适的动静进行内容审查,并在发觉内容不合适前提时提示提交者或出书商。此外,数据学问库理当包管文件是可打开的、未损坏的,且不包含通过贸易手段可发觉的病毒。

b.数据学问库理当做好科研数据的组织存储。科研数据的组织存储,需要了了数据从何而来,存储在什么位置(若何标识)以及若何持久保留。下面进行具体的申明。

AG平台女优数据学问库的数据来历包含多种形式,能够大概通过成立者提交,也能够大概通过爬虫等手艺从其他数据库抓取,颠末进一步拾掇衍生而成。

AG平台女优数据学问库为数据分拨和供给数字对象标识符(Digital Object Identifiers,DOIs)来存储数据。以Dryad为例,凡是每个数据包的DOI为“http://dx.doi.org/10.5061/dryad.[NNNN]”格局,此中,[NNNN]4位数字用于标识数据包编号,在其后加注文件的版本动静,格局为“/1”,“/2”等(“/”前的数字用于暗示该数据包的第几个文件)。当新版本文件发布时,在版本动静后加注更新动静,如“.2”,“.3”等。因而,若是有一条则件动静如下“http://dx.doi.org/10.5061/dryad.[NNNN].2/2.3”,则暗示此文件为“http://dx.doi.org/10.5061/dryad.[NNNN]”数据包的第2个文件的第2版的第3次更新后内容。

出于持久保留需要,数据学问库会对数据进行迁移:在与作者签定学问产权和谈的根柢上,对数据内容的格局进行转换,确保数据在所占容量、存储效率等方面便于传布和再独霸,包管对数据内容的日更新频次,及时将提交者提交的内容存储到近程处事器以及持久保留系统中。比如Dryad和figshare均与CLO-CKSS[18]AG平台女优合作保留数据内容的副本,迁移数据格局到最新版本,包管数据可无刻日访谒。

c.科研数据学问库理当做好科研数据的共享引用。为维护数据学问库的优良有序运作,独霸者引用数据学问库中的数据或自创同业学者内容时,理当尽量恪守公认的学术规范。该规范格局一般由学问库自行规定。如Dryad要求用户采用的引用格局[19]是:<Creater>(<Publication Year>) Data from:<Title>.Dryad Digital Repository.<Identifier>。除了引用ID识别码外,也能够大概对存储科研数据的学问库网址进行引用。如ArrayExpress功能基因组学测验测验数据库要求在引用数据时包含数据的识别符和ArrayExpress[20]主页网址(www.ebi.ac.uk/arrayexpress)。若干环境下,一些学问库也会保举采用DataCite的引用格局或者类似格局。如GEO(Gene Expression Omnibus)建议提交者引用其识别符(GSExxx),同时也建议用户引用他人的原文和该文章所对应数据记实的识别符[21]

AG平台女优简而言之,数据学问库通过必然的数据提交机制,组织相关范畴专家进行严酷的同业评审,在确保数据质量的根柢上,进行数据发布,为数据供给独一的数字对象标识符,使其能够大概大体永世访谒和追溯,最后,通过标准的引用格局以利于数据共享和重用。通过数据学问库进行科研数据共享的劣势在于具有独立的数据出书政策和评审标准,可是也正由于此,可能会构成不合窗科不合数据学问库之间的共享妨碍。

3.2 数据期刊 数据期刊(data journal)是一种以论文形式颁布数据的新型出书物。所谓数据论文(data paper)是指按照学术规范正式出书的,可被检索的元数据文件,用以描述单个或一组可在线访谒的数据集[22]。数据论文的内容主若是对数据采集、获取、措置等过程和编制的描述,不涉及对数据和研究功能的阐发、推论、发觉以及假设论证,其方针是让科研群体更好地发觉、获取、理解与复用数据,并再次进行科研立异[23-24]AG平台女优。作为一种期刊形态,在推进科研数据开放共享方面,出格需要寄望内容质量审核、内容提交格局和内容共享引用方面的规范。

3.2.1 数据期刊内容质量审核规范 评审将评估生成数据过程的手艺质量、数据描述的完整性、所得数据集的重用价值、以及与现有学科标准的不合性。大大都数据描述符将由至多一个具有相关测验测验手艺专业学问的科学家和一个数据标准专家进行评审。审核过程中需要考虑到以下几点:测验测验编制的无效性;第三方独霸数据的完整性;数据描述符与数据内容不合连贯;数据可否被开放获取和独霸等[25]

3.2.2 数据期刊内容提交格局规范 数据期刊以文章的类型发布有科学价值的数据描述,也就是数据论文。数据论文,遵照必然的数据标准、算计机可读、可检索,具有火速、严酷、开放、可见、相互链接等特点,能够大概大体将保守的阐述性内容与布局化描述的研究数据连络在一路,供给一个新框架,无益于动静检索、阐发、挖掘以及相关独霸,推进科学试探[26]。以Scientific Data[27]为例,要求的数据集主若是指算计或策划数据,以及通过测验测验或察看发生的数据,包含“手艺验证”(Technical Validation)和“用法申明”(Usage Notes)部门,此外在2014年11月13日也起头发布社会科学范畴的数据[28]

数据论文理当对科研数据进行布局化和规范化描述,从而无益于科研数据的发觉、正文、重用和再生。在其手稿中需要包含以下要素并合适对应的格局要求[29],如表2所示。

3.2.3 数据期刊内容共享引用规范 数据期刊要求作者在提交手稿时需要附带引用权限的声明规定,其他人在独霸作者供给的数据时,理当遵照CC BY或CC BY-NC学问共享许可和谈[30]。例如ScientificData认同并遵照数据引文准绳的连系声明,要求作者在提交手稿时附带有权引用数据的书面包管。若是其他人引用数据期刊中的数据论文,则建议用保守的参考文献格局引用数据描述符,若是期刊支撑数据引用,则列举出所有引用的数据集。以ScientificData为例,其引用格局包含作者、标题问题问题、期刊、卷、文章号、DOI号、年代。如:A.Alexandersson, T.Steingrimsdottir,J. Terrien,et al. The Icelandic 16-electrode electrohysterogram database. Sci. Data 2:150017 doi: 10.1038/sdata.2015.17(2015)”[31]

AG平台女优表2 数据描述符格局要求

论科研数据开放共享的三种路子

AG平台女优简而言之,数据成立者将数据存储在必然的数据学问库中,并按照规定的格局对科研数据进行布局化和规范化描述,撰写数据论文,提交到数据期刊,二者之间通过数据的独一标识符、数据的URI等属性进行联系关系。通过数据期刊进行科研数据开放共享,无益于科研数据的检索、重用和引用,在引用数据论文的同时,也寄望到对原始科研数据集的贡献承认,无益于丰厚科研评价系统。可是共享的根柢有赖于数据论文与存储于数据学问库中的原始数据之间切确、持久、不变的链接。

3.3 学术期刊的数据申明文件 不竭以来,出书界都将科学功能的再现看作是一个高质量学术刊物对于科学界所应担负的权利,学术期刊也不竭勤恳于试探科学论文和科研数据的颁布、传布和引用[12]。国际上有良多期刊都制定了“科研数据共享政策”,要求作者在向期刊投稿时必需向期刊编纂和同业评审专家供给相关的科学数据或者能够大概获得该研究涉及的科学数据的第三方存储库的存取号,若是不能供给,则必需进行申明[15]。比如:BiodiversityDataJournal[32]Ecology[33]EarthSystemScienceData[34]等。学术期刊的申明文件,主若是基于在同业评审过程中,评审专家能够大概将其作为评审参考;在作品颁布当前,感乐趣的科研人员能够大概获取所需动静并再现作者的研究功能。接下来将从内容要求、格局规范及存储引用三个方面来分袂阐述。

3.3.1 数据申明文件的内容要求 学术期刊的数据申明文件(data explanatory material)有论文附件(appendices)和论文填补( supplements)两种形式[35]。论文附件即论文次要内容的支撑数据,包含编制、图表、方程及视频与音频文件;论文填补则指不适合印刷的一些无效电子格局文件数据,如原始与衍生数据集、仿真数据代码及统计阐发软件等。NIH将此类数据定义为“最终数据”(final data),也就是间接构成论文结论,能够大概验证科研功能的需要数据材料[36]。以PLOS数据政策为例,规定必需提交的数据为“最小数据集”(minimal dataset),也就是构成论文结论和完整再现演讲研究功能所需要的数据集和相关元数据[37]

3.3.2 数据申明文件的格局规范 作为填补材料,依托出书物颁布的数据申明文件,理当做好格局规范要求,以利于科研人员访谒重用时能够大概大体对数据无效抽取。科研人员必需按照填补材料的格局、长度大小和要求,进行提交,并且大都环境下需要提交简短的申明文件(见表3)。/常见的数据类型合格局有:

表3 常见的数据类型合格局

论科研数据开放共享的三种路子

当然,不合的学科范畴内,也会有本身承认的特无数据标准。例如,堆积光谱测定的数据理当以mzML格局供给[38],分子间相互传染打动数据应遵照MIMIx指南[39]

3.3.3 数据申明文件的存储引用 在科研数据的数据量较小时,一些期刊便要求作者将这些数据作为科学论文附件形式随论文一路颁布,并存储在出书社本人的网站上或者作者本人供给的可承担数据平安、公开访谒的网站。当数据量较大时,建议存储到相信度高的数据学问库内获得数据登记号,以利于持久保留。

为了更容易博得数据共享和出书的学术诺言,保举DataCite[40]商定的数据格局,持久的标识符,如数字对象标识符DOI名称,能够大概作为永世的URL链接。保举的格局[41]如下:

AG平台女优Creator (Publication Year): Title. Publisher. Identifier

Creator (Publication Year): Title. Version. Publisher. Resource Type. Identifier

比如数据集引用:T.Irino,R. Tada (2009): Chemical and mineral compositions of sediments from ODP Site 127‐797. Geological Institute, University of Tokyo.

http://dx.doi.org/10.1594/PANGAEA.726855[42]

指向如下论文:Irino, Tomohisa; Tada, Ryuji (2000): Quantification of aeolian dust (Kosa) contribution to the Japan Sea sediments and its variation during the last 200 ky. Geochemical Journal, 34(1), 59-93, http://www.terrapub.co.jp/journals/GJ/pdf/3401/34010059.pdf[43]

当然,具体到学科范畴或者专业出书商以及学协会等可能会制定本身的数据申明文件要求,比如美国物理学会(American Physical Society,APS)于2013年4月发布了APS期刊填补材料指南[44]AG平台女优,对若何存储、若安在文章中引用、若何进行检索做了规范。

简而言之,学术期刊的数据申明文件,是最保守和最间接的数据共享编制,数据与文章慎密连络,通过对支撑文章结论的数据进行填补,无益于读者和评审专家的访谒、理解。其局限在于,数据申明文件凡是有规模大小限制,还具有着持久保留等方面的不确定性,并且大大都环境下,由于这些材料不具有独立性,想要访谒它们只能通过指定的文章。

4 科研数据开放共享三种路子内在关系

AG平台女优科研数据开放共享有三种形式——数据学问库、数据期刊、学术期刊的数据申明文件,三者之间是相互联系关系,密不成分,层层嵌套的全体,如图1所示。

论科研数据开放共享的三种路子

AG平台女优图1 科研数据开放共享三种形式的内在关系

来历:林和弘, 村山泰啓.研究データ出书の動向と論文の根拠データの公開促進に向けて[J].科学手艺动向研究, 2015,148:4-9

数据学问库对数据集的元数据描述,是对数据质量的根底节制;在数据学问库存储和发布科研数据的根柢上,数据期刊颁布颠末同业评断的科研数据描述符;继而学术期刊能够大概大体颁布有可几次验证的科研数据所支撑的学术论文。以天然出书集团旗下数据期刊ScientificData为例,两大通用学问库figshare和Dryad合作,进行数据存储和查验,确保所颁布的数据论文的影响力和公信力,同时它的出书物将与天然出书集团期刊和外部出书商的相关研究出书物保持起来,让科学家更容易在现实数据、丰厚的数据描述和研究发觉功能三者之间轻松把握试探[45]

数据学问库、数据期刊和学术期刊的数据申明文件,比如是推进科研数据开放共享的三驾马车,既需要做好最根柢的工作,又需要相互推进,共同敦促科学这项开放事业的繁荣成长。将来研究应着眼于构成一个统一、完整、系统的科研数据共享和出书系统,并且试探各好处相关者在数据提交、数据审核、数据发布、数据存储和数据引用等环节的权益问题。

参考文献:

AG平台女优[1] 司 莉,邢文明.国外科学数据打点与共享政策查询拜访及对我国的启迪[J].谍报材料工作,2013(1):61-66.

[2] Gary Marchionini,杨冠灿,芦 昆(译).科研数据打点:保障数据质量,推进ischools新科学研究[J].图书谍报学问,2013(4):4-9.

[3] 彭 洁,贺德方,张英杰.数字出书环境中科学数据引用的实现路径及策略查询拜访阐发[J].数字出书,2014(4):57-61.

[4] The Royal Society. Science as an Open Enterprise[EB/OL].[2015-05-04].http://royalsociety.org/policy/projects/science-public-enterprise/report/.

AG平台女优[5] Tony hey, Stewart Tansley, Kristin Tolle.TheFourthParadigm: Data-Intensive Scientific Discovery.第四范式:数据浓密型科学发觉[M].潘教峰,张晓林,等译.北京:科学出书社,2012.

[6] Data Committee on Issues in the Transborder Flow of Scientific Data, National Research Council.Bits of Power: Issues in Global Access to Scientific [M].Washington:National Academies Press,1997.

[7] Bolikowski L, Houssos N, Manghi P,et al.Data as "First-class Citizens"[EB/OL].[2015-05-04]http://www.dlib.org/dlib/january15/01guest_editorial.html.

[8] 孙九林.科学数据成本与共享[J].中国根柢科学,2003(1):30-33.

AG平台女优[9] LERU.Open Research Data[EB/OL][2015-05-04].http://www.leru.org/files/publications/Open_Access_to_Research_Data-FINALdocx.pdf.

[10] Cyberinfrastructure Vision for 21st Century Discovery[R]. National Science Foundation, Cyberinfrastructure Council, 2007.

AG平台女优[11] Christine L.Borgman,青秀玲. 科研数据共享的挑战[J]. 现代图书谍报手艺,2013(5):1-20.

[12] Hrynaszkiewicz I,新谷 洋子.データの再独霸を促進するオープンアクセス·オープンデータジャーナル[J].情報打点,2014,57(9):629-640.

[13] 科学数据共享工作理当遭到尊重和支撑——徐冠华院士访谒地球系统科学动静共享核心[EB/OL]. [2015-05-04]. http://www.most.gov.cn/kjbgz/201002/t20100221_75953.htm.

[14] 顾立平.科学数据权益阐发的根底框架[J].图书谍报学问,2014(1):34-51.

AG平台女优[15] 刘凤红, 崔金钟, 韩芳桥, 等. 数据论文:大数据时代新兴学术论文出书类型切磋[J]. 中国科技期刊研究, 2014, 25(12):1451-1456.

AG平台女优[16] 刘 峰,张晓林,孔丽华.科研数据学问库研究述评[J].现代图书谍报手艺,2014(2):25-31.

[17] Pampel H.呈现科研数据学问库:re3data.org注册机制[J].顾立平译.现代图书谍报手艺,2014(3):26-34.

AG平台女优[18] CLOCKSS[EB/OL].[2015-05-04].http://www.clockss.org/clockss/Home.

[19] Dryad-FAQ[EB/OL].[2015-05-04].http://datadryad.org/pages/faq#using.

AG平台女优[20] Array Express-Submitting Data to ArrayExpress (General) [EB/OL].[2015-05-04]. http://www.ebi.ac.uk/arrayexpress/help/faq.html#cite.

[21] GEO-citing and Linking to the GEO Database [EB/OL]. .[2015-05-04] http://www.ncbi.nlm.nih.gov/geo/info/linking.html.

[22] Paul N, Peter C. Data Papers-peer Reviewed Publication of High Quality Data Sets[J]. International Journal of Robotics Research, 2009, 28(5):587.

AG平台女优[23] Candela L,Castelli D,Manghi P,et al. Data Journals: A Survey[J]. Journal of the Association for Information Scienceand Technology, 2015.

[24] Chavan V,Penev L. The Data Paper: a Mechanism to Incentivize Data Publishing in Biodiversity Science[J]. BMC Bioinformatics, 2011, 12(Suppl 15):S2.

[25] Scientific Data-editorial and Publishing Policies[EB/OL].[2015-05-04].http://www.nature.com/sdata/for-authors/editorial-and-publishing-policies.

AG平台女优[26] 刘晶晶,顾立平.数据期刊的政策调研与阐发[J].中国科技期刊研究,2015,26(4):331-339.

AG平台女优[27] Scientific Data [EB/OL]. [2015-05-04]. http://www.nature.com/sdata/.

[28] Scientific Data Now Inviting Submissions from the Social Sciences[EB/OL]. [2015-05-04]. http://blogs.nature.com/scientificdata/2014/11/13/scientific-data-now-inviting-submissions-from-the-social-sciences/.

[29] Format of Data Descriptors[EB/OL].[2015-05-04].http://www.nature.com/sdata/for-authors.

AG平台女优[30] Open Access[EB/OL]. [2015-05-04]. http://www.nature.com/sdata/about/oa.

AG平台女优[31] Citation Example[EB/OL]. [2015-05-04]. http://www.nature.com/articles/sdata201517.

AG平台女优[32] Biodiversity Data Journal[EB/OL]. [2015-05-04]. http://biodiversitydatajournal.com/ .

[33] Ecology[EB/OL]. [2015-05-04].http://www.journalofecology.org/view/0/index.html.

[34] Earth System Science Data[EB/OL]. [2015-05-04]. http://www.earth-system-science-data.net/.

[35] 何 琳,常颖聪.国表里科学数据出书研究进展[J].图书谍报工作,2014,58(5):104-110.

[36] National Institutes of Health. NIH Data Sharing Policy and Implementation Guidance[EB/OL]. [2015-05-04]. http://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm.

[37] Lin J.Make Data Sharing Easy: PLOS Launches its Data Repos-itory Integration Partner Program [EB/OL]. [2015-05-04].http://blogs.plos.org/tech/make-data-sharing-easy-plos-launches-its-data-repository-integration-partner-program/.

AG平台女优[38] BioMed Central. Availability of supporting data [EB/OL]. [2015-05-04]. http://www.biomedcentral.com/about/supportingdata.

AG平台女优[39] PNAS.Editorial Policies[EB/OL]. [2015-05-04]. http://www.pnas.org/site/authors/journal.xhtml.

AG平台女优[40] Datacite[EB/OL]. [2015-05-04].http://www.datacite.org/node.

[41] Datacite-how to Cite Your Data[EB/OL]. [2015-05-04].http://www.datacite.org/services/cite-your-data.html.

[42] Citation Example[EB/OL]. [2015-05-04]. http://doi.pangaea.de/10.1594/PANGAEA.726855.

[43] Citation Example[EB/OL]. [2015-05-04].http://www.terrapub.co.jp/journals/GJ/pdf/3401/34010059.pdf.

AG平台女优[44] APS-supplemental-material-instructions[EB/OL]. [2015-05-04].http://journals.aps.org/authors/supplemental-material-instructions.

[45] Scientific Data to Complement and Promote Public Data Repositories[EB/OL]. [2015-05-04]. http://blogs.nature.com/scientificdata/2013/07/23/scientific-data-to-complement-and-promote-public-data-repositories.

weinxin
扫码,关怀科塔学术公家号
勤恳于成为国内领先的科研与学术成本导航平台,让科研工作更简单、更无效率。内容专业,动静切确,更新及时。
avatar