谷歌图书与Hathitrust的比力与启迪

2018年10月11日08:44:45谷歌图书与Hathitrust的比力与启迪已封锁评论 183 views

作者简介:陈铭,女,南京大学动静打点学院,博士,讲师。研究标的方针:期刊评价、藏书楼处事、开放存取、电子书等,E-mail:chenming@nju.edu.cn。南京 210023

AG平台女优内容撮要:谷歌图书和Hathitrust是两个成长火速的大型的电子书仓库,不竭走在藏书楼范畴的前端,它们有不异点也有不合点。为了协助国内藏书楼成立合适本身特色的电子书仓储,试探比力它们的异同可认为成长数字出书以及电子书仓储带来全新的视角。作者采用了比力的研究编制,不只比力了两者之间的成长过程、成立方针;比力了两者的成本数量、成本质量以及包含数字化扫描、存储、运转系统、版权打点的运作模式;并且还详尽比力了两者的数据库功能。在阐发了两者各自的特点和劣势以及深切阐述了国内电子书仓储的拔擢现状后,作者得出了谷歌图书和Hathitrust对于国内藏书楼成长大型电子书仓储破产具有的启迪:海量的内容成本、强大的数据库功能、版权策略的助推、合作成长的劣势和成本质量的保障。

关 键 词:谷歌图书 Hathitrust 电子书 仓储

AG平台女优标题问题问题正文:本文系国度社科基金青年项目“藏书楼电子书处事系统的成立与评价研究”(项目编号:13CTQ013)和江苏省教育厅高校哲学社会科学研究项目“高校藏书楼电子书的评价与独霸研究”(项目编号:2013SJD870012)的研究功能之一。

0 序言

AG平台女优谷歌图书和Hathitrust是两个成长火速的大型的电子书仓储,不竭走在藏书楼范畴的前端,它们有不异点也有不合点。它们的复杂成长给国内藏书楼界的成长带来深刻的启迪。国内贸易机构和藏书楼界也不竭在积极成立数字藏书楼,有些已阐扬了复杂的传染打动,有些正欲阐扬传染打动,在拔擢过程中也有一些成功的经验和不足的教训。试探比力谷歌图书和Hathitrust的异同可认为国内成长数字出书以及电子书仓储带来全新的视角。

1 谷歌图书和Hathitrust的概念

1.1 成长过程

谷歌是一个贸易性的机构,它的成长汗青比力长,2003年12月谷歌推出对书摘搜刮处事的Google Print(谷歌打印)试用版。2004年10月谷歌与美国的兰登书屋合作,正式启动搜刮图书全文处事的谷歌图书筹算。Google Print在2005年11月改名为Google Book Search(谷歌图书搜刮)。它扫描了书的封面页、目录页、版权页及部门内容页并放在网站上,为全世界公家供给在任何处所都能搜刮的便当的在线全文检索处事。谷歌还先后推出了与出书商合作的“Google Print Publisher”(谷歌打印出书商)子项目和与藏书楼合作的“Google Print Library”(谷歌打印藏书楼)子项目[1],为丰厚成本的来历找到体味决路子。目前谷歌已与至多28家次要的藏书楼、100多个国度或地域的10000多个出书商和作者成立了合作关系。谷歌对其合作伙伴所具有的数以百万计的文献成本进行扫描及数字化并插手到谷歌的数据库中,而合作伙伴也能够大概获得该成本的一个数字拷贝。2010年,谷歌还发布颁布启动了数字书店,称作Google Editions(谷歌版本),所有的内容均被放在云端。谷歌扫描了逾越120万本的书。它还传布鼓吹到本年代末,要扫描所有现存的册本。

Hathitrust由美国机构合作委员会(Committee on Institutional Cooperation,CIC)的12所大学联盟及加利福尼亚大学(University of California,UC)系统所属的11所大学藏书楼于2008年倡议,这些研究藏书楼合作为包含数百万图书在内的大量数字馆藏成立机构库,起名为Hathitrust,将大学藏书楼数百年承担的动静保留和获取。Hathitrust是一个非营利机构,作为来历于北印度语大象一词的机构库,它勤恳于支撑数字化各藏书楼的成本,并成立一个复杂的成本库。Hathitrust项目与谷歌图书搜刮有很深的联系,CIC和UC组织内的藏书楼都已经通过插手谷歌图书搜刮项目数字化了它们的部门馆藏成本。Hathitrust项目成立后,这些藏书楼也会继续和谷歌公司合作,共同数字化它们的馆藏成本,目前Hathitrust数据库中有逾越200万册的图书是由谷歌数字化的。这些图书成本和Hathitrust扫描的其他成本一路都能够大概在Hathitrust里被检索获取到。

1.2 方针比力

Hathitrust是一个非营利性的组织机构,不会独霸所具有的数字成本去寻求盈利。虽然数字化和保留文献成本需要大量的资金,但项目经费来历于参与Hathitrust的各个资金雄厚的高校。它们在初始插手时,会要求按照它们要被数字化的文献成本的数量交纳一笔初始经费,当前每年再缴纳保留数字成本所需的年费。Hathitrust项目勤恳于聚合全美最优良的藏书楼成本和最顶尖级的专家,将丰厚的、具有立异意义的经验把持于该项目中,并寻求更多合作者插手此中。方针是确保文化记实能够大概大体被保留并且在将来能够大概大体持久被获取。通过共同收集、组织、保留、互换与分享人类学问功能,成立起一个由各成员机构共同具有与打点的,靠得住的,日益全面的藏书楼数字成本仓库,削减成本持久保留的空间与破钞,满足成员机构的需求,阐扬全体大于部门之和的传染打动。

AG平台女优而谷歌是一个贸易性的机构,是以营利为方针。谷歌所具有的千万册数字化的图书能为其吸引来更多的用户,用户数量的添加还能带来谷歌告白的升值,从而能够大概博得更多的收入。谷歌传布鼓吹此项筹算是为了实现其“组织全球动静,并使之在全球范畴内可获取和可独霸”的任务。“将继续成长其手艺并扩大与全世界出书商和藏书楼的合作关系……并从数字藏书楼向整个藏书楼业、互联网动静处事业以致世界文化的传布方面扩展。”[2]谷歌起头从一个纯挚检索处事供给商向学问供给商转型,逐步向数字化学问成本进军。

2 谷歌图书和Hathitrust的成本数量和成本质量比力

2.1 成本数量比力

截至2015年9月,按照网站统计(https://books.google.com/)谷歌已扫描了2500万种图书,包含了良多大型研究藏书楼里的内容,谷歌将这些藏书楼的全数或部门馆藏图书通过扫描制成电子版供全球读者通过谷歌在网上免费检索阅读。此中约100万种书可免得费预览全数内容,100万种书是公版书,此外500万种是绝版并且采办不到的藏书楼藏书。插手谷歌筹算的还有出书商,如霍顿·米福林、麦克格劳·希尔、牛津大学、剑桥大学等出名出书商。谷歌收集这些出书商已出书或即将出书的出书物。谷歌也与小我作者签定和谈,收集其创作的图书,把它们都扫描放入数据库中。

Hathitrust已经扫描了1300万卷,大约48亿页的成本,此中大约有39%的成本属于公共范畴,公共范畴的材料将供给全文在线阅读,而那些受版权呵护的材料,虽然不能供给全文阅读,但会供给全面的数字归档处事,因而可认为成员藏书楼安妥保留他们的馆藏成本。Hathitrust数字成本每天都在更新,其更新速度很是快,每月都有逾越30万册的文献被添加到数字仓库中。以密歇根大学藏书楼为例,该馆具有900多万册馆藏,数字化扫描图书共427万余册,将近一半的成本都已经数字化,足见其对Hathitrust项目所做出的复杂贡献。目前共有逾越80个机构插手了这个项目,会员对世界各地的机构开放。

AG平台女优按照Hathitrust网站上的概览(https://www.hathitrust.org/home)所述:良多在Hathitrust里能获得的作品并没有在谷歌图书里呈现。由于谷歌没有把它们数字化。或者在谷歌图书里得不到,由于不合的版权决定过程。这里面最大的品种包含美国联邦当局文件和1923年后在美国颁布的公共范畴的作品。Hathitrust还储存了一些谷歌图书所没有的成本,如各个成员藏书楼的贵重馆藏的数字化成本、大学的学术论文及研究功能数据库包含其他自建的数字成本数据库等。它约等于具有每一个北美研究藏书楼印刷品具有量的50%的电子版本。

2.2 成本的质量比力

按照大型数字藏书楼和数字化立异的质量要求,谷歌图书出格地被攻讦关于数字化的质量和元数据的质量有问题。关怀点次要在一些页面扫描的质量比力差,以及错误良多的且让人不成托的OCR(Optical Character Recognition,光学字符识别)上。由于谷歌图书是依托OCR手艺和电脑措置过程来创作发觉它们记实的元数据的,是先数字化再考虑质量的。谷歌的辩护中提到出格大规模的项目意味着犯错率将会很高。谷歌图书司理Jon传布鼓吹,谷歌已经领受了最艰苦的编制来避免元数据的犯错。

AG平台女优Hathitrust在其网站上有一个关于其勤恳于质量的声明。它许诺在它的仓储中通过对所有内容实施正式的质量审核确保对内容优化的质量。当藏书楼放入更多成本在线后,数字仓储鉴定正变得越来越次要。TRAC(Trustworthy Repositories Audit and Certification,值得相信的仓储审计和鉴定)是一个对数字仓储审计和鉴定的过程。Hathitrust 2011年3月获得TRAC的认证。Hathitrust项目暗示在给它的珍藏供给元数据时承担了复杂的压力,但不得不接管有大规模数字立异时要履历的元数据的挑战。自从元数据发源于合作藏书楼时,藏书楼才有这个才能和机缘,来提高现存的印刷目录质量并且为数字世界优化书目元数据,比如Hathitrust网站上能够大概获得的索书号、日期和言语的一个数据可视化供给了这个机缘[3]。

3 Hathitrust和谷歌图书的运作模式比力

3.1 数字化扫描

印刷型文献的数字化扫描是电子书仓储最次要也是最艰难的工作任务。为了呵护那些珍本、善本以致孤本图书,“谷歌图书和Hathitrust扫描筹算采纳了区别于保守扫描编制的三维红外立体摄影手艺,能够大概探测放在扫描仪里的册本页面的三维外形及角度,然后将探测动静转给光学字符识别软件,进行变形失真调整,以便光学字符识别软件能更切确地识别文字。”多么的扫描编制有良多的好处,既不会损坏册本的装订,效率也很是的高。“他们的扫描速度大约为每分钟2.25本书,仅在斯坦福大学藏书楼中,每天就扫描高达5万页,并且将来会进一步提高速度。”[4]

3.2 数据存储和运转系统

Hathitrust数据的存储包含书目数据和全文数据两部门,是它最次要核心的工作之一,“可选择收集或挪动硬盘的编制存入系统。每份数据都要制造至多两个备份,并保留在不合的地址,储存数据的处所均实行严酷的平安呵护法子,按藏书楼一贯的保留、质量、读者权力以及获取等价值观为导向,以确保数据的持久保留和获取”。该项目还有用户可按照本人的需要特制的功能(Collection Builder,集结生成器)。“Hathitrust的书目数据采用自行斥地的元数据格局(Hathitrust Metadata)而没有独霸谷歌图书等凡是的MARC格局,以更好地在各成员馆之间以及与OCLC(Online Computer Library Center,Inc.,联机算计机藏书楼核心)之间传输转换数据,包含卷册标识、获取、版权、来历、版本、UM记实号、OCLC号、落款等。”[5]

AG平台女优“Hathitrust和谷歌的运转系统都采用基于OAIS(Open Archival Information System,开放档案动静系统)的框架布局,包含动静摄取、存储、数据打点、获取等功能模块,独霸元数据编目及传输规范(Metadata Encoding and Transmission Standard,METS)和保留元数据实施策略规范(Preservation Metadata Implementation Strategies,PREMIS)。”[5]良多其他数字藏书楼项目也独霸多么的数据规范,因而无益于与其他数字化项目进行共享数据。

3.3 Hathitrust和谷歌图书的版权打点比力

2012年10月,谷歌和AAP最终对长达7年的版权争端达成了和谈,许诺用户浏览图书20%的内容,并且通过Google Play(谷歌文娱)处事采办数字复印件。新版权策略是谷歌图书制胜的环节。谷歌已扫描的图书中80%是处于版权呵护期内的。谷歌没有像其他数字藏书楼一样花大量的时间和费用去寻找版权人进行构和授权,而是未经版权人同意便将上千万册图书扫描入库,坐等作者上门来找谷歌谈版权和解和谈。若是作者不单愿谷歌全文扫描本人的图书,也能够大概向谷歌供给图书的简要引见,颠末审核谷歌将删除相关扫描的图书并报歉。谷歌采纳了良多办律例避加害学问产权的风险。“谷歌按照图书版权的不合环境供给不合层次的处事。对于那些已过版权呵护期的图书,用户能够大概大体浏览全文。对于那些仍受版权呵护的图书,则按照两边的和谈,用户能够大概浏览其部门章节或全文。对于那些没有和谈的图书,用户一般只能在网上阅读其目录、内容摘要或专家评论”。谷歌收益的发生通过以下几种编制:“和扫描册本的预览页面同时呈现的贸易告白的发行,藏书楼和其他机构对于谷歌扫描的所有册本制造的数据库的订阅,对于受版权呵护的册本的阅读权的发卖。谷歌将获得这些收益的37%,剩下的63%给作家和出书商。”[6]

AG平台女优Hathitrust也面临法令上的挑战,在2011年9月,作者协会对Hathitrust和密歇根大学等各大学提出了一个联邦版权侵权控告,控告它们存储了数以百万计的书的数字副本。2012年10月,判决宣判了支撑藏书楼。Hathitrust因而在它的网站上关于宣判颁布了声明。Hathitrust项目实行严酷的版权打点轨制,与版权所有者签定版权许可和谈,由密歇根大学藏书楼担任打点和保留。只需在版权所有者许可的环境下,该图书成本才会对外开放。对于仍然受版权呵护而没有取得许可开放的文献,Hathitrust只供给无限制的获取。从而避免了版权纠缠,维护了版权所有者的好处。Hathitrust的绝大部门文献,只在校园网内能够大概供给全文,在公家网上只能检索到这些文献的一些章节片段,或者仅仅只需书目动静。而各成员高校的学者,能够大概采纳用户验证的编制,通过特地的渠道,在校外独霸这些数字成本。“为了保留和跟踪每个数字化文档的版权动静,Hathitrust成立了零丁的版权数据库,该数据库与书目数据库相连,跟着书目数据的变化而主动更新相关内容。目前可免得费获取全文的成本包含已进入公共范畴的出书物(主若是1923年前在美国境内和1870年前在美国境外出书的作品)、不受版权呵护的出书物(如当局出书物)以及已获得版权许可和谈的出书物。”[5]按照Hathitrust的版权环境,它的内容大约68%在版权呵护内,32%在公共范畴。在32%的公共范畴内,21%是世界范畴内的公共范畴。此中4%是联邦当局文献,11%是在美国公共范畴。大约12000卷或0.1%的内容被许可为开放存取,包含有立异的被公家许可的内容。

4 Hathitrust和谷歌图书的数据库功能比力

谷歌图书和Hathitrust各有劣势和弱势,内容和功能也有重合。

4.1 检索功能比力

仓储检索策略:在Hathitrust里,检索图书,会检索出3种可能的功能:①书名没找到,②图书能够大概全文获得,③若是图书仅仅显示无限的能够大概获取,意味着它已经被数字化,全文能够大概被检索到,可是由于版权问题不成以被查阅。

AG平台女优和Hathitrust类似,谷歌图书检索也出来三种功能:①书名没找到,②图书能够大概全文获得,③谷歌图书部门被找到。谷歌图书部门有两种可能的功能:一是snippet view(片段显示)被扫描页的三小部门和检索词被凸起显示,还有一个小图片在封面上;二是没有预览可获得。只需很无限的书目动静,没有封面图。

AG平台女优对于一些图书获取不到原文的,谷歌图书的片段显示是有用的,它在部门被数字化的页面上显示了检索词,以及这个检索词在这本图书中首个片段图像之上呈现了多少次。谷歌图书比Hathitrust的无限获取更有用,由于无限显示仅仅显示给独霸者检索词出此刻特定页面的次数,而谷歌图书显示这个检索词定位在这本图书的切确位置。

AG平台女优两个仓储都有根底的检索功能,若是包含更多的词,把标题问题问题用括号括起来用作词组查找,就能够大概缩小检索功能。两个仓储也都有高级检索功能,许诺用户通过这些检索入口(作者、标题问题问题、主题、出书者、出书年、ISBN或ISSN号)来查找,以及有“全文限制”的选项。这两个高级检索功能的次要不合在于,谷歌图书许诺布尔检索而不需要用户晓得布尔检索式,而Hathitrust保持了一个保守的布尔检索界面,许诺用户选择合适的运算符。谷歌图书和Hathitrust都供给了检索单一或多字符的通配符。在谷歌图书中,仅有的形式限制是图书和杂志的选择,而Hathitrust的形式限制还包含音像声像和地图材料,且它还包含了额外的检索范畴“丛书标题问题问题”。

AG平台女优Hathitrust最后没有统一的检索平台,只能通过各个成员馆的检索平台进行检索。2011年1月Hathitrust与OCLC进行合作,创立了WorldCat Local Prototype(连系目录本地原型)的用户界面,成立了统一的检索平台,支撑多言语、多路子的检索,并实现跨库检索,能够大概一次前去多个数据库的检索功能,并显示在哪一个馆中存储,避免用户逐个登录。读者不只能够大概访谒本馆的成本,还能获得合作馆的馆藏处事。可是只需Hathitrust成员馆的读者能够大概获得全文下载,其他注册用户只能浏览目录。这个检索平台实现了成本一站式检索、导航和全文获取[7]。

4.2 输出引文功能的对比

引文输出对于所无数据库来说是一个次要的特征,谷歌图书和Hathitrust都供给了这个处事,不外都很无限,用户会被提示动静输出是不完整的。谷歌图书能够大概输出到Bibtex、Endnote和Refman这些书目引文打点软件。而Hathitrust有一个“cite this”的功能,能够大概前去针对文章是MLA或者APA格局的格局化的引文,并且仅仅输出到Endnote(提示持续出书物的引文可能是不完整的)。若是Hathitrust能够大概给经常引用芝加哥形式的当局出书物的汗青学家供给芝加哥形式引文的选择,功能就更全面了。谷歌图书和Hathitrust的独霸者被限制每次输出一个记实。由于输出引文选项仅仅出此刻单个标题问题问题或目录记实里。当然两者都切确地和不合性地供给了标题问题问题、出书者、URL数据在输出引文的随机性的样本中[7]。

4.3 隐私问题的比力

在这两个图书仓储中,用户隐私都是个问题,这个不合于典型的藏书楼出书商的数据库,由于这两个图书仓储对于任安在线用户都是能够大概自由获取的。在每一个仓储里面都有一些特征对任何人都是可见的。但独霸这些成本的用户期望他们的隐私能够大概大体被呵护。

在2009年谷歌图书争端处置的会商中,谷歌收到了良多要求供给隐私呵护的请求。由于当用户通过谷歌商铺采办图书时,一些用户动静会被发送给了第三方共享。出书商接管的发卖动静这个数据被连接到了用户的谷歌账户。当用户登录到他们的谷歌账户中独霸谷歌图书,然后他们独霸“我的藏书楼”或者采办图书时,他们的勾当都将会被记实。当用户把图书添加到“我的藏书楼”时,他们必需把列表设为公开,以能够大概和其他人分享这些链接。因而这些小我动静都被公开了。

而Hathitrust的隐私政策传布鼓吹:它仅仅登录到与用户相关系的买卖中,且持续很无限的一段时间。这些登录被用来处置坚苦和问题。并传布鼓吹没有小我动静会被共享给第三方。此外它传布鼓吹,当一个问题被处置后,登录动静就会被销毁。Hathitrust独霸谷歌的一个阐发东西,独霸了一个cookie,并且把IP地址段传送给谷歌。Hathitrust的隐私政策正文了用户若何通过关掉cookies或者独霸谷歌阐发退出浏览器来退出Hathitrust的[8]。

4.4 其他个性化功能的比力

谷歌图书对于仅仅显示snippet的图书供给了一些额外的功能。第一个是“通俗词组”特征,能够大概在图书的文本中创作发觉一个词云,这供给了一个有用的发觉东西。其次是谷歌图书还在snippet显示中供给地图特征,被称作“在书中提到的位置”。这个提到的位置上还显示了谷歌地图,和一个能启动Google earth(谷歌地球)的链接。谷歌图书有一个QR号在snippet view里,能供给简单的URL到图书记实里。谷歌图书还有个功能叫“添加到我的藏书楼”,在那引文能够大概被添加进去发生列表。添加到我的藏书楼中的标题问题问题列表,默认是公开可看的,可是能够大概被设置为隐私。

AG平台女优Hathitrust有一个共享特征,许诺用户共享图书永世的链接,或者出书物中特定的页面。它也有“添加到珍藏”的功能,为用户供给小我珍藏库,满足用户专题需要,许诺终端用户把记实添加到本来成立的珍藏里或成立一个新的珍藏。小我珍藏库能够大概被公开,用户通过添加标签、美满成本的主题动静,与他人分享所珍藏的内容和小我概念、专业学问等,从而实现了用户聚合。此外,Hathitrust供给了一些谷歌图书搜刮所不具备的处事,如用户自定义搜刮、学术研究东西、便当的成本获取路子等。Hathitrust还采用一些新科技为特殊群体处事,如为盲人读者供给的有声阅读和盲人阅读等。

5 谷歌图书、Hathitrust和DPLA

AG平台女优还有一个与谷歌图书和Hathitrust都很是有渊源的大型数字藏书楼或大型仓储也就是DPLA了,它的全称叫Digital Public Library of America,即美国数字公共藏书楼。它最后是由哈佛大学的教授Robert构想出来的,部门是为了挑战贸易化的谷歌图书,但愿在公共处事上有所作为。DPLA的方针是使美国藏书楼、档案馆和博物馆的所有馆藏能被所有美国人在线并且是免费的获得,最终是给全世界的所有人获得。因而它的内容不只仅是图书,还包含图像、视听材料、手稿等,是一个国度的文化遗产,内容的丰厚程度远远逾越了谷歌图书,目前已具有逾越1100万个数字化成本内容条目可供浏览或检索。可是DPLA的图书部门大多是来历于Hathitrust的,2013年6月,DPLA发布颁布与Hathitrust合作,按照两边和谈,Hathitrust将向DPLA转移其保留的350余万册数字图书,一旦转移完成,用户将能够大概间接从DPLA网站上获取这些免费的成本。Hathitrust成为DPLA的一个最新最大的内容核心,当然Hathitrust也将通过这一合作获得更泛博的用户群体[3]。

6 国内电子书仓储的现状

AG平台女优图书出书是一个复杂的财富,全世界每年出书的图书逾越80余万种。这么大的图书数量,是任何一家零丁的藏书楼都没法收纳完全的。跟着出书数字化过程的成长趋向,大量的图书也会被转化为电子格局的图书,电子图书在将来的几年还会有更火速的成长。因而,国内藏书楼要进行功能转型和试探新的处事模式,在成长电子书成本破产时能够大概考虑成立大型的电子书仓储,能够大概大体堆积大量的图书成本,让读者能够大概大体便当获得这些成本,并进行阅读和采办,这是十分急切而需要的。但若何成立一种贸易模式,使其能够大概大体成功运转,是值得国内藏书楼思虑的工作。

国内也早无机构成立大型的电子书仓储。超星、刚毅刚烈电子图书是国内电子图书市场上最次要的两个电子图书数据库产物,占领中文电子图书市场的次要份额。以超星为例,“超星数字藏书楼”为目前生界最大的中文在线数字藏书楼,它成立于1993年,是国度“863”筹算中国数字藏书楼示范工程项目,由国内专业的数字藏书楼处置方案供给商和数字图书成本供应商——北京世纪超星动静手艺成长无限权利公司投资兴建。目前共有电子图书100多万册,年度更新,内容不变。超星自建馆以来,吸引了数以百万计的读者独霸,确实给读者带来了复杂的便当。但它在成本的数量上还不够海量,在电子书的阅读速度和阅读器阅读界面的设置等方面还不够抱负。

还有一个在国内有影响力的产物是大学数字藏书楼国际合作筹算(China Academic Digital Associative Library,CADAL),它的前身为高档学校中英文图书数字化国际合作筹算(China-America Digital Academic Library,CADAL),它是由中美两国共同倡议的一项国际合作筹算,方针是拔擢百万册规模的教育及科研方面的数字化文献成本,敦促高档教育的数字化图书成本的共建共享。涵盖了理、工、农、医、人文、社科等多学科,参与CADAL拔擢的高档院校和科研单元能够大概通过互联网免费共享成本。项目一期拔擢了102.3万册中英文数字成本,项目二期筹算拔擢150万册/件数字成本。截至2013年5月,该数据库里有古籍223910册、民国图书148642册、民国期刊47410册、现代图书793205册、学位论文136098册、绘画3427件、视频4364种、英文图书320669册。虽然它的初志很好,成本品种也很丰厚,且能供给包含图像检索等的多种检索编制,可是拔擢迟缓,成本数量还不够规模,缺乏持久可持续性拔擢的无效机制。

7 谷歌图书和Hathitrust为藏书楼电子书的成长带来的启迪

谷歌图书和Hathitrust的成功运转是立异的贸易模式的最佳暗示。对于国内藏书楼成长大型电子书仓储破产具有必然的启迪。通过比力谷歌图书和Hathitrust在各个方面的劣势和特点,我们能够大概获得以下的一些启迪。

7.1 合作成长的劣势

AG平台女优在成立藏书楼电子书成本仓储时,合作成长具有很是大的劣势,它许诺机构成立一个仓储来保留和分发数字集结,并且成长一种能够大概大体通过合作编制来打点数字和纸质成本的共享策略,方针是确保文化记实能够大概大体被保留并且在将来能够大概大体持久被获取。

在谷歌图书和Hathitrust这两大系统中的高校都是研究型大学,此中有不少是全美出名的大学。参与项方针每个高校在动静手艺、数字藏书楼、项目打点等范畴都具有全面的雄厚的手艺力量,而加利福尼亚大学藏书楼在数字藏书楼成长和机构内部合作等方面的立异更是名声赫赫。在谈到Hathitrust的功能时,Hathitrust施行总裁John Wilkin说:“在协作之前,每个藏书楼的馆藏都是孤立的。此刻,我们将这些馆藏整合到一路,聚合了成本,消弭了妨碍,也供给了有价值的研究东西,阐扬了全体大于部门之和的传染打动。”[5]谷歌图书和Hathitrust凭仗本身的手艺与成本劣势将数字化功能免费供给给合作藏书楼作为其数字化馆藏,这对想要进行馆藏数字化内容成本的具有者藏书楼来说是很是现实的好处。从而以这种双赢的编制多快好省地集聚了内容成本。

国内高校之间也能够大概结成联盟,成立高效共赢的好处分拨机制,构成一个类似Hathitrust研究机构的电子图书仓储,还能够大概考虑与类似谷歌的贸易公司进行合作,将它们的图书数字成本转换格局后,导入到本人的平台中,高校藏书楼能够大概依托本人的平台,独霸这些成本。这个仓储能够大概一次性向贸易公司连系采购数字成本,或向研究机构缴纳转换保留数字成本的年费,从而能够大概削减各个高校馆的破钞。而各个高校馆的特色成本,颠末数字化当前也能够大概插手到本人馆的仓储平台中,与联盟中的所有成员共享。多么便能真正实现大量优良电子书成本的共享。

7.2 海量的内容成本

成长藏书楼电子书仓储破产,不只是集中地把册本搬到网上。电子书是互联网下的产物,需要颠末加工改变呈现形式来处事读者。

AG平台女优谷歌图书和Hathitrust都具有海量的电子书内容,并且对内容进行了深度加工整合,具有高度整合的优良内容成本是它们成长的策略核心。虽然谷歌图书和Hathitrust收录的重点略有不合,但它们把上千万册的处于离散形态的图书全文成本高度集成,给全球亿万用户带来了便当与合用。复杂的用户成本又能吸引上游的内容供给商和轻贱的终端设备商加盟合作,从而能够大概实现对全行业的主导与整合[9]。

国内藏书楼要成立电子书仓储必需能包管具有大量颠末整合的成本内容。数字时代需要“内容为王”,海量的成本才能带来规模效应。

7.3 强大的数据库功能

谷歌图书和Hathitrust都有强大的数据库功能,起首是强大的检索功能,两者的检索策略和界面显示都很是前辈。谷歌图书的全文搜刮功能和片段显示功能,使图书内容变活,这使本来不以找书为方针的用户也能发觉与搜刮词相关的图书。其次是强大的个性化功能,出格是Hathitrust顺应互联网的趋向,给用户供给了良多人道化的功能。

跟着算计机的普及,收集读者不竭添加,藏书楼在电子图书处事系统中应设置目录和全文搜刮,供给各类聚类系统便当读者找全某方面图书;并能够大概大体独霸国际通用标准格局的全文浏览器如ACROBAT等,令读者不消再费劲去安装各类浏览器。还应将电子图书搜刮引擎的功能整合到藏书楼的OPAC(Open Public Access Catalogue,开放的公共查询目录)处事中去,使得读者在搜刮本馆图书成本的同时也能搜刮到收集上的图书。多么能够大概扩大本馆读者搜刮图书的范畴,充实独霸收集上的虚拟馆藏成本。并供给馆际互借平台,实现各馆之间电子书的共享。

藏书楼要成立为泛博读者所喜爱的且独霸效率高的电子书仓储,要供给便当读者独霸的个性化的功能。如在电子图书处事系统中可供给抢手图书下载排行榜、图书导读、图书引见、图书保举等功能,并可设置读者颁布评论和读者对图书评级的功能。还能够大概供给图书地址书库的分布图或坐标等具体位置,让读者能按照图示火速找到图书;并供给发卖该书的网上书店的名称,为需要采办图书的读者供给便当。还能够大概通过RSS定制或推送功能按期供给所需的新书入库功能,同时供给小我定制和小我虚拟书架功能,能够大概珍藏感乐趣的图书在书架中,并奉告该书的其他珍藏者,便当进行互换。供给多种引文输出的编制,以实现个性化的独霸。在供给个性化功能的同时也要寄望呵护读者的隐私。

7.4 版权策略的助推

版权问题不竭是数字出书企业重点要处置的问题,由于它是成立海量内容成本的羁绊之一。版权具有必然的特殊性,它随印刷手艺的普及和现代出书业的成长而呈现和确立,是各个时代出书者、盗版者、版权人与公家四者之间好处博弈的产物。

“反其道而行之的版权策略是谷歌实现内容制胜的环节,为谷歌博得时间,降低买卖成本”。[9]数字出书中的版权策略也是要以公家的合法权益和经济效益为考虑重点,不能踩踏他人的合法权益。这个充满风险的过程中所激发的各类纠缠和判决也是敦促版权立法的次要编制。谷歌图书和Hathitrust都在履历了版权纠缠后,十分寄望实行严酷的版权轨制。因而藏书楼要实行电子图书的仓储策略时既要寄望尊重图书的版权,呵护版权所有者的好处,又要矫捷的独霸版权策略,为不合的版权许可让渡签定不合的版权和谈,为电子图书的仓储策略铺平道路。

7.5 成本质量的保障

AG平台女优电子书仓储成本质量的保障也是次要的一方面,高质量的电子书成本是整个仓储能够大概无效运转的环节。谷歌图书和Hathitrust都竭尽全力勤恳于提高电子书的质量,它们前辈的数字化扫描手艺,大型的数据存储的设备以及运作模式,都保障了仓储内电子书的质量。国内藏书楼要成立大型的电子书仓储也必需重视进行数字转化时的电子版本的质量,不能求快求多,每一本书在进行扫描的时候都要包管切确率、清晰度等质量问题。多么仓储成本越来越多之后,才有可持续成长的可能。

8 结语

AG平台女优通过比力谷歌图书和Hathitrust之间的成长过程、成立方针、成本数量、成本质量、包含数字化扫描、存储、运转系统、版权打点的运作模式以及两者的数据库功能,能够大概看出谷歌图书和Hathitrust各自具有的特点和劣势。中国保守文化积厚流光,泛博的中文图书成本也需要被持久保留、广为传布及能永世被世人所获取。此刻斥地的几个中文电子图书数据库产物虽然已经阐扬了复杂的传染打动,可是还有继续汲引的空间。谷歌图书和Hathitrust对于国内藏书楼成长大型电子书仓储破产具有很好的自创,海量的内容成本、强大的数据库功能、版权策略的助推、合作成长的劣势和成本质量的保障是几大成功要素,国内藏书楼应紧跟时代成长趋向,牢牢抓住优良机缘,领受谷歌图书和Hathitrust的前辈理念和成功模式,为国内成长大型电子书仓储破产做出贡献,推进中国文化精髓的传布。

参考文献:

[1]徐跃权,董贺,孔悦凡.打点学视角下的Google图书搜刮项目解析[J].藏书楼学研究(理论版),2010(1):37-40.

[2]周军兰.Google数字藏书楼筹算及其影响阐发[J].谍报材料工作,2006(2):69-71.

[3]Naomi Eichenlaub.Checking in with Google books,Hathitrust and the DPLA[J].Computers in Libraries,2013,33(9):6-9.

[4]周小文.谷歌数字藏书楼的运作模式对我国数字藏书楼成长的启迪[J].新世纪藏书楼,2011(1):68-69.

[5]李咏梅,袁学良,唐李杏.美国HathiTrust项目及其对我国高校藏书楼数字化的启迪[J].四川藏书楼学报,2011(3):35-37.

[6]夏立新,金晶.从Google收集藏书楼筹算的成功启动看藏书楼数字化成长[J].谍报科学,2009,27(4):485-488.

[7]Laura Sare.A Comparison of HathiTrust and Google Books Using Federal Publications[J].Practical Academic Librarianship:The International Journal of the SLA Academic Division,2012,2(1):1-25.

[8]单蓉蓉,陆铭,魏可.云环境下HathiTrust的用户处事研究[J].藏书楼论坛,2012,32(6):69-73.

weinxin
扫码,关怀科塔学术公家号
勤恳于成为国内领先的科研与学术成本导航平台,让科研工作更简单、更无效率。内容专业,动静切确,更新及时。
avatar