Google 图书筹算的丢失:它可否死灰复然?

2018年10月11日09:22:12Google 图书筹算的丢失:它可否死灰复然?已封锁评论 114 views

Google 图书为什么会丢失?

Google 图书筹算的丢失:它可否死灰复然?

编者按:Google 图书是 Google 的第一个“登月”项目(Moonshot),但15年过去了,这个项目还没有“发射”。而之后的其他“登月项目”如无人驾驶汽车、Google Glass、平流层收集气球等都惹起了人们的广泛关怀。本文试探了我们所不太清晰的 Google 图书筹算。

AG平台女优书能够大概做任何工作。书能够大概劈开我们心里的冰山。

你晓得这句话出自于哪位作者的哪本书吗?若是纯挚凭仗人的回忆力的话,很难做出回覆,有人会想到去 Google 浏览器进行搜刮,虽然 Google 供给了一些引用此句的网址链接,但凡是这些链接都不靠得住。为了获得这个问题的切确谜底,你能够大概独霸 Google 图书搜刮,它能搜刮出数百万数字化的文本。

AG平台女优独霸Google 图书搜刮之后,你会发觉,“书能够大概劈开我们心里的冰山。”这句话出自卡夫卡在1904年1月写给奥斯卡·波拉克的一封信“给伴侣、家庭和编纂的信件”。

AG平台女优Google 图书搜刮的筹算很是惊人。15年前,它是一个野心勃勃的项目:要把其搜刮范畴扩张到线下世界。 Google 与一些藏书楼合作,扫描数百万本印刷册本,想把所有线下册本都导入其数据库。

Google 连系创始人Sergey Brin 暗示,“人类学问无数千年,可能最精深的学问都被藏在书中。若是 Google 没有这个,就太可惜了。”

今天, Google 以其“登月”文化而闻名,接管世界性的复杂挑战。 Google 图书是良多老资历的 Google 员工共同履历过的,公司的第一个“登月”项目。扫描所有册本!

Google 晚期时候有一个“乌托邦藏书楼”的愿景,将在线动静搜刮这种便当耽搁到线下。在当时看来这个筹算就像是图书世界的一个奇点: Google 会将所有册本传到线上,以某种编制发生人类认识的相位变化。现实上, Google 图书已经进入到筹算中期,把2500多万的文字片段传送到了它的数据库中。

Google 仍然在对峙他们的初志,当然除了这些,这里还依托了其他人的但愿。

然而, Google 图书的夸姣愿景被打破了。这个项目发布后不久,很快碰着了法令问题,作者们抗议 Google 加害他们的版权,出书商同样抗议以呵护其行业免受侵害。随之而来的是数十年的法令沙场,而这场纠缠究竟在旧年有了告终,美国最高法院驳回了作者协会的呼吁,长久以来笼盖在 Google 头顶的乌云究竟散去。

AG平台女优这最终仍是改变了 Google 图书的筹算,对于陷入法令纠缠数十年的 Google 和 Google 图书的项目员工来说,他们获得了动力和野心。

在研究这个故事时,我曾担心 Google 可否已经放弃这个项目。 Google 图书不竭有些奇妙没有解开,很像 Google 其他的项目作风。但当我起头提问时,大师杜口不言,几个礼拜以来,似乎没有任何人能够大概谈论 Google 图书目前的环境。

AG平台女优Google 图书的“汗青”页面在2007年关掉了,其博客也在2012年遏制更新,之后 Google 图书又被放到次要的 Google 搜刮博客,此中相关图书的动静几乎找不到。  Google 图书是一项很成心义的处事并持续获得外界关怀。但作为一个还在进行中的项目,几乎没有任何动静被发布出来,就仿佛磨灭了一样。何况 Google 图书的法令纠缠还胜出了,所有这一切都显得匪夷所思。

AG平台女优我向几个已经分隔 Google 的校友体味时,有几小我提到他们思疑 Google 可否已经遏制扫描册本。最后,我体味到,确实还有一些 Google 员工在图书搜刮这个项目里工作,并且还在添加新书,虽然此时添加新书的速度已赶不上2010-2011年的时候了。

Google 工程师Stephane Jaskiewicz暗示:“我们的重心不在间接面向用户的界面和功能,这更像幕后工作,美满手艺。通过获取内容并进行得本地措置,我们能够大概在线查看整本书,然后调整搜刮算法。”

AG平台女优贯穿 Google 图书的一个工作重点,是不竭改良扫描新书的扫描仪。2002年,项目刚起头时,拉里·佩奇和玛丽莎·梅耶尔估算扫描所有册本可能需要多长时间,他们在台架上设置了一台数码相机,并独霸节拍器进行按时。当公司起头当真对待这个项目时,要提高扫描的效率,对每一个操作细节都很是讲究。

Jaskiewicz说扫描仪确实不竭地在更新,新版本每六个月推出一次。在项目启动时,LED照明灯不够多,因而大师要研究手艺让人类操作者更无效地翻页。 “这几乎就像在弹奏吉他。”Jaskiewicz说。 “所以我们需要找到很会翻页的人。”

不外, Google 图书的大部门工作仍然是要确保搜刮的质量,确保用户能快速找到所需的图书内容,这其实是个枯燥的游戏,不像是在“登月”,更像是在维修卫星。

AG平台女优为了体味 Google 图书是若何走到此刻这一步的,你需要节制一些相关版权法的内容,册本分为三类:一类是公开的,主若是在1923年以前出书的图书,以及作者放弃版权的图书,意味着你能够大概独霸这些册本内容来做你想要做的;第二类是在出书并有版权限制的,这一类有大量册本,若是你想对这些册本内容做任何工作,必需与作者和出书商协商;第三类是指没有出书可是仍有版权限制的册本,俗称“孤儿作品”。美国版权局的一项研究剖明,这些书中有17%到25%的出书作品,70%的特殊珍藏品。

有多少本书是多么的?没有人晓得切当谜底,这还取决于你若何定义“书”,这并不像听起来那么容易。 2010年,名为Leonid Taycher的一位 Google 工程师撰写了一篇博客文章,此中提到了 Google 图书的元数据,并得出结论,当时的数字约为1.3亿。其他人看到这个数字,认为是不其实的。其实的数字可能略低于Taycher的数字,但远高于 Google 图书目前的2500多万本。

Google 图书中的很大部门都是“孤儿作品”。你能够大概从藏书楼借一本,或在二手书店买一本。可是,一旦 Google 图书将它们全数扫描并将放在互联网上,每小我似乎都想要一本。

AG平台女优接下来的法令纠缠,现实上是对这些“孤儿作品”的监管斗争, Google、出书商和作者都想要节制这些书的数字化。三方最终达成了《 Google 图书和谈》, Google 能够大概继续扫描供给这些“orphan works”,并拨出资金来填补作者和出书商。但在2011年,一名联邦法官拒绝了这一和谈,出处是有人担心 Google 作为一个私家营利公司,会变成一个垄断的“宇宙藏书楼”并收取费用。

和谈无效, Google 就恢复了扫描,出书商也想参与电子书市场这一新兴破产,在将来的图书市场能超越 Google ,我们已经看到了亚马逊Kindle的成功。但作家协继续提告状讼,指责 Google 未经版权持有人许可就对图书进行扫描和索引。虽然 Google 很富有,但也无法领取数十亿美元的版权加害罚金(数百万册书,每本事取数千美元)。此事不竭迟延到旧年,最高法院鉴定 Google 在搜刮功能中有权分类图书,并供给简短的图书片段,仿佛网页一样。

这项裁决代表着 Google 和项目所有人取得的一大前进。  Google 图书的产物参谋Erin Simon说:“此刻我们创作发了然先例,每小我都收获颇丰。 “这将被写进教科书中,让大师领汇合理独霸的意义。”

作家协会虽然在诉讼中失败了,但他们相信这场战役是值得的。

协会主席James Gleick说, Google 从一路头就做错了。 “ Google 在起头这个项目时,没有考虑到需要这些原创作者的支撑。大公司对创作发觉性工作不够尊重。“ Google 认为本人此刻是“宇宙”的家丁了,但其实他们理当只是被授权独霸这本书罢了。”

我们理所当然地认为诉讼的胜利意味着 Google 图书这个项方针复苏,也许 Google 会改良扫描仪,全速实施项目!可是证据显示,环境并非如斯。启事之一是数据库已经很大了。 “我们有固定的收入预算”, Google 工程师Stephane Jaskiewicz说道,“刚起头的时候,我们扫描藏书楼每个架子上的书,有时会发觉良多几次的内容“。而此刻 Google 会供给给合作的藏书楼一个”选择列表“。

AG平台女优Google 的热情撤离,还有此外正文:诉讼带来的意志消沉。此刻 Google 有良多打动听心的新项目,这些项目熠熠生辉且见效很快。然而对于 Google 图书项目而言,虽然扫描完所有的册本几乎很有好处,却几乎不成能真正“Change the world”。

对于良多爱书之人来说, Google 把本人视为“宇宙藏书楼”是无意义的,这个角色刚好是属于一些公共机构的。 Google 让大师晓得了“扫描所有册本”是能够大概实现的,良多人会涌上来处置这个问题。Brewster Kahle的网上档案馆,存储了整个收集的汗青快照,它们已经有本人的扫描操作。从2010年起头,美国数字公共藏书楼的哈佛伯克曼核心成为了此刻良多藏书楼和机构互换电子图书藏品的场所。

AG平台女优Google 与大学藏书楼合作扫描他们的珍藏,同意给藏书楼扫描数据的副本,在2008年,HathiTrust 起头组织和共享这些文件。HathiTrust有125个成员组织和机构,“相信通过合作,我们能够大概更好地打点研究和文化遗产,而不是让 Google 多么的组织单打独斗。”HathiTrust主席Mike Furlough说道。当然还有国会藏书楼,他们的新率领人Carla Hayden许诺会通过数字化开放公家的珍藏品。

在某种意义上,这些都是 Google 图书的合作敌手。但现实上, Google 远远领先于他们,他们中没有一个可能赶上 Google 。大师都大白, Google 破钞数亿美元来成立 Google 图书,没有人会情愿花这笔钱再做一个“ Google 图书”项目。

然而这些非营利组织相对于 Google 有一个劣势: Google 会由于公司策略变化影响项方针优先级变化,而非营利性组织不会。他们最次要的破产就是册本,不会遭到告白破产或智高手机生态系统之类的干扰。与 Google 不合,在走进读者这件工作上,他们永世充满热情,寻求新的编制来连接读者与册本。

AG平台女优有一种说法,无休止的诉讼会变成一阵饥饿海潮,覆没所有的参与者(原句出自狄更斯的Bleak House,一场跨世纪的房地产和平,其诉讼的法令费用侵吞了其所有资产)。在科技范畴,像出名的IBM被反托拉斯诉讼案束缚多年,这给其合作敌手供给了抢占一席之地的机缘,当微软正忙于这场法令纠缠时, Google 就控制了搜刮行业。

AG平台女优Google 图书有其本身的价值。

AG平台女优正如作家协会主席Gleick指出的那样, Google 抱着“(过后)要求饶恕而不是(事先)请求许可”的立场启动了这个项目,这是此刻良多创业公司的做法。从某种意义上说, Google 图书就像学问产权界的Uber,一种阅读共享的处事,等待将来向其想象的一样成长,处事于整小我类。这很无邪,很快 Google 图书的否决者磅礴而来。

AG平台女优可是, Google 的这个教训让其收益无限,成长得愈发强大:工程是伟大的,但这不是所有问题的谜底。有时候你也要进修政治的编制,向好处悠关者就教,与盟友结队,向合作敌手妥协。因而, Google 雇佣了一批游说者和律师,在其他的问题上也采纳这种法子,仿佛措置YouTube版权问题这件事,更为昌大,功能也更好。 Google 成长了,它能够大概做到“登月”,也大白了不是所有“登月”城市实现。

Google 有可能在“orphan works”问题上会再次采纳步履。可是看起来它会等待别人先出头。 Jaskiewicz说:“若是法令不变,我不晓得我还有什么能够大概做的。”

当我在写这篇文章时,我不竭在回忆起几年前读过的一本书,《生命之书》(Mr. Penumbra’s 24-Hour Bookstore),这是罗宾·斯隆写得想入非非的书痴人式小说,讲述了一个百年汗青的奇妙社会,每小我用谜语写下本人的“生命之书”。  Google 在此中扮演了一个至关次要的角色,由于故事的核心环抱着副角试图揭开谜语。现实证明,即便是 Google 无可对比的动静能力也做不到这一点。这需要副角和一本特此外书,供给了一个风趣的见识。在斯隆结束这个故事时说道,“完全切确的书,出此刻完全切确的时间”。

这本书提示我们, Google 的工程式编制并不是全能的。他们将一个复杂挑战分化为几个可措置的部门,再将其转化为数据,并把持无效的常规法度,这是一种无效的工作编制。它能够大概带着你向这个“乌托邦藏书楼”迈进一大步,却无法让你达到最终方针地。

即便你达到了方针地,那也不是阿谁“乌托邦藏书楼”,还会有更艰苦的工作在前方。由于当你把一本书变成数据时,你能够大概很容易地找到索引和搜刮的片段,可是这没有从根柢上让阅读变得更容易,阅读让你姑且地走进别人的世界,这是无法代替的体验。

AG平台女优到此刻为止,读书的体验需要人类的全心投入。像 Google 图书多么的索引能协助我们查找和阐发文本,但独霸它们仍然是我们本人的工作。无需细想(with no grand epiphany),也许追求数字化所有册本必然会以失望告终。

AG平台女优像良多科技欢愉喜爱者一样,斯隆说他也经常独霸 Google 图书,但很可惜, Google 图书没有继续成长,没有再继续震动我们。 “我但愿这是一个闪闪发光的,斑斓又有用的东西,不竭地前进,变得越来越风趣”他说。他也想晓得:我们理解,由于法令启事, Google 无法让大师随便阅读这数百万计的册本,但若是它们可供机械阅读呢?

斯隆指出,机械进修在火速成长,“机械进修的文化有Homebrew Computer Club和晚期互联网的感应传染。可是要取得进展,研究人员需要大量的数据来熬炼他们的法度。若是 Google 能够大概找到一种编制取得图书语料库,按类型,主题,时间等能想到的编制豆割,并将其供给给机械进修研究人员,学校业余欢愉喜爱者和其他人,我打赌必然会有一些风趣的功能。“ 他认为 Google 已经在多么做了,但 Google 图书的 Jaskiewicz 和其他人都不会对外界透露。

AG平台女优也许,当将来的神经收集模子有了自我认识,也沉浸在卡夫卡的文字中,会仿佛我们人类一样,通过阅读对的书,打碎心里的冰山而感应安抚(卡夫卡 “书能够大概劈开我们心里的冰山”)。又大体,它与人类不合,它将能够大概大体阅读所有扫描的册本——真正读懂册本,那又会若何?

AG平台女优译文:这只萌萌  编纂:杨志芳

原文:http://www.wired.com/2017/04/how-google-book-search-got-lost/

weinxin
扫码,关怀科塔学术公家号
勤恳于成为国内领先的科研与学术成本导航平台,让科研工作更简单、更无效率。内容专业,动静切确,更新及时。
avatar