Google 图书为什么会迷失?
书可以做任何事情。书可以劈开我们内心的冰山。
你知道这句话出自于哪位作者的哪本书吗?如果单纯凭借人的记忆力的话,很难做出回答,有人会想到去 Google 浏览器进行搜索,虽然 Google 提供了一些引用此句的网址链接,但通常这些链接都不可靠。为了得到这个问题的准确答案,你可以使用 Google 图书搜索,它能搜索出数百万数字化的文本。
使用Google 图书搜索之后,你会发现,“书可以劈开我们内心的冰山。”这句话出自卡夫卡在1904年1月写给奥斯卡·波拉克的一封信“给朋友、家庭和编辑的信件”。
Google 图书搜索的计划非常惊人。15年前,它是一个野心勃勃的项目:要把其搜索范围扩张到线下世界。 Google 与一些图书馆合作,扫描数百万本印刷书籍,想把所有线下书籍都导入其数据库。
Google 联合创始人Sergey Brin 表示,“人类知识有数千年,可能最精湛的知识都被藏在书中。如果 Google 没有这个,就太遗憾了。”
今天, Google 以其“登月”文化而闻名,接受世界性的巨大挑战。 Google 图书是很多老资历的 Google 员工共同经历过的,公司的第一个“登月”项目。扫描所有书籍!
Google 早期时候有一个“乌托邦图书馆”的愿景,将在线信息搜索这种便利延伸到线下。在当时看来这个计划就像是图书世界的一个奇点: Google 会将所有书籍传到线上,以某种方式产生人类意识的相位变化。实际上, Google 图书已经进入到计划中期,把2500多万的文字片段传送到了它的数据库中。
Google 仍然在坚持他们的初衷,当然除了这些,这里还寄托了其他人的希望。
然而, Google 图书的美好愿景被打破了。这个项目发布后不久,很快遇到了法律问题,作者们抗议 Google 侵犯他们的版权,出版商同样抗议以保护其行业免受侵害。随之而来的是数十年的法律战场,而这场纠纷终于在去年有了了结,美国最高法院驳回了作者协会的呼吁,长久以来笼罩在 Google 头顶的乌云终于散去。
这最终还是改变了 Google 图书的计划,对于陷入法律纠纷数十年的 Google 和 Google 图书的项目员工来说,他们失去了动力和野心。
在研究这个故事时,我曾担心 Google 是否已经放弃这个项目。 Google 图书一直有些秘密没有解开,很像 Google 其他的项目作风。但当我开始提问时,大家闭口不言,几个星期以来,似乎没有任何人可以谈论 Google 图书目前的情况。
Google 图书的“历史”页面在2007年关掉了,其博客也在2012年停止更新,之后 Google 图书又被放到主要的 Google 搜索博客,其中有关图书的信息几乎找不到。 Google 图书是一项很有意义的服务并持续得到外界关注。但作为一个还在进行中的项目,几乎没有任何信息被公布出来,就如同消失了一样。况且 Google 图书的法律纠纷还胜出了,所有这一切都显得匪夷所思。
我向几个已经离开 Google 的校友了解时,有几个人提到他们怀疑 Google 是否已经停止扫描书籍。最后,我了解到,确实还有一些 Google 员工在图书搜索这个项目里工作,而且还在增加新书,虽然此时增加新书的速度已赶不上2010-2011年的时候了。
Google 工程师Stephane Jaskiewicz表示:“我们的重心不在直接面向用户的界面和功能,这更像幕后工作,完善技术。通过获取内容并进行适当地处理,我们可以在线查看整本书,然后调整搜索算法。”
贯穿 Google 图书的一个工作重点,是不断改进扫描新书的扫描仪。2002年,项目刚开始时,拉里·佩奇和玛丽莎·梅耶尔估算扫描所有书籍可能需要多长时间,他们在台架上设置了一台数码相机,并使用节拍器进行定时。当公司开始认真对待这个项目时,要提高扫描的效率,对每一个操作细节都非常讲究。
Jaskiewicz说扫描仪确实不停地在更新,新版本每六个月推出一次。在项目启动时,LED照明灯不够多,因此大家要研究技术让人类操作者更有效地翻页。 “这几乎就像在弹奏吉他。”Jaskiewicz说。 “所以我们需要找到很会翻页的人。”
不过, Google 图书的大部分工作仍然是要确保搜索的质量,确保用户能快速找到所需的图书内容,这其实是个枯燥的游戏,不像是在“登月”,更像是在维修卫星。
为了了解 Google 图书是如何走到现在这一步的,你需要掌握一些有关版权法的内容,书籍分为三类:一类是公开的,主要是在1923年以前出版的图书,以及作者放弃版权的图书,意味着你可以使用这些书籍内容来做你想要做的;第二类是在出版并有版权限制的,这一类有大量书籍,如果你想对这些书籍内容做任何事情,必须与作者和出版商协商;第三类是指没有出版但是仍有版权限制的书籍,俗称“孤儿作品”。美国版权局的一项研究表明,这些书中有17%到25%的出版作品,70%的特殊收藏品。
有多少本书是这样的?没有人知道确切答案,这还取决于你如何定义“书”,这并不像听起来那么容易。 2010年,名为Leonid Taycher的一位 Google 工程师撰写了一篇博客文章,其中提到了 Google 图书的元数据,并得出结论,当时的数字约为1.3亿。其他人看到这个数字,认为是不真实的。真实的数字可能略低于Taycher的数字,但远高于 Google 图书目前的2500多万本。
Google 图书中的很大部分都是“孤儿作品”。你可以从图书馆借一本,或在二手书店买一本。但是,一旦 Google 图书将它们全部扫描并将放在互联网上,每个人似乎都想要一本。
接下来的法律纠纷,实际上是对这些“孤儿作品”的监管斗争, Google、出版商和作者都想要控制这些书的数字化。三方最终达成了《 Google 图书协议》, Google 可以继续扫描提供这些“orphan works”,并拨出资金来补偿作者和出版商。但在2011年,一名联邦法官拒绝了这一协议,理由是有人担心 Google 作为一个私人营利公司,会变成一个垄断的“宇宙图书馆”并收取费用。
协议无效, Google 就恢复了扫描,出版商也想参与电子书市场这一新兴业务,在未来的图书市场能超越 Google ,我们已经看到了亚马逊Kindle的成功。但作家协继续提起诉讼,指责 Google 未经版权持有人许可就对图书进行扫描和索引。虽然 Google 很富有,但也无法支付数十亿美元的版权侵犯罚金(数百万册书,每本支付数千美元)。此事一直拖延到去年,最高法院判定 Google 在搜索结果中有权分类图书,并提供简短的图书片段,如同网页一样。
这项裁决代表着 Google 和项目所有人取得的一大进步。 Google 图书的产品顾问Erin Simon说:“现在我们创造了先例,每个人都受益匪浅。 “这将被写进教科书中,让大家了解合理使用的意义。”
作家协会虽然在诉讼中失败了,但他们相信这场战斗是值得的。
协会主席James Gleick说, Google 从一开始就做错了。 “ Google 在开始这个项目时,没有考虑到需要这些原创作者的支持。大公司对创造性工作不够尊重。“ Google 认为自己现在是“宇宙”的主人了,但其实他们应该只是被授权使用这本书而已。”
我们理所当然地认为诉讼的胜利意味着 Google 图书这个项目的复苏,也许 Google 会改进扫描仪,全速实施项目!但是证据显示,情况并非如此。原因之一是数据库已经很大了。 “我们有固定的支出预算”, Google 工程师Stephane Jaskiewicz说道,“刚开始的时候,我们扫描图书馆每个架子上的书,有时会发现很多重复的内容“。而如今 Google 会提供给合作的图书馆一个”选择列表“。
Google 的热情退却,还有别的解释:诉讼带来的意志消沉。如今 Google 有很多激动人心的新项目,这些项目熠熠生辉且见效很快。然而对于 Google 图书项目而言,虽然扫描完所有的书籍的确很有益处,却几乎不可能真正“Change the world”。
对于许多爱书之人来说, Google 把自己视为“宇宙图书馆”是无意义的,这个角色恰恰是属于一些公共机构的。 Google 让大家知道了“扫描所有书籍”是可以实现的,很多人会涌上来解决这个问题。Brewster Kahle的网上档案馆,存储了整个网络的历史快照,它们已经有自己的扫描操作。从2010年开始,美国数字公共图书馆的哈佛伯克曼中心成为了现在许多图书馆和机构交换电子图书藏品的场所。
Google 与大学图书馆合作扫描他们的收藏,同意给图书馆扫描数据的副本,在2008年,HathiTrust 开始组织和共享这些文件。HathiTrust有125个成员组织和机构,“相信通过合作,我们可以更好地管理研究和文化遗产,而不是让 Google 这样的组织单打独斗。”HathiTrust主席Mike Furlough说道。当然还有国会图书馆,他们的新领导人Carla Hayden承诺会通过数字化开放公众的收藏品。
在某种意义上,这些都是 Google 图书的竞争对手。但实际上, Google 远远领先于他们,他们中没有一个可能赶上 Google 。大家都明白, Google 花费数亿美元来建立 Google 图书,没有人会愿意花这笔钱再做一个“ Google 图书”项目。
然而这些非营利组织相对于 Google 有一个优势: Google 会因为公司战略变化影响项目的优先级变化,而非营利性组织不会。他们最重要的业务就是书籍,不会受到广告业务或智能手机生态系统之类的干扰。与 Google 不同,在走进读者这件事情上,他们永远充满热情,寻求新的方式来连接读者与书籍。
有一种说法,无休止的诉讼会变成一阵饥饿浪潮,淹没所有的参与者(原句出自狄更斯的Bleak House,一场跨世纪的房地产战争,其诉讼的法律费用侵吞了其所有资产)。在科技领域,像著名的IBM被反托拉斯诉讼案束缚多年,这给其竞争对手提供了抢占一席之地的机会,当微软正忙于这场法律纠纷时, Google 就主宰了搜索行业。
Google 图书有其自身的价值。
正如作家协会主席Gleick指出的那样, Google 抱着“(事后)要求宽恕而不是(事先)请求许可”的态度启动了这个项目,这是现在很多创业公司的做法。从某种意义上说, Google 图书就像知识产权界的Uber,一种阅读共享的服务,期待未来向其想象的一样发展,服务于整个人类。这很天真,很快 Google 图书的反对者汹涌而来。
但是, Google 的这个教训让其收益无穷,成长得愈发强大:工程是伟大的,但这不是所有问题的答案。有时候你也要学习政治的方法,向利益悠关者请教,与盟友结队,向竞争对手妥协。因此, Google 雇佣了一批游说者和律师,在其他的问题上也采取这种办法,如同处理YouTube版权问题这件事,更为谨慎,结果也更好。 Google 成长了,它可以做到“登月”,也明白了不是所有“登月”都会实现。
Google 有可能在“orphan works”问题上会再次采取行动。但是看起来它会等待别人先出头。 Jaskiewicz说:“如果法律不变,我不知道我还有什么可以做的。”
当我在写这篇文章时,我一直在回想起几年前读过的一本书,《生命之书》(Mr. Penumbra’s 24-Hour Bookstore),这是罗宾·斯隆写得异想天开的书呆子式小说,讲述了一个百年历史的秘密社会,每个人用谜语写下自己的“生命之书”。 Google 在其中扮演了一个至关重要的角色,因为故事的中心围绕着主角试图揭开谜语。事实证明,即使是 Google 无可比拟的信息能力也做不到这一点。这需要主角和一本特别的书,提供了一个有趣的见解。在斯隆结束这个故事时说道,“完全正确的书,出现在完全正确的时间”。
这本书提醒我们, Google 的工程式方法并不是万能的。他们将一个巨大挑战分解为几个可处理的部分,再将其转化为数据,并应用有效的常规程序,这是一种有效的工作方式。它可以带着你向这个“乌托邦图书馆”迈进一大步,却无法让你到达最终目的地。
即使你到达了目的地,那也不是那个“乌托邦图书馆”,还会有更艰苦的工作在前方。因为当你把一本书变成数据时,你可以很容易地找到索引和搜索的片段,但是这没有从根本上让阅读变得更容易,阅读让你暂时地走进别人的世界,这是无法代替的体验。
到如今为止,读书的体验需要人类的全心投入。像 Google 图书这样的索引能帮助我们查找和分析文本,但使用它们仍然是我们自己的工作。无需细想(with no grand epiphany),也许追求数字化所有书籍一定会以失望告终。
像许多科技爱好者一样,斯隆说他也经常使用 Google 图书,但很遗憾, Google 图书没有继续发展,没有再继续震撼我们。 “我希望这是一个闪闪发光的,美丽又有用的东西,不断地进步,变得越来越有趣”他说。他也想知道:我们理解,因为法律原因, Google 无法让大家随意阅读这数百万计的书籍,但如果它们可供机器阅读呢?
斯隆指出,机器学习在迅速发展,“机器学习的文化有Homebrew Computer Club和早期互联网的感觉。但是要取得进展,研究人员需要大量的数据来训练他们的程序。如果 Google 可以找到一种方式取得图书语料库,按类型,主题,时间等能想到的方式分割,并将其提供给机器学习研究人员,学校业余爱好者和其他人,我打赌一定会有一些有趣的成果。“ 他认为 Google 已经在这样做了,但 Google 图书的 Jaskiewicz 和其他人都不会对外界透露。
也许,当未来的神经网络模型有了自我意识,也沉浸在卡夫卡的文字中,会如同我们人类一样,通过阅读对的书,打碎内心的冰山而感到慰藉(卡夫卡 “书可以劈开我们内心的冰山”)。又或许,它与人类不同,它将能够阅读所有扫描的书籍——真正读懂书籍,那又会如何?
译文:这只萌萌 编辑:杨志芳
原文:https://www.wired.com/2017/04/how-google-book-search-got-lost/
