谷歌图书与Hathitrust的比较与启示

2018年10月11日08:44:45谷歌图书与Hathitrust的比较与启示已关闭评论 231 views

作者简介:陈铭,女,南京大学信息管理学院,博士,讲师。研究方向:期刊评价、图书馆服务、开放存取、电子书等,E-mail:chenming@nju.edu.cn。南京 210023

内容提要:谷歌图书和Hathitrust是两个发展迅速的大型的电子书仓库,一直走在图书馆领域的前端,它们有相同点也有不同点。为了帮助国内图书馆创建符合自身特色的电子书仓储,探索比较它们的异同可以为发展数字出版以及电子书仓储带来全新的视角。作者采用了比较的研究方法,不仅比较了两者之间的发展历程、创建目的;比较了两者的资源数量、资源质量以及包括数字化扫描、存储、运行系统、版权管理的运作模式;而且还详细比较了两者的数据库功能。在分析了两者各自的特点和优势以及深入阐述了国内电子书仓储的建设现状后,作者得出了谷歌图书和Hathitrust对于国内图书馆发展大型电子书仓储业务具有的启示:海量的内容资源、强大的数据库功能、版权策略的助推、合作发展的优势和资源质量的保障。

关 键 词:谷歌图书 Hathitrust 电子书 仓储

标题注释:本文系国家社科基金青年项目“图书馆电子书服务体系的构建与评价研究”(项目编号:13CTQ013)和江苏省教育厅高校哲学社会科学研究项目“高校图书馆电子书的评价与利用研究”(项目编号:2013SJD870012)的研究成果之一。

0 序言

谷歌图书和Hathitrust是两个发展迅速的大型的电子书仓储,一直走在图书馆领域的前端,它们有相同点也有不同点。它们的巨大发展给国内图书馆界的发展带来深刻的启示。国内商业机构和图书馆界也一直在积极建立数字图书馆,有些已发挥了巨大的作用,有些正欲发挥作用,在建设过程中也有一些成功的经验和不足的教训。探索比较谷歌图书和Hathitrust的异同可以为国内发展数字出版以及电子书仓储带来全新的视角。

1 谷歌图书和Hathitrust的概念

1.1 发展历程

谷歌是一个商业性的机构,它的发展历史比较长,2003年12月谷歌推出对书摘搜索服务的Google Print(谷歌打印)试用版。2004年10月谷歌与美国的兰登书屋合作,正式启动搜索图书全文服务的谷歌图书计划。Google Print在2005年11月更名为Google Book Search(谷歌图书搜索)。它扫描了书的封面页、目录页、版权页及部分内容页并放在网站上,为全世界公众提供在任何地方都能搜索的便捷的在线全文检索服务。谷歌还先后推出了与出版商合作的“Google Print Publisher”(谷歌打印出版商)子项目和与图书馆合作的“Google Print Library”(谷歌打印图书馆)子项目[1],为丰富资源的来源找到了解决途径。目前谷歌已与至少28家重要的图书馆、100多个国家或地区的10000多个出版商和作者建立了合作关系。谷歌对其合作伙伴所拥有的数以百万计的文献资源进行扫描及数字化并加入到谷歌的数据库中,而合作伙伴也可以获得该资源的一个数字拷贝。2010年,谷歌还宣布启动了数字书店,称作Google Editions(谷歌版本),所有的内容均被放在云端。谷歌扫描了超过120万本的书。它还宣称到本年代末,要扫描所有现存的书籍。

Hathitrust由美国机构合作委员会(Committee on Institutional Cooperation,CIC)的12所大学联盟及加利福尼亚大学(University of California,UC)系统所属的11所大学图书馆于2008年发起,这些研究图书馆合作为包括数百万图书在内的大量数字馆藏创建机构库,起名为Hathitrust,将大学图书馆数百年承担的信息保存和获取。Hathitrust是一个非营利机构,作为来源于北印度语大象一词的机构库,它致力于支持数字化各图书馆的资源,并创建一个庞大的资源库。Hathitrust项目与谷歌图书搜索有很深的联系,CIC和UC组织内的图书馆都曾经通过加入谷歌图书搜索项目数字化了它们的部分馆藏资源。Hathitrust项目成立后,这些图书馆也会继续和谷歌公司合作,共同数字化它们的馆藏资源,目前Hathitrust数据库中有超过200万册的图书是由谷歌数字化的。这些图书资源和Hathitrust扫描的其他资源一起都可以在Hathitrust里被检索获取到。

1.2 目的比较

Hathitrust是一个非营利性的组织机构,不会利用所拥有的数字资源去寻求盈利。虽然数字化和保存文献资源需要大量的资金,但项目经费来源于参与Hathitrust的各个资金雄厚的高校。它们在初始加入时,会要求根据它们要被数字化的文献资源的数量交纳一笔初始经费,以后每年再缴纳保存数字资源所需的年费。Hathitrust项目致力于聚合全美最优质的图书馆资源和最顶尖级的专家,将丰富的、具有创新意义的经验应用于该项目中,并寻求更多合作者加入其中。目的是确保文化记录能够被保存并且在未来能够长期被获取。通过共同收集、组织、保存、交流与分享人类知识成果,建立起一个由各成员机构共同拥有与管理的,可靠的,日益全面的图书馆数字资源仓库,减少资源长期保存的空间与花费,满足成员机构的需求,发挥整体大于部分之和的作用。

而谷歌是一个商业性的机构,是以营利为目的。谷歌所拥有的千万册数字化的图书能为其吸引来更多的用户,用户数量的增加还能带来谷歌广告的升值,从而可以赢得更多的收入。谷歌宣称此项计划是为了实现其“组织全球信息,并使之在全球范围内可获取和可利用”的使命。“将继续发展其技术并扩大与全世界出版商和图书馆的合作关系……并从数字图书馆向整个图书馆业、互联网信息服务业乃至世界文化的传播方面扩展。”[2]谷歌开始从一个单纯检索服务提供商向知识提供商转型,逐步向数字化知识资源进军。

2 谷歌图书和Hathitrust的资源数量和资源质量比较

2.1 资源数量比较

截至2015年9月,根据网站统计(https://books.google.com/)谷歌已扫描了2500万种图书,包含了很多大型研究图书馆里的内容,谷歌将这些图书馆的全部或部分馆藏图书通过扫描制成电子版供全球读者通过谷歌在网上免费检索阅读。其中约100万种书可以免费预览全部内容,100万种书是公版书,另外500万种是绝版而且购买不到的图书馆藏书。加入谷歌计划的还有出版商,如霍顿·米福林、麦克格劳·希尔、牛津大学、剑桥大学等著名出版商。谷歌收集这些出版商已出版或即将出版的出版物。谷歌也与个人作者签订协议,收集其创作的图书,把它们都扫描放入数据库中。

Hathitrust已经扫描了1300万卷,大约48亿页的资源,其中大约有39%的资源属于公共领域,公共领域的资料将提供全文在线阅读,而那些受版权保护的资料,虽然不能提供全文阅读,但会提供全面的数字归档服务,因此可以为成员图书馆妥善保存他们的馆藏资源。Hathitrust数字资源每天都在更新,其更新速度非常快,每月都有超过30万册的文献被添加到数字仓库中。以密歇根大学图书馆为例,该馆拥有900多万册馆藏,数字化扫描图书共427万余册,将近一半的资源都已经数字化,足见其对Hathitrust项目所做出的巨大贡献。目前共有超过80个机构参加了这个项目,会员对世界各地的机构开放。

根据Hathitrust网站上的概览(https://www.hathitrust.org/home)所述:很多在Hathitrust里能得到的作品并没有在谷歌图书里呈现。因为谷歌没有把它们数字化。或者在谷歌图书里得不到,因为不同的版权决定过程。这里面最大的种类包括美国联邦政府文件和1923年后在美国发表的公共领域的作品。Hathitrust还储存了一些谷歌图书所没有的资源,如各个成员图书馆的珍贵馆藏的数字化资源、大学的学术论文及研究成果数据库包括其他自建的数字资源数据库等。它约等于拥有每一个北美研究图书馆印刷品拥有量的50%的电子版本。

2.2 资源的质量比较

根据大型数字图书馆和数字化创新的质量要求,谷歌图书特别地被批评关于数字化的质量和元数据的质量有问题。关注点主要在一些页面扫描的质量比较差,以及错误很多的且让人不可信的OCR(Optical Character Recognition,光学字符识别)上。因为谷歌图书是依靠OCR技术和电脑处理过程来创造它们记录的元数据的,是先数字化再考虑质量的。谷歌的辩护中提到特别大规模的项目意味着出错率将会很高。谷歌图书经理Jon宣称,谷歌已经吸取了最艰苦的方法来避免元数据的出错。

Hathitrust在其网站上有一个关于其致力于质量的声明。它承诺在它的仓储中通过对所有内容实施正式的质量审核确保对内容优化的质量。当图书馆放入更多资源在线后,数字仓储鉴定正变得越来越重要。TRAC(Trustworthy Repositories Audit and Certification,值得信任的仓储审计和鉴定)是一个对数字仓储审计和鉴定的过程。Hathitrust 2011年3月得到TRAC的认证。Hathitrust项目表示在给它的收藏提供元数据时承担了巨大的压力,但不得不接受有大规模数字创新时要经历的元数据的挑战。自从元数据起源于合作图书馆时,图书馆才有这个才能和机会,来提高现存的印刷目录质量并且为数字世界优化书目元数据,比如Hathitrust网站上可以获得的索书号、日期和语言的一个数据可视化提供了这个机会[3]。

3 Hathitrust和谷歌图书的运作模式比较

3.1 数字化扫描

印刷型文献的数字化扫描是电子书仓储最主要也是最艰巨的工作任务。为了保护那些珍本、善本乃至孤本图书,“谷歌图书和Hathitrust扫描计划采取了区别于传统扫描方法的三维红外立体照相技术,可以探测放在扫描仪里的书籍页面的三维形状及角度,然后将探测信息转给光学字符识别软件,进行变形失真调整,以便光学字符识别软件能更精确地识别文字。”这样的扫描方式有很多的优点,既不会损坏书籍的装订,效率也非常的高。“他们的扫描速度大约为每分钟2.25本书,仅在斯坦福大学图书馆中,每天就扫描高达5万页,而且将来会进一步提高速度。”[4]

3.2 数据存储和运行系统

Hathitrust数据的存储包括书目数据和全文数据两部分,是它最重要核心的工作之一,“可选择网络或移动硬盘的方式存入系统。每份数据都要制作至少两个备份,并保存在不同的地点,储存数据的地方均实行严格的安全保护措施,按图书馆一贯的保存、品质、读者权利以及获取等价值观为导向,以确保数据的长期保存和获取”。该项目还有用户可根据自己的需要特制的功能(Collection Builder,集合生成器)。“Hathitrust的书目数据采用自行开发的元数据格式(Hathitrust Metadata)而没有使用谷歌图书等通常的MARC格式,以更好地在各成员馆之间以及与OCLC(Online Computer Library Center,Inc.,联机计算机图书馆中心)之间传输转换数据,包括卷册标识、获取、版权、来源、版本、UM记录号、OCLC号、题名等。”[5]

“Hathitrust和谷歌的运行系统都采用基于OAIS(Open Archival Information System,开放档案信息系统)的框架结构,包括信息摄取、存储、数据管理、获取等功能模块,使用元数据编目及传输规范(Metadata Encoding and Transmission Standard,METS)和保存元数据实施战略规范(Preservation Metadata Implementation Strategies,PREMIS)。”[5]很多其他数字图书馆项目也使用这样的数据规范,因此有利于与其他数字化项目进行共享数据。

3.3 Hathitrust和谷歌图书的版权管理比较

2012年10月,谷歌和AAP最终对长达7年的版权争端达成了协议,允许用户浏览图书20%的内容,并且通过Google Play(谷歌娱乐)服务购买数字复印件。新版权策略是谷歌图书制胜的关键。谷歌已扫描的图书中80%是处于版权保护期内的。谷歌没有像其他数字图书馆一样花大量的时间和费用去寻找版权人进行谈判授权,而是未经版权人同意便将上千万册图书扫描入库,坐等作者上门来找谷歌谈版权和解协议。如果作者不希望谷歌全文扫描自己的图书,也可以向谷歌提供图书的简要介绍,经过审核谷歌将删除有关扫描的图书并致歉。谷歌采取了很多措施规避侵犯知识产权的风险。“谷歌根据图书版权的不同情况提供不同层次的服务。对于那些已过版权保护期的图书,用户能够浏览全文。对于那些仍受版权保护的图书,则根据双方的协议,用户可以浏览其部分章节或全文。对于那些没有协议的图书,用户一般只能在网上阅读其目录、内容摘要或专家评论”。谷歌收益的产生通过以下几种方式:“和扫描书籍的预览页面同时出现的商业广告的发行,图书馆和其他机构对于谷歌扫描的所有书籍制作的数据库的订阅,对于受版权保护的书籍的阅读权的销售。谷歌将得到这些收益的37%,剩下的63%给作家和出版商。”[6]

Hathitrust也面临法律上的挑战,在2011年9月,作者协会对Hathitrust和密歇根大学等各大学提出了一个联邦版权侵权控诉,控诉它们存储了数以百万计的书的数字副本。2012年10月,判决宣判了支持图书馆。Hathitrust因此在它的网站上关于宣判发表了声明。Hathitrust项目实行严格的版权管理制度,与版权所有者签订版权许可协议,由密歇根大学图书馆负责管理和保存。只有在版权所有者许可的情况下,该图书资源才会对外开放。对于仍然受版权保护而没有取得许可开放的文献,Hathitrust只提供有限制的获取。从而避免了版权纠纷,维护了版权所有者的利益。Hathitrust的绝大部分文献,只在校园网内可以提供全文,在公众网上只能检索到这些文献的一些章节片段,或者仅仅只有书目信息。而各成员高校的学者,可以采取用户验证的方式,通过专门的渠道,在校外使用这些数字资源。“为了保存和跟踪每个数字化文档的版权信息,Hathitrust建立了单独的版权数据库,该数据库与书目数据库相连,随着书目数据的变化而自动更新相关内容。目前可以免费获取全文的资源包括已进入公共领域的出版物(主要是1923年前在美国境内和1870年前在美国境外出版的作品)、不受版权保护的出版物(如政府出版物)以及已获得版权许可协议的出版物。”[5]根据Hathitrust的版权状况,它的内容大约68%在版权保护内,32%在公共领域。在32%的公共领域内,21%是世界范围内的公共领域。其中4%是联邦政府文献,11%是在美国公共领域。大约12000卷或0.1%的内容被许可为开放存取,包括有创新的被公众许可的内容。

4 Hathitrust和谷歌图书的数据库功能比较

谷歌图书和Hathitrust各有优势和弱势,内容和功能也有重合。

4.1 检索功能比较

仓储检索策略:在Hathitrust里,检索图书,会检索出3种可能的结果:①书名没找到,②图书可以全文获得,③如果图书仅仅显示有限的可以获取,意味着它已经被数字化,全文可以被检索到,但是因为版权问题不可以被查阅。

和Hathitrust相似,谷歌图书检索也出来三种结果:①书名没找到,②图书可以全文获得,③谷歌图书部分被找到。谷歌图书部分有两种可能的结果:一是snippet view(片段显示)被扫描页的三小部分和检索词被突出显示,还有一个小图片在封面上;二是没有预览可获得。只有很有限的书目信息,没有封面图。

对于一些图书获取不到原文的,谷歌图书的片段显示是有用的,它在部分被数字化的页面上显示了检索词,以及这个检索词在这本图书中首个片段图像之上出现了多少次。谷歌图书比Hathitrust的有限获取更有用,因为有限显示仅仅显示给使用者检索词出现在特定页面的次数,而谷歌图书显示这个检索词定位在这本图书的准确位置。

两个仓储都有基本的检索功能,如果包含更多的词,把标题用括号括起来用作词组查找,就可以缩小检索结果。两个仓储也都有高级检索功能,允许用户通过这些检索入口(作者、标题、主题、出版者、出版年、ISBN或ISSN号)来查找,以及有“全文限制”的选项。这两个高级检索功能的主要差别在于,谷歌图书允许布尔检索而不需要用户知道布尔检索式,而Hathitrust保持了一个传统的布尔检索界面,允许用户选择合适的运算符。谷歌图书和Hathitrust都提供了检索单一或多字符的通配符。在谷歌图书中,仅有的形式限制是图书和杂志的选择,而Hathitrust的形式限制还包括音像声像和地图资料,且它还包括了额外的检索领域“丛书标题”。

Hathitrust最初没有统一的检索平台,只能通过各个成员馆的检索平台进行检索。2011年1月Hathitrust与OCLC进行合作,创立了WorldCat Local Prototype(联合目录当地原型)的用户界面,建立了统一的检索平台,支持多语言、多途径的检索,并实现跨库检索,可以一次返回多个数据库的检索结果,并显示在哪一个馆中存储,避免用户逐个登录。读者不仅可以访问本馆的资源,还能获得合作馆的馆藏服务。但是只有Hathitrust成员馆的读者可以获得全文下载,其他注册用户只能浏览目录。这个检索平台实现了资源一站式检索、导航和全文获取[7]。

4.2 输出引文功能的对比

引文输出对于所有数据库来说是一个重要的特征,谷歌图书和Hathitrust都提供了这个服务,不过都很有限,用户会被提醒信息输出是不完整的。谷歌图书可以输出到Bibtex、Endnote和Refman这些书目引文管理软件。而Hathitrust有一个“cite this”的功能,可以返回针对文章是MLA或者APA格式的格式化的引文,并且仅仅输出到Endnote(提醒连续出版物的引文可能是不完整的)。如果Hathitrust可以给经常引用芝加哥形式的政府出版物的历史学家提供芝加哥形式引文的选择,功能就更全面了。谷歌图书和Hathitrust的使用者被限制每次输出一个记录。因为输出引文选项仅仅出现在单个标题或目录记录里。当然两者都正确地和一致性地提供了标题、出版者、URL数据在输出引文的随机性的样本中[7]。

4.3 隐私问题的比较

在这两个图书仓储中,用户隐私都是个问题,这个不同于典型的图书馆出版商的数据库,因为这两个图书仓储对于任何在线用户都是可以自由获取的。在每一个仓储里面都有一些特征对任何人都是可见的。但使用这些资源的用户期望他们的隐私能够被保护。

在2009年谷歌图书争端解决的讨论中,谷歌收到了很多要求提供隐私保护的请求。因为当用户通过谷歌商店购买图书时,一些用户信息会被发送给了第三方共享。出版商接受的销售信息这个数据被连接到了用户的谷歌账户。当用户登录到他们的谷歌账户中使用谷歌图书,然后他们使用“我的图书馆”或者购买图书时,他们的活动都将会被记录。当用户把图书添加到“我的图书馆”时,他们必须把列表设为公开,以可以和其他人分享这些链接。因此这些个人信息都被公开了。

而Hathitrust的隐私政策宣称:它仅仅登录到与用户有关系的交易中,且持续很有限的一段时间。这些登录被用来解决困难和问题。并宣称没有个人信息会被共享给第三方。此外它宣称,当一个问题被解决后,登录信息就会被销毁。Hathitrust使用谷歌的一个分析工具,使用了一个cookie,并且把IP地址段传递给谷歌。Hathitrust的隐私政策解释了用户如何通过关掉cookies或者使用谷歌分析退出浏览器来退出Hathitrust的[8]。

4.4 其他个性化功能的比较

谷歌图书对于仅仅显示snippet的图书提供了一些额外的功能。第一个是“普通词组”特征,可以在图书的文本中创造一个词云,这提供了一个有用的发现工具。其次是谷歌图书还在snippet显示中提供地图特征,被称作“在书中提到的位置”。这个提到的位置上还显示了谷歌地图,和一个能启动Google earth(谷歌地球)的链接。谷歌图书有一个QR号在snippet view里,能提供简单的URL到图书记录里。谷歌图书还有个功能叫“添加到我的图书馆”,在那引文可以被添加进去产生列表。添加到我的图书馆中的标题列表,默认是公开可看的,但是可以被设置为隐私。

Hathitrust有一个共享特征,允许用户共享图书永久的链接,或者出版物中特定的页面。它也有“添加到收藏”的功能,为用户提供个人收藏库,满足用户专题需要,允许终端用户把记录添加到原来创建的收藏里或创建一个新的收藏。个人收藏库可以被公开,用户通过添加标签、完善资源的主题信息,与他人分享所收藏的内容和个人观点、专业知识等,从而实现了用户聚合。此外,Hathitrust提供了一些谷歌图书搜索所不具备的服务,如用户自定义搜索、学术研究工具、便捷的资源获取途径等。Hathitrust还采用一些新科技为特殊群体服务,如为盲人读者提供的有声阅读和盲人阅读等。

5 谷歌图书、Hathitrust和DPLA

还有一个与谷歌图书和Hathitrust都非常有渊源的大型数字图书馆或大型仓储也就是DPLA了,它的全称叫Digital Public Library of America,即美国数字公共图书馆。它最初是由哈佛大学的教授Robert构想出来的,部分是为了挑战商业化的谷歌图书,希望在公共服务上有所作为。DPLA的目标是使美国图书馆、档案馆和博物馆的所有馆藏能被所有美国人在线并且是免费的获得,最终是给全世界的所有人获得。因此它的内容不仅仅是图书,还包括图像、视听资料、手稿等,是一个国家的文化遗产,内容的丰富程度远远超过了谷歌图书,目前已拥有超过1100万个数字化资源内容条目可供浏览或检索。但是DPLA的图书部分大多是来源于Hathitrust的,2013年6月,DPLA宣布与Hathitrust合作,根据双方协议,Hathitrust将向DPLA转移其保存的350余万册数字图书,一旦转移完成,用户将可以直接从DPLA网站上获取这些免费的资源。Hathitrust成为DPLA的一个最新最大的内容中心,当然Hathitrust也将通过这一合作获得更广大的用户群体[3]。

6 国内电子书仓储的现状

图书出版是一个庞大的产业,全世界每年出版的图书超过80余万种。这么大的图书数量,是任何一家单独的图书馆都没法收纳完全的。随着出版数字化进程的发展趋势,大量的图书也会被转化为电子格式的图书,电子图书在未来的几年还会有更迅速的发展。因此,国内图书馆要进行功能转型和探索新的服务模式,在发展电子书资源业务时可以考虑建立大型的电子书仓储,能够聚集大量的图书资源,让读者能够方便获得这些资源,并进行阅读和购买,这是十分迫切而必要的。但如何建立一种商业模式,使其能够成功运转,是值得国内图书馆思考的事情。

国内也早有机构建立大型的电子书仓储。超星、方正电子图书是国内电子图书市场上最主要的两个电子图书数据库产品,占据中文电子图书市场的主要份额。以超星为例,“超星数字图书馆”为目前世界最大的中文在线数字图书馆,它成立于1993年,是国家“863”计划中国数字图书馆示范工程项目,由国内专业的数字图书馆解决方案提供商和数字图书资源供应商——北京世纪超星信息技术发展有限责任公司投资兴建。目前共有电子图书100多万册,年度更新,内容稳定。超星自建馆以来,吸引了数以百万计的读者使用,确实给读者带来了巨大的便利。但它在资源的数量上还不够海量,在电子书的阅读速度和阅读器阅读界面的设置等方面还不够理想。

还有一个在国内有影响力的产品是大学数字图书馆国际合作计划(China Academic Digital Associative Library,CADAL),它的前身为高等学校中英文图书数字化国际合作计划(China-America Digital Academic Library,CADAL),它是由中美两国共同发起的一项国际合作计划,目标是建设百万册规模的教育及科研方面的数字化文献资源,推动高等教育的数字化图书资源的共建共享。涵盖了理、工、农、医、人文、社科等多学科,参与CADAL建设的高等院校和科研单位可以通过互联网免费共享资源。项目一期建设了102.3万册中英文数字资源,项目二期计划建设150万册/件数字资源。截至2013年5月,该数据库里有古籍223910册、民国图书148642册、民国期刊47410册、现代图书793205册、学位论文136098册、绘画3427件、视频4364种、英文图书320669册。虽然它的初衷很好,资源种类也很丰富,且能提供包括图像检索等的多种检索方式,但是建设缓慢,资源数量还不够规模,缺乏长期可持续性建设的有效机制。

7 谷歌图书和Hathitrust为图书馆电子书的发展带来的启示

谷歌图书和Hathitrust的成功运行是创新的商业模式的最佳体现。对于国内图书馆发展大型电子书仓储业务具有一定的启示。通过比较谷歌图书和Hathitrust在各个方面的优势和特点,我们可以得到以下的一些启示。

7.1 合作发展的优势

在建立图书馆电子书资源仓储时,合作发展具有非常大的优势,它允许机构建立一个仓储来保存和分发数字集合,并且发展一种能够通过合作方式来管理数字和纸质资源的共享策略,目的是确保文化记录能够被保存并且在未来能够长期被获取。

在谷歌图书和Hathitrust这两大系统中的高校都是研究型大学,其中有不少是全美著名的大学。参与项目的每个高校在信息技术、数字图书馆、项目管理等领域都拥有全面的雄厚的技术力量,而加利福尼亚大学图书馆在数字图书馆发展和机构内部合作等方面的创新更是名声赫赫。在谈到Hathitrust的效果时,Hathitrust执行总裁John Wilkin说:“在协作之前,每个图书馆的馆藏都是孤立的。现在,我们将这些馆藏整合到一起,聚合了资源,消除了障碍,也提供了有价值的研究工具,发挥了整体大于部分之和的作用。”[5]谷歌图书和Hathitrust凭借自身的技术与资本优势将数字化成果免费提供给合作图书馆作为其数字化馆藏,这对想要进行馆藏数字化内容资源的拥有者图书馆来说是非常实际的利益。从而以这种双赢的方式多快好省地集聚了内容资源。

国内高校之间也可以结成联盟,建立高效共赢的利益分配机制,形成一个类似Hathitrust研究机构的电子图书仓储,还可以考虑与类似谷歌的商业公司进行合作,将它们的图书数字资源转换格式后,导入到自己的平台中,高校图书馆可以依靠自己的平台,利用这些资源。这个仓储可以一次性向商业公司联合采购数字资源,或向研究机构缴纳转换保存数字资源的年费,从而可以减少各个高校馆的花费。而各个高校馆的特色资源,经过数字化以后也可以加入到自己馆的仓储平台中,与联盟中的所有成员共享。这样便能真正实现大量优质电子书资源的共享。

7.2 海量的内容资源

发展图书馆电子书仓储业务,不只是集中地把书籍搬到网上。电子书是互联网下的产物,需要经过加工改变呈现形式来服务读者。

谷歌图书和Hathitrust都具有海量的电子书内容,并且对内容进行了深度加工整合,具有高度整合的优质内容资源是它们发展的战略核心。虽然谷歌图书和Hathitrust收录的重点略有差别,但它们把上千万册的处于离散状态的图书全文资源高度集成,给全球亿万用户带来了便捷与实用。巨大的用户资源又能吸引上游的内容提供商和下游的终端设备商加盟合作,从而可以实现对全行业的主导与整合[9]。

国内图书馆要建立电子书仓储必须能保证拥有大量经过整合的资源内容。数字时代需要“内容为王”,海量的资源才能带来规模效应。

7.3 强大的数据库功能

谷歌图书和Hathitrust都有强大的数据库功能,首先是强大的检索功能,两者的检索策略和界面显示都非常先进。谷歌图书的全文搜索功能和片段显示功能,使图书内容变活,这使原本不以找书为目的的用户也能发现与搜索词相关的图书。其次是强大的个性化功能,特别是Hathitrust顺应互联网的趋势,给用户提供了很多人性化的功能。

随着计算机的普及,网络读者不断增多,图书馆在电子图书服务系统中应设置目录和全文搜索,提供各种聚类体系方便读者找全某方面图书;并能够使用国际通用标准格式的全文浏览器如ACROBAT等,令读者不用再费力去安装各种浏览器。还应将电子图书搜索引擎的功能整合到图书馆的OPAC(Open Public Access Catalogue,开放的公共查询目录)服务中去,使得读者在搜索本馆图书资源的同时也能搜索到网络上的图书。这样可以扩大本馆读者搜索图书的范围,充分利用网络上的虚拟馆藏资源。并提供馆际互借平台,实现各馆之间电子书的共享。

图书馆要建立为广大读者所喜爱的且利用效率高的电子书仓储,要提供方便读者使用的个性化的功能。如在电子图书服务系统中可提供热门图书下载排行榜、图书导读、图书介绍、图书推荐等功能,并可设置读者发表评论和读者对图书评级的功能。还可以提供图书所在书库的分布图或坐标等具体位置,让读者能根据图示迅速找到图书;并提供销售该书的网上书店的名称,为需要购买图书的读者提供方便。还可以通过RSS定制或推送功能定期提供所需的新书入库功能,同时提供个人定制和个人虚拟书架功能,可以收藏感兴趣的图书在书架中,并告知该书的其他收藏者,方便进行交流。提供多种引文输出的方式,以实现个性化的使用。在提供个性化功能的同时也要注意保护读者的隐私。

7.4 版权策略的助推

版权问题一直是数字出版企业重点要解决的问题,因为它是创建海量内容资源的羁绊之一。版权具有一定的特殊性,它随印刷技术的普及和现代出版业的发展而出现和确立,是各个时代出版者、盗版者、版权人与公众四者之间利益博弈的产物。

“反其道而行之的版权策略是谷歌实现内容制胜的关键,为谷歌赢得时间,降低交易成本”。[9]数字出版中的版权策略也是要以公众的合法权益和经济效益为考虑重点,不能践踏他人的合法权益。这个充满风险的过程中所引发的各种纠纷和判决也是推动版权立法的重要方式。谷歌图书和Hathitrust都在经历了版权纠纷后,十分注意实行严格的版权制度。因此图书馆要实行电子图书的仓储战略时既要注意尊重图书的版权,保护版权所有者的利益,又要灵活的使用版权策略,为不同的版权许可转让签订不同的版权协议,为电子图书的仓储战略铺平道路。

7.5 资源质量的保障

电子书仓储资源质量的保障也是重要的一方面,高质量的电子书资源是整个仓储可以有效运转的关键。谷歌图书和Hathitrust都竭尽全力致力于提高电子书的质量,它们先进的数字化扫描技术,大型的数据存储的设备以及运作模式,都保障了仓储内电子书的质量。国内图书馆要建立大型的电子书仓储也必须重视进行数字转化时的电子版本的质量,不能求快求多,每一本书在进行扫描的时候都要保证正确率、清晰度等质量问题。这样仓储资源越来越多之后,才有可持续发展的可能。

8 结语

通过比较谷歌图书和Hathitrust之间的发展历程、创建目的、资源数量、资源质量、包括数字化扫描、存储、运行系统、版权管理的运作模式以及两者的数据库功能,可以看出谷歌图书和Hathitrust各自具有的特点和优势。中国传统文化源远流长,广大的中文图书资源也需要被长期保存、广为传播及能永久被世人所获取。现在开发的几个中文电子图书数据库产品虽然已经发挥了巨大的作用,但是还有继续提升的空间。谷歌图书和Hathitrust对于国内图书馆发展大型电子书仓储业务具有很好的借鉴,海量的内容资源、强大的数据库功能、版权策略的助推、合作发展的优势和资源质量的保障是几大成功要素,国内图书馆应紧跟时代发展趋势,牢牢抓住良好机遇,吸取谷歌图书和Hathitrust的先进理念和成功模式,为国内发展大型电子书仓储业务做出贡献,促进中国文化精粹的传播。

参考文献:

[1]徐跃权,董贺,孔悦凡.管理学视角下的Google图书搜索项目解析[J].图书馆学研究(理论版),2010(1):37-40.

[2]周军兰.Google数字图书馆计划及其影响分析[J].情报资料工作,2006(2):69-71.

[3]Naomi Eichenlaub.Checking in with Google books,Hathitrust and the DPLA[J].Computers in Libraries,2013,33(9):6-9.

[4]周小文.谷歌数字图书馆的运作模式对我国数字图书馆发展的启示[J].新世纪图书馆,2011(1):68-69.

[5]李咏梅,袁学良,唐李杏.美国HathiTrust项目及其对我国高校图书馆数字化的启示[J].四川图书馆学报,2011(3):35-37.

[6]夏立新,金晶.从Google网络图书馆计划的成功启动看图书馆数字化发展[J].情报科学,2009,27(4):485-488.

[7]Laura Sare.A Comparison of HathiTrust and Google Books Using Federal Publications[J].Practical Academic Librarianship:The International Journal of the SLA Academic Division,2012,2(1):1-25.

[8]单蓉蓉,陆铭,魏可.云环境下HathiTrust的用户服务研究[J].图书馆论坛,2012,32(6):69-73.

weinxin
扫码,关注科塔学术公众号
致力于成为国内领先的科研与学术资源导航平台,让科研工作更简单、更有效率。内容专业,信息准确,更新及时。
avatar