•     LibraryThing在8月初收录图书超过了三千万(册,愈350万种),而用户上载的图书封面也超过了一百万,于是Tim Spalding秉承一贯的开放数据理念,开始提供图书封面API,面向图书馆、书店及所有人。图书馆OPAC又多了一个封面来源。

        使用该服务要求注册一个LibraryThing帐号,并获取一个Developer Key,然后用ISBN即可获取封面。封面有大(large)、中(medium)、小(small)三个选项,如下为中的例子:
    <img src="http://covers.librarything.com/devkey/KEY/medium/isbn/0545010225">

        出于对网站访问压力的控制,LibraryThing要求一个网站每天请求次数不超过10005000次;如果用程序自动获取,每秒还不能多于1个封面。并且不要求回链,还推荐将封面保存下来使用──前提一不批量转让,二不是竞争对手。详见其服务条款(LibraryThing Developer Profile)。

        由于不是所有图书都有ISBN,所以目前可通过ISBN提供的封面为91万多。大概用户提供的封面以通俗作品为多,比较适合公共图书馆,所以在专业图书馆工作的David发现,他试着加了37个封面链接,LibraryThing竟然一个都没有。

        Amazon早就有免费的封面服务,且封面数量更多,还不限制每天的请求数。那么,作为一个社会性编目网站,提供这一服务目的何在呢?Tim的回答是,半推广、半行善。
        由于Amazon提供免费服务的目的是推销,故而服务协议(Amazon Web Services™ Customer Agreement)要求回链(见5.1.7;且不能保留图片,见5.1.11),并可以此获得收益(Join Associates),这对于作为公益机构的图书馆就有所顾忌。
        图书馆如果选择商业封面供应商,需要花钱;如果直接上出版社网站下载封面,则需要花人力。
        LibraryThing一直以来发展不错,因而有信心用一定量的带宽负载提供这样的服务。Tim声称“偶行善”好过Google的“不做恶”(more "Do occasional good" than "Do no evil.")

        最终目的?Tim也很坦诚,希望出版社等能够了解其作用,进而愿意提供高质量的封面等信息,而不仅仅依赖用户提供因而清晰度等不能保证的图片。

        这是LibraryThing提供的第四项Web服务(LibraryThing APIs)。澳大利亚国家书目数据库搜索原型系统(Lucene NBD Search Prototype)就采用了其API,提供LibraryThing的收藏册数及用户评级(星数),显示在Google图书信息之后。

    参见:
    LibraryThing Blog:  A million free covers from LibraryThing (August 07, 2008)
    Catalogablog: Free Covers from LibraryThing (August 11, 2008, Update 12 Aug. 2008)

    [update 2008-8-14] LibraryThing已经将请求限制提高到了5000。各方也有积极反应:
    · Art Zemon发布了一个简单的用PHP写的LibraryThing封面保存脚本(LibraryThing covers caching script)
    · Alejandro Garza提供了Millennium系统使用LibraryThing封面的指导(要求用Millennium Module for Drupal),在留言中有实例(看着也是分面OPAC呢),并说明命中率只有0.18%──因为这是家墨西哥的生命科学图书馆,多是西班牙语图书。
    · Library Journal网站上发表了Josh Hadro的文章介绍此事LibraryThing Releases One Million Free Covers

    参见:
    Thing-ology: More on covers (August 12, 2008)
    Cheerful Curmudgeon: Caching Free LibraryThing Book Covers (August 11th, 200)
    Stupendous Amazing Library: A million free covers from Library Thing (August 12, 2008)
    Library Journal (8/12/2008): LibraryThing Releases One Million Free Covers / Josh Hadro

  •     曾蕾与秦健教授新作《元数据》6月出版:
    Metadata / Marcia Lei Zeng and Jian Qin

                            
    New York: Neal-Schuman, 2008.        London : Facet Publishing, 2008.
    ISBN 9781555706357 (US)                   ISBN 9781856046558 (UK)

        想着什么时候有中文版呢,试译目录[2008-7-13根据内容大纲中文版wiki更正、增加部分翻译,wiki上有完整目次]:


    第1部分 元数据基础 Fundamentals of Metadata
    第1章 导论
    第2章 当前标准
    2.1 通用元数据(DC, MARC系列)
    2.2 文化物件与可视资源元数据(CDWA, CDWA Lite, VRA Core)
    2.3 教育资源元数据(LOM)
    2.4 档案与保存元数据(EAD)
    2.5 版权管理元数据(copyrightMD, ODRL)
    2.6 科技资源元数据
    2.7 多媒体元数据(PBCore)
    2.8 人物、代理的元数据描述(VCARD, FOAF)

    第2部分 元数据构建 Metadata Building Blocks
    第3章 Schemas:结构与语义
    第4章 Schemas:句法
    第5章 元数据记录

    第3部分 元数据服务 Metadata Services
    第6章 元数据服务
    第7章 元数据质量检测与改进
    第8章 实现元数据互操作
     
    第4部分 元数据研究展望 Metadata Outlook in Research
    第9章 元数据研究概观

    附录:资源与参考源 Sources and References
    A. 元数据标准--元数据表、应用纲要、注册站 Metadata Standards -- Metadata schemas, application profiles, and registries
    B. 受控词表和内容标准 Value Encoding Schemes and Content Standards
    C. 术语

        目录译自www.metadataetc.org的《元数据》教科书部分,有各章阅读书目及练习,以及附录A与B──没看到书,看附录也能增长不少知识。

        曾教授对www.metadataetc.org的介绍同样值得一看(《元数据》教科书和网页“出炉”)。除了网站三大部分(上述《元数据》教科书部分、wiki部分、元数据教学BBS),令人感兴趣的还有网站背景云图及制作方法(生成软件http://tagcrowd.com/),“本月图片”敦煌莫高窟第407窟“隋三兔藻井”──顺着链接Three Hares Homepage看这三个共用三只耳朵兔子的网站,原来世界各地都有呢,这比看wiki部分的SKOS中文翻译有意思多了:)──期待下月的图片了,因为不只是图片啊。另:建议为image of the month存档,如果只保留一个月太可惜。
        因为喜欢,选贴上面网站其他两张世界各地三兔图:

             
    埃及或叙利亚瓷器碎片,约公元1200年    

    法国Wissembourg圣彼德与保罗教堂天花板,约公元1300年

        该网站还链接有更多相关网站、这些网站还有更多图片,如西藏古格王国白庙中的四兔图:

    呵呵,喧宾夺主了;-)

  •     OCLC前些日子刚推出了针对LCSH、MeSH、TGM(图形资料叙词表)等的控制词表术语服务(Terminology Services),接着又推出了实验性分类服务(An experimental classification service),这是一项基于WorldCat数据挖掘的原型服务Classify,采用OCLC的FRBR作品集算法,提供作品的DDC、LCC及NLM分类号。
        从Classify检索入口,可以通过ISBN、ISSN、OCLC控制号、UPC(通用产品码)或者作者/题名进行检索。由于很多作品都有不同版本,所以分类号也可能呈现五花八门的情况。
        目前提供的信息有:
    基本信息:题名、作者、体裁、版本、收藏馆数
    分类信息(DDC、LCC、NLM):最常用分类号及收藏馆数,最新分类号及收藏馆数,最新分类法版本、分类号及收藏馆
    分类号分布图:分为所有及DDC、LCC、NLM的分布
    版本详细信息,包括题名、作者、语种、收藏馆数、MARC类名、分类号等

        其中最抢眼的是分类号分布图。同一种书,分类号大多数情况下差别不会太大,于是分类号分布饼图一般情况下就象游戏中那个张着大嘴吃豆子的小家伙。下面特意找了个有很多不同分类号的例子截图




        昨天看到时没觉得这个分类服务有什么用,今天看到David说这是个“快速、简单获取分类号的途径,而无须是OCLC成员”,方才想到原来WorldCat是不显示分类号的。David在一个专业馆工作,在美国很多小馆无钱参加OCLC,而查LC的命中率又不够高,如同我当初,千方百计、削尖脑袋找免费的数据来源。
        Classify提供最新分类号、分类法版本也是挺有用的,因为有可能反映了分类法的更新,常常新分类号更接近最新理解。看了几个例子,或许都不是医学方面的,没有见到NLM号。

       不管“有用”、“没用”,可以看到OCLC在如Lorcan Dempsey所说的那样,不断地"make data work hard"。难怪OCLC尽管属于图书馆行业,却已连续三年名列《计算机世界》最佳IT工作单位(Computerworld's Best Places to Work in IT),并且排名从2007的第86位上升到了2008的第51位。

       另:在WorldCat.org查上图中的书“Stilwell and the American experience in China, 1911-45”,共14条,而且首条只显示10版本(而不是上图的15),可见WorldCat.org“版本”部分的FRBR化做得还不到家──10版本中没有包括检出的几个中文译本,即《史迪威与美国在中国的经验》《史迪威与美国在华经验》《蔣介石的外國高級參謀長 史迪威》。

    参见:
    Class numbers on works (July 09, 2008) from Lorcan Dempsey's weblog
    Classify from OCLC (July 10, 2008) from Catalogablog

  •     2008-6-16,加拿大人Chris Thiessen发布了名为 Zoomii 的网上书店。访问这个虚拟书店,如同走进摆满图书的实体书店(满墙按类摆放、展示书封的图书),在书店中随便逛(用鼠标放大缩小、上下左右移动),从书封看有点意思的拿下来翻一下(点击看详细信息),再决定是否购买(最终通过Amazon购买)。Zoomii通过Amazon的Web服务获取图书数据,如果用户最终由Zoomii去了Amazon买书,Zoomii得到抽头。

        Huddersfield大学的Dave Pattern看后产生联想,立刻动手,不过十来天,已经在他们基于Horizon的OPAC上加上了封面浏览的虚拟书架。在OPAC检索结果页面下方,可以看到相邻图书的封面,感觉上就是在书架上浏览左右两边的图书。直接点击某个封面,就切换到另一条书目记录了。


        Dave自谦目前尚为"crappy prototype"(废物原型)。有留言问如何实现,称原就使用Amazon的Web服务获取封面,并记录哪些书有封面图片。现在的做法是由馆藏新建一个索引,得到按DDC分类号排序的一串书目记录号,并与是否有封面图片结合,在此基础上做成虚拟书架。
       
        Huddersfield大学早就试验过在OPAC上显示图书架位的功能,现在又试验显示图书封面的虚拟书架。有此基础,在未来如果做成虚拟现实图书馆(Virtual Reality Library)大概也是顺理成章的事了──在标示有索书号的图书馆布局图上,点击感兴趣的书架,逐本浏览架上的图书,看到感兴趣的取下来看看(点击看详细信息),想借的话先办保留,如果被借出了那就办预约。

        虽然自己在图书馆工作,但更喜欢网上书店。昨天根据儿子老师开的书单想在网上书店购买,结果大部分书因为年代久远而“缺货”,因而不得不承认,图书馆在相当长的时间内还是离不开的。
        前些日子看到一种观点,提出什么时候在图书馆借书能够像在网上书店买书那样方便。如果想像中的虚拟现实图书馆能够把虚拟与现实结合,提供文献寄送服务,相信会有更多人离不开图书馆了。当然,除了对残疾人服务,我不会要求免费寄送。


    参见:Visual virtual shelf browsing (2008-6-27) from "Self-plagiarism is style"
  •     OCLC副总裁Lorcan Dempsey是LC书目控制未来工作组成员,但在工作组长达一年多的活动期间,他几乎没有在自己博客上谈论过小组内情。即使在报告发布以后,好象他也没有在博客上发表过自己的意见,印象中只提供过一个OCLC对报告意见的链接。但在小组的报告草案于2007-11-30发布不久,OCLC立刻在网站上挂出了一个名为“新一代编目”(Next Generation Cataloging)的试验计划(DC.Date.Created=2007-12-11),其中引用了报告草案的建议。
        这个新一代编目试点项目,就是抓取来自出版社的ONIX数据并对质量加以强化,以及早加入WorldCat。显然项目的结果是,OCLC将由用户贡献数据的分销商转而成为原始数据供应商──OCLC将此项目归在试验中的产品(ProductWorks),顺便可以看看OCLC琳琅满目的试验中产品。
        项目运作过程:
    · 合作出版社/供应商(Ingram图书集团、Hachette图书集团、普林斯顿大学出版社、Taylor and Francis)提供ONIX格式的信息。OCLC将数据转换为MARC格式加入WorldCat,并尽可能通过数据挖掘与数据映射的方式自动强化数据。强化后的元数据以ONIX格式返回给出版社/供应商,以对OCLC的强化作出评估。
    · 合作图书馆(芝加哥公共图书馆、凤凰城公共图书馆、MIT图书馆、俄亥俄州立大学图书馆)评价通过上述过程加入到WorldCat中元数据的质量,反馈其用于图书馆技术服务流程的适应性。

        据OCLC负责WorldCat与元数据服务的副总裁Karen Calhoun在不久前举行的“编目未来”会议(The Future of Cataloging: a PALINET Symposium, 29 May 2008)所作主旨发言“转变之旅:从苟延残喘到蓬勃发展”(Traveling Through Transitions: From Surviving to Thriving,PPT),试验计划将于本月结束,目标是在2009财政年度正式发布(p.46)。

        在即将举行的ALA的2008年会上,6月29日将会有一场名为“OCLC编目新方向”(New Directions in Cataloging at OCLC)的专场,介绍新一代编目项目的试验结果。再顺便看一看OCLC在年会上排得满满的四天活动日程,Big O真是牛得让人无话可说。