-
OCLC推出实验分类服务Classify - [若有所思]
2008-07-11
OCLC前些日子刚推出了针对LCSH、MeSH、TGM(图形资料叙词表)等的控制词表术语服务(Terminology Services),接着又推出了实验性分类服务(An experimental classification service),这是一项基于WorldCat数据挖掘的原型服务Classify,采用OCLC的FRBR作品集算法,提供作品的DDC、LCC及NLM分类号。
从Classify检索入口,可以通过ISBN、ISSN、OCLC控制号、UPC(通用产品码)或者作者/题名进行检索。由于很多作品都有不同版本,所以分类号也可能呈现五花八门的情况。
目前提供的信息有:
基本信息:题名、作者、体裁、版本、收藏馆数
分类信息(DDC、LCC、NLM):最常用分类号及收藏馆数,最新分类号及收藏馆数,最新分类法版本、分类号及收藏馆
分类号分布图:分为所有及DDC、LCC、NLM的分布
版本详细信息,包括题名、作者、语种、收藏馆数、MARC类名、分类号等
其中最抢眼的是分类号分布图。同一种书,分类号大多数情况下差别不会太大,于是分类号分布饼图一般情况下就象游戏中那个张着大嘴吃豆子的小家伙。下面特意找了个有很多不同分类号的例子截图:
昨天看到时没觉得这个分类服务有什么用,今天看到David说这是个“快速、简单获取分类号的途径,而无须是OCLC成员”,方才想到原来WorldCat是不显示分类号的。David在一个专业馆工作,在美国很多小馆无钱参加OCLC,而查LC的命中率又不够高,如同我当初,千方百计、削尖脑袋找免费的数据来源。
Classify提供最新分类号、分类法版本也是挺有用的,因为有可能反映了分类法的更新,常常新分类号更接近最新理解。看了几个例子,或许都不是医学方面的,没有见到NLM号。不管“有用”、“没用”,可以看到OCLC在如Lorcan Dempsey所说的那样,不断地"make data work hard"。难怪OCLC尽管属于图书馆行业,却已连续三年名列《计算机世界》最佳IT工作单位(Computerworld's Best Places to Work in IT),并且排名从2007的第86位上升到了2008的第51位。
另:在WorldCat.org查上图中的书“Stilwell and the American experience in China, 1911-45”,共14条,而且首条只显示10版本(而不是上图的15),可见WorldCat.org“版本”部分的FRBR化做得还不到家──10版本中没有包括检出的几个中文译本,即《史迪威与美国在中国的经验》《史迪威与美国在华经验》《蔣介石的外國高級參謀長 史迪威》。
参见:
Class numbers on works (July 09, 2008) from Lorcan Dempsey's weblog
Classify from OCLC (July 10, 2008) from Catalogablog -
SKOS:简单知识组织系统 - [乱花迷眼]
2008-02-28
[DIGLIB]2008-2-27消息:
SKOS Primer征求意见(Call for Comments: SKOS Primer: W3C Working Draft 21 February 2008):SKOS Primer 将取代SKOS Core Guide (2 November 2005)。
看SKOS Primer一过,稀里糊涂。收集些SKOS的资料。
SKOS Home(http://www.w3.org/2004/0... -
Web化DDC·浏览LCSH - [若有所思]
2007-11-10
图书馆界在知识组织方面的长期经验,在网络时代如何继续发挥作用?那就是别把自己的分类法、主题词表藏起来,而让大家都来采用,这才不至于被边缘化。这个观点keven在当年抱怨《中图法》电子版时就已经表达过了,他最近旧文重温,改名“情报检索语言脱胎换骨的六点议论”重发议论。
keven因侯汉清老师在北大信管系建系六十年的学术报告而重提旧论。读研时,侯老师就是我的偶像,某个暑假侯老师到本校开PRECIS课,课程作业经侯老师指点后正式发表,还很让自己高兴了一阵。看了侯老师的“网络时代的情报检索语言:进展及热点”,认同keven所说“我知道侯老师以我的话为靶子,最终目的也是与我一致,就是把传统的图书馆对于知识信息的规范控制思想和方法,应用到数字资源和网络环境中去”。在PPT的最后发展趋势部分,专门论及检索语言的电子化与网络化,其中的数据是,网络版已达82.5%(367/445)。
不过,网络版不等于开放。杜威十进分类法(DDC)网络版WebDewey已经出现很多年,但只限于注册用户使用。OCLC甚至还因为图书馆酒店用DDC的大类作房间号码而与之打知识产权官司。
只是时代在发展,如今再固守版权,恐怕难逃被抛弃的命运。年中美国一家公共图书馆抛弃DDC,选用书店分类的新闻热闹一时,或许就是这种趋势的一种反应。而OCLC也正在试验开放的Web版DDC,有固定的URI,未来可能会用这样的形式引用DDC号码:
http://dewey.info/concept/333.7-333.9/
与OCLC的主动相比,《美国国会图书馆标题表》(LCSH)则是被他人弄成了公开的网络版。近日德国布劳恩斯魏克大学图书馆的B. Eversberg在没有资助的情况下,做了“浏览LCSH”系统,数据来自allegro(http://www.allegro-c.de/)公司的“LCSH浏览”,含520万词条,有参照系统,据说是2006年以来的数据,大多是名称及名称/题名组合,所以并非完整版的LCSH。
如系统说明所述,要查“法国女作家诗作评论”,很少人知道在LCSH中的确切用词,以及如何组合这些词(正式用词是:French poetry -- Women authors -- History and Criticism)。而现在,不但OCLC的联合目录WorldCat有LCSH,甚至Google图书搜索最近也开始加入LCSH。设计该系统的目的就是为方便不熟悉者查到LCSH的正式用词。
系统提供多种查询浏览功能:词表正式用词、普通词组、单词、人名、题名。还有多途径的布尔检索功能。
最有意思的是它并不是一个单一的LCSH浏览系统,还是一个实用的网络图书信息检索工具。点击正式用词后,右侧除有LSCH词条外,还有四个相关链接,都是使用LCSH的网上图书查询工具:
WorldCat(联合目录)
Google图书搜索
LibraryThing(个人网上图书馆)
OpenLibrary(开放内容联盟的维基型书目)
参见:
数图研究:谈谈我们的分类主题词表 (2005-11-24) http://blog.donews.com/kevenlw/archive/2005/11/24/638458.aspx
数图研究笔记:旧文重温:情报检索语言脱胎换骨的六点议论 http://www.dlresearch.cn/keven/index.php/archives/488
OCLC与图书馆酒店的故事:版权与商标 (2006-09-25) http://catwizard.blogbus.com/logs/3411178.html#
游园惊梦:分类的命运 (2007-7-23) http://youyuan.wordpress.com/2007/07/22/%e5%88%86%e7%b1%bb%e7%9a%84%e5%91%bd%e8%bf%90/
Inquiring Librarian: Google Book Search and... LCSH? (http://inquiringlibrarian.blogspot.com/2007/10/google-book-search-and-lcsh.html)
Lorcan Dempsey's weblog: Webified Dewey (http://orweblog.oclc.org/archives/001479.html)
Michael Panzer. Towards the “webification” of controlled subject vocabulary: A case study involving the Dewey Decimal Classification. 6th European NKOS Workshop, September 21, 2007, Budapest.(PPT下载)
B. Eversberg. Browsing LCSH. (2007-10-04 / 2007-11-08) -
教育部学科分类与中图法对照
2007-01-11
本馆有一个系列的年谱数据库,是CALIS自建数据库项目,最近馆里的技术部在忙着将数据库转至CALIS的数据库模板,为CALIS收割元数据做配置。前两天技术部负责此事的同事告诉我有一个必备字段“教育部学科分类”,在我们的记录中全都是空的,问我应该填什么。
我们原来的数据库中并没有定义过这个字段,我也是第一次听说有这样一个分类,马上到网上找。搜索之下,才知道原来那还是个老资格的国家标准,真是太孤陋寡闻了。网上有不少WORD版的“教育部学科分类与代码”,下载了一个,有几十页3000多个代码,代码长至8位。
粗看之下,我的第一反应就是没法填,怎么可能在记录收割阶段重新给十数万条记录逐个给分类代码呢?好在很快就想到,我们的大部分记录都是传记资料,找个代码大概不难。果然就找到了770.7055(人物研究),直接填进去就可以了。
年谱数据库系列中还有一个论著库,涉及各个学科,自然不能全都填一个值,怎么办呢?论著库中有一个中图法类号字段,可操作的方法就是在两个分类表间做一个简单的对照,然后据中图法类号给个粗的教育部学科分类代码。下面就是大致的“教育部学科分类”大类与中图法的对照表。
[update 2007-1-13: 由于表格不能正常显示,改为链接EXCEL文件]
后来发现教育部科技发展中心上有一个“国家标准GB/T13745-92《学科分类与代码》表”(http://www.cutech.edu.cn/ShowArticle.asp?ArticleID=11803)应该比较正宗,是EXCEL表。只是它的代码最长为7位,没有3位数字后的那个“.”,不知道为什么网上那些WORD文件都是带“.”的?
-
OCLC与图书馆酒店的故事:版权与商标
2006-09-25
Tim打算给其蒸蒸日上的个人在线书目网站LibraryThing增加分类功能。在美国通用的有杜威十进分类法(DDC)和国会图书馆分类法(LCC),两者的电子版都要不菲的订购年费,并且如果要用在LibraryThing上的话,还有版权问题。
美国版权法规定1923年前出版的属于公共域,Tim在谷腾堡计划(Project Gutenberg)中找到了1876年版的DDC(原来当时的题名那么长:A Classification and Subject Index for Cataloguing and Arranging the Books and Pamphlets of a Library)。尽管早年的DDC类别陈旧,类目不要说计算机,连留声机也没有,不过,如果粗分类,凑合一用似乎也不是不可以?
且慢!要使用DDC,除了版权,还有另一个障碍——商标。因为DDC的版权所有者OCLC,已经将杜威的姓Dewey、缩写DDC及全称都注册了商标,Tim戏称如要用1876年版DDC,就只好改用杜威的名Melvils(当为Melvil)了。从Tim的上述介绍,知道了DDC商标案。于是由维基百科的Library Hotel词条开始,试图在网上复原OCLC与图书馆酒店的故事。







