-
又一个新搜索引擎cuil - [乐此不疲]
2008-07-30
7月28日,又出了一个新搜索引擎cuil,谐音Cool。网上照例一阵热闹,又是一个挑战Google的。
据称开发者血统正宗,共同创办人Anna Patterson“之前建立的網頁資料庫「Recall」2004年被Google買下,因此進入Google服務。她在Google工作的兩年中繼續建立搜尋網頁的索引,是這方面的專家。”她“于2006年离开Google并创建Cuil。新的公司还有一些别的曾经在Google工作过的牛人,包括Russell Power,他曾和Patterson女士一起在Google庞大的索引系统工作,还有Louis Monier,AltaVista(搜索领域的开拓者)的前任首席技术员。”
cuil在首页显示索引了121兆多页面。不知道是不是巧合,Google在2005年9月拿掉首页的索引页面数后,数天前(7月25日)在其官方博客中提到它们索引的独立网址数超过了1兆,然后说“我们可以很自豪地说我们在所有的搜索引擎中拥有最完整的检索”。当然“网络的大小其实看你怎么定义一个页面是否有用,而这个问题没有一个固定的答案”。换言之,搜索网页数量不能说明什么,搜索有用网页的数量才有意义。
2004年新搜索引擎Accoona发布时请来克林顿,也曾引人注目于一时,过后accoona由综合性搜索引擎改为面向商务的了,自己也就不再关心。其实凡新搜索引擎问世,口气基本上都很大,但绝大多数之后就悄无声息了。不知道cuil的未来如何?
试用了一下,查Library,结果还真与众不同。
如上图,首先是检索结果图文并茂,比较吸引眼球。
其次,检索结果上方有多个标签,用于提示相关的搜索词。
再次,检索结果右上角有分类提示(Explore by Category),类似于通常所见的分面限定,但其类(面)并非固定(如OPAC中固定为作者、主题、题名、年代等等),而是因检索结果而异(如本例有图书馆类型、学术图书馆、图书馆与情报学等)。可见cuil不仅仅是关键词检索,其对网页内容有较多的挖掘。
检索结果每页11个,与分类提示合计共12个位置。有二栏、三栏显示切换。
以上图为例,二栏显示:
1A-Internet Public Library 1B-Explore by Category
2A-Library of Congress 2B-Libraryspot.com
3A-Boston Public Library Home Page 3B-New York Public Library
4A-UCLA Library 4B-Lyndon Baines Johnson Library and Museum
5A-British Library 5B-Canadian Library Association
6A-Online Computer Library Center 6B-Ontario Library Service
相对应的三栏显示:
11-1A 21-2A 31-Explore by Category
12-2B 22-3A 32-3B
13-4A 23-4B 33-5A
14-5B 24-6A 34-6B
也就是说其结果排序先从左到右、再从上到下。由于每个结果显示较多摘要及Logo,占用页面较多,看各页后面的结果通常需要翻屏,如此显示保证相关内容被首先看到。
目前选项(preferences)有两个开关:安全搜索(过滤色情或有问题网站)、输入提示。
另外查了图书馆远程存储。由于library与remote storage碰巧在图书馆与计算机领域都有而具有歧义,因而查询结果与Google相比完全不能令人满意,同样的检索式,cuil首页基本上都是计算机方面的,侧栏的分类提示也是如此,基本没有适用的结果。
如果说由于cuil注重保护用户隐私而无法探知查询者关注的领域,至少它的分类提示可以作出改进。 我想我会把它当作Google的补充,而非替代。在漫无目的的搜索时,或许用cuil会得到些有益的提示。
参见:
New York Times: Former Employees of Google Prepare Rival Search Engine / By MIGUEL HELFT (July 28, 2008)
(译言:前Google员工推出竞争搜索引擎 / by sandow (2008-7-29))
Lib News 圖書館資訊網誌:Cuil搜尋引擎 挑戰Google (2008-7-29)
Offical Google Blog: We knew the web was big... (7/25/2008)
Searching Land: Google "Knows" About 1 Trillion Web Items (Jul. 25, 2008)
(译言:Google检索了1个兆的网页 / by sandow) -
CNKI引文数据库与H指数、W指数 - [乐此不疲]
2008-06-08
丫枝介绍w-index后(h指数(h-index)之变体–w指数(w-index)诞生),去那儿留言鼓动他做牛人们的h-index和w-index,看到结果(图林牛人们的h指数与w指数、选择阅读图情牛人经典文献(鸡鱼w指数)),也想算算自己的指数几何。
进入CNKI中国引文数据库(http://ref.cnki.net/),看到左栏“统计数据”下有“作者统计”,想当然地由此而入,其下已有“H指数”这一项,但如何获取w指数?总不至于逐篇查找后统计?
看丫枝一日间做了N多牛人的统计,网上碰到,就讨教如何做成的。一来二去,才发现自己弄错了入口,如丫枝所言,“在初级检索处,直接输入作者名就行”──JADSL的人机交互老师Michael B. Twidale说,What you see depands on what you know,这里居然是个逆向干扰的例子。
如上所说是新的引文库入口,需要注册才能使用(依丫枝告,免费注册使用),直接检索的结果提供题名及被引频次等信息,可依次复制到EXCEL中处理。由于进入时看得不仔细,一度从旧版进入(竟然是无需注册的),结果发现检索结果一览就是表格形式的,可以整批复制到EXCEL表中,处理起来方便不少。(在CNKI主页上看介绍新旧引文库应该是一致的,但实际检索结果略有差异,不知何故)
根据丫枝发来的统计表样例,按文章被引频次在EXCEL表中降序排序,从上到下有N篇被引N次,则H指数为N;有M篇被引10M次,则W指数为M。果然“简单”。
转引丫枝对w指数值意义的说明:
i) w 指数为 1 或者 2,表示该研究者已经学到了一个课题的基本。
ii) w 指数为 3 或者 4,表示该研究者已经掌握了 the art of scientific activity。
iii) w 指数为 5,表明他是位成功的研究者。
iv) w 指数为 10,表明他是为出色的科学家。
v) 工作 20 年后 w 指数超过 15,或者 30 年后指数超过 20,那就是顶尖科学家了。
查了一些人的H指数和W指数后,感觉H指数更有区别性,任何人只要发表一篇文章得到一次引用,就得到H指数为1;而要使W指数为1,至少须得有一篇文章被引十次以上(不是总被引次数)。我查到几位H指数从1到4的,W指数均为0──W指数用来给大牛们排名还有点用,要用做一般人的评价指标则是形同虚设了。不过,如果上面这个“意义说明”竟被有关部门认可,也会让N多牛人非常伤心的。
老槐曾认为当年选择“三大检索刊物”作为大学排名研究的依据是由于这几个刊物的检索功能而非收录内容(排行榜研究的智慧),事实是否如此不得而知。但此次丫枝做引文分析选CNKI而舍CSSCI,则明确申明是功能的原因。自己很少有几次不得已使用CSSCI,总有恨铁不成钢的感觉──多少年了,得到荣誉无数,怎么还看不到多少长进呢?
参见:
CNKI的引文检索功能(兼及维普)(2005-09-14))
Scopus与引文评价H指数 (2007-09-12)
中美数图研讨班2008·人机交互与数字化图书馆 (2008-05-24) -
搜救时间超过三周之前,绝不轻易放弃! - [大千世界]
2008-05-16
从edith介绍的“伊利诺伊州联机备灾探路者”开始,找到了一系列美国政府机构及红十字会关于地震的专题,大多是针对平民百姓的备灾知识。本想找些简明的做些翻译,所幸看到shizhao和铁蜗牛已经分别[提供和]翻译了两份很好的资料(机构名称应该是译法不同,都是FEMA):
美国联邦应急管理署(FEMA)的《地震安全检查表》
美国紧急事务管理局的《地震搜救手册》
两者都有PDF版,前者应当是打印出来,地震时随身携带的[update: 在仍有余震的震区的各位,请立刻打印准备着]。
一直听说72小时最佳搜救时间,过了能存活就是运气的说法。现在地震已经过去了80多个小时,很多地方救援者还刚刚赶到,还有那么多的失踪者,难道希望就此渺茫了么?
浙江省地震局网站的地震知识:
据统计,唐山大地震后的抢险救灾中,抢救时间与救活率的关系为:
半小时内 救活率95%
第一天 救活率81%
第二天 救活率53%
第三天 救活率36.7%
第四天 救活率19%
第五天 救活率7.4%
7.4%是一个相当高的比例,看来希望还有!
上述《地震搜救手册》更让人看到希望。“地震搜救要点”第一条:
“幸存者可能在坍塌建筑物中的蜂窝状空穴存活2-3周以上。在完全排查所有空穴之前,或搜救时间已超过三周之前,绝不轻易放弃。”
译言说,“翻译完成后,我们会尽最大努力把文档传递给有关部门”。希望参加搜救的PLA、武警……、医护人员能看到这份手册──也给所有搜救人员加油!
附:美国政府机构的地震专题
美国卫生及人力服务署(U.S. Department of Health & Human Services, HHS)的地震专题
内容最为丰富,包括准备与应对两大块,除少量为本网站资料,大部分集成其他政府机构网站相关链接,可作为一站式入口。
美国疾病控制与预访中心(Centers for Disease Control and Prevention, CDC,HHS下属机构)地震专题
Ready America(美国国土安全局(U.S. Department of Homeland Security, DHS)下属网站)的地震专题
联邦紧急事务署(Federal Emergency Management Agency, FEMA,DHS下属机构)的DisasterHelp网站之地震专题,链接相关内容为主
美国地质调查局(U.S. Geological Survey)的地震专题
美国红十字会(American Red Cross)地震专题
浙江省地震局:
地震的防御
地震发生时怎么办
参见:除了捐款,我们还可以做什么?──“四川地震寻亲网”及其他 -
用Google图书搜索API增强OPAC - [乐此不疲]
2008-03-16
2007年中的时候,想要在OPAC中像链接Amazon那样链接Google图书(因为部分是可以看全文的),还是件挺令图书馆人伤脑筋的事(参见“Google图书搜索的电子书网址”)。但前几天Google发布了新的图书搜索API,开始转而鼓励图书馆及其他图书网站在图书页面显示Google图书搜索的封面小图片、全文的可获得状态,并链接到图书搜索的结果。
Google图书搜索提供静态与动态两种链接方式:
√ Viewability API - Dynamic Links (动态链接:全文可看性API)
· 可通过ISBN、LCCN及OCLC号链接到Google图书搜索
· 获知Google图书搜索是否有特定图书,及其全文可看性
· 生成图书封面小图片链接
· 生成图书信息页链接
· 生成图书预览链接
所谓Viewability分为四种 [因地域而异,有些书在美国可看,到加拿大就不可看了]:
Full View:全文可看
Limited Preview:部分可看(仅部分页面可看)
Snippet View:片断可看(可作书内检索search within this book,每页仅显示部分内容)
Metadata View:无全文(仅有图书信息“关于此书”)
(但从API返回的preview状态看,只有3种:noview, partial, full。似乎中间两种合并显示了,其实标出是否可作书内检索对用户还是很有意义的。)
Dynamic Links - Getting Started最后附有三段代码实例:
* Example: Basic linking to books
* Example: Using a callback
* Example: An AJAX Example
√ Static Links to Google Book Search (静态链接)
·通过ISBN、LCCN及OCLC号链接到图书的有关页面(显然不能像动态链接那样保证链接的有效性)
链接语法(ISBN):
http://books.google.com/books?vid=ISBNXXXXXXXXXX&printsec=[内容]
[内容]代表
空:图书首页
frontcover:封面
titlepage:题名页
copyright:版权页:
toc:目次页:
index:索引
backcover:封底Static Links to GBS Content的实例没有介绍LCCN及OCLC号的链接方法,去年是不加前缀直接引用的,即:http://books.google.com/books?vid=XXXXXXXX&printsec=[内容]。但从动态链接实例看,分别用了LCCN和OCLC作前缀。
在宣传博文中列出了一串共14个已经链接到Google图书搜索的公共图书馆、大学图书馆,以及图书网站LibraryThing、Open Library和Scriblio(开源软件,原WPOpac)。特别说明有几个大学是通过Ex Libris的Primo或SFX实现的。
正好看到Library Technology Guides上的新闻:Ex Libris在其产品中集成了到Google图书的直接链接。据称Primo发现与传递解决方案(discovery and delivery solution),SFX内容敏感链接解析器(context-sensitive link resolver),以及Aleph和Voyager集成图书馆系统均加上了此功能。
LibraryThing的Tim曾费尽心思做小插件以期利用群众的力量获取Google图书搜索的链接信息,这回很兴奋,因为LibraryThing还被Google官方举为首批应用者。在“来自Google的免费封面”中他提供了二段JS代码,一段是通过ISBN只抓取图书封面但不提供链接,一段是只在有全文时提供链接──应该说都很实用。同时,也没忘为他的OPAC增强服务LibraryThing for Libraries再做一回广告。
参见:
Google图书搜索的电子书网址 (2007-09-27)
Google Book Search Book Viewability API
Offical Google Blog:Book info where you need it, when you need it (2008-3-13)
Inside Google Book Search:Preview books anywhere with the new Google Book Search API (2008-3-13)Library Technology Guides:Ex Libris integrates direct links to Google About this Book pages in its products (March 13, 2008)
The LibraryThing Blog: Google Books in LibraryThing (March 13, 2008)
Thing-ology (LibraryThing's ideas blog):Free covers for your library, from Google (March 15, 2008) -
WebFeat跨库检索系统 - [乐此不疲]
2008-02-27
一直也没有认真关注过跨库检索系统。昨晚看Library Journal的2007年自动化系统市场分析文章"An Industry Redefined"(其实是2006年回顾,2007年的情况大概也要到4月份才能看到了),在文中发现了WebFeat,觉得很陌生,就特别标记下来。正巧今天下午Beefsteak在QQ上问我是不是熟WebFeat,当然不熟啦。然后就听Beefsteak说WebFeat申请了中国专利,大概要进军中国市场,然后群聊起各类联邦搜索引擎(或统一检索平台、跨库检索系统)。
晚上又看到Beefsteak的博文,再度引起我对WebFeat的兴趣。
首先发现"An Industry Redefine"早由图林中文译站译成了“重构中的图书馆软件产业”,并在《图书馆杂志》2007年第9期上发表了。关于WebFeat的介绍如下:
“WebFeat既直接为图书馆提供联邦搜索产品,又通过结为合作伙伴的ILS公司销售。这些合作伙伴包括TLC、SirsiDynix、VTLS和 Serials Solutions,以及EBSCO这样的非ILS公司。2006年,WebFeat发布了新版的系列产品以增强吸引力。WebFeat Express是新版软件的衍生性产品,能够更加为小型图书馆所承受;WebFeat的企业版开发了客户化功能以及单个图书馆不同配置(profiling)功能以满足图书馆网或图书馆联盟的应用需求。WebFeat作为联邦搜索领域翘楚,其产品拥有5000多家图书馆用户。”
然后是飞虹一年前写的“webfeat express 2.0新功能”:
“webfeat的技术来自于自身的研发,应该说在目前的三个跨库检索软件中(webfeat、MetaLib和Muse)中独具特色,很有竞争力。”
在我的Google Reader收藏中,WebFeat标签在去年用过一次,是Library Technology Guides报道纽约公共图书馆采用WebFeat做跨库检索工具(WebFeat system for cross–database searching launched at The New York Public Library):
通过WebFeat系统,NYPL用户可同时检索近400个电子资源、该馆网站、两个OPAC,以及NYPL数字画廊(取自该馆研究馆藏的超过55万张图片)、NYPL联机图片馆藏(超过3万张公共领域的图片)。
看完上述资料,不由不对WebFeat兴趣大增,便直上网站(http://www.webfeat.org/)。首页介绍:“WebFeat被用于超过16500个公共、学术与政府机构,及全球1000图书馆与信息中心──包括美国100个最大公共图书馆中的1/3、17个州立图书馆、1/5研究图书馆协会馆。”
看WebFeat Express特点:
· 兼容:兼容所有可检数据库,专利技术支持超过6000个数据库,而不是仅20%支持API与Z39.50的数据库 [暗指某些系统有此问题]
· 配置简单:使用其Administrative Console,快速方便无争议(no-hassle)
· 定制、品牌、快速搜索框:易于通过选择,定制与图书馆形象匹配的用户界面;快速搜索框可嵌入任何图书馆网页
· 菜单管理(Menu Manager™):集成电子资源与供应商管理。易于由Administrative Console建立数据库表、主题类别、管理访问、追踪订购权限 [ERM?一个顶俩?]
· 无技术依赖:自有专利联邦检索技术,不依赖第三方
· 真正的原始结果:在原有界面中提供全文结果,保留所有原有功能,在原有界面中发邮件、打印、限定检索……只有WebFeat能对所有资源做到此点
· 论题分簇及动态结果排序:可根据不同排序选项(相关性、日期、题名、作者、出版者……)随时改变结果……没有人提供更多的选项
· 拼写检查与词表:与专业词典集成拼写检查,选择装入词表,方便用户在限定检索时选择
· OpenURL:兼容所有主要OpenURL链接解析器,OpenURL链接可嵌入结果引文,方便用户通过鼠标点击找到电子文章。
· 兼容Refworks®, ProCite® and EndNote®:可以不同格式保存结果,输出到书目管理工具如ProCite, EndNote and Refworks!
· SMART使用跟踪:与第二代使用追踪器(选项)合用,能够有效地生成丰富的数据库本馆使用信息
· EBSCO A to Z®集成 [本来EBSCO就采用其技术]
· 多语言支持:九种语言,包括英、汉、法、德、意、日、韩、西。用户可动态改变检索与结果界面的显示语言 [不但支持,而且动态,现在似乎比较普遍了?]
· AquaBrowser Library®集成:与流行的AquaBrowser可视分面检索工具组合
· WebFeat代理:为原始链接提供一站式远程用户认证,可以从WebFeat用户界面直接链接到原始数据库
· WebFeat API:用于开发自己定制的WebFeat应用
与之相配套的是价格,完全是电视直销中的用语:“一年仅需$7,950,可用至50个数据库,更多每个$85;只需$2,000,就可增加我们的SMART使用追踪”。(所以是“更加为小型图书馆所承受”?)
最有意思的是,还有30天试用,不是demo数据,而是可以用本馆自己的数据库、OPAC、远程用户认证乃至链接解析器来定制的实际体验版。
这么有意思,便点击了那个Free Trial,出现的是中文版的说明:
“您马上就可以尽情体验 WebFeat Express 2.0 了!
填写完成此注册表后,将为您的图书馆自动生成WebFeat Express 系统的试用。 随后您将会收到一封包含有登录和配置说明的电子邮件。
我们建议您登记参加一次我们的网上技术交流会,以便了解如何使您试用的 WebFeat Express 系统发挥最大效用。在该网上技术交流会上,我们将向您展示如何使用我们全新用户界面上的定制工具定制您的系统。我们还会展示如何定制您的数据库菜单和主题类别、配置您的目录、从 EBSCO A-to-Z 服务导入输入,以及使用您喜爱的链接解析器增添结果引用。此外,我们还将展示其它图书馆使用这一杰出搜索工具的案例。
您必须是图书馆工作人员才能试用 WebFeat Express。您的试用系统必须与您图书馆中的全体员工共享。”
忍住了没有注册,要有责任感不是么?
参见:
Beefsteak Is Thinking:2月份三条感兴趣的图书馆自动化信息
图林中文译站:重构中的图书馆软件产业 / 图谋翻译、游园审校、KEVEN定稿 (September 24th, 2007)
倦鸟归林:webfeat express 2.0新功能 (2007年02月3日)
Library Technology Guides: WebFeat system for cross–database searching launched at The New York Public Library (June 21, 2007)







