-
早就听说Google大规模数字化图书馆图书用的是自动翻页的扫描仪,对图书的损害小,但不知道自动翻页如何实现。此次在ImageWare公司看到
德国奥地利Treventus公司的图书扫描机器人(Bookscanner ScanRobot)视频,才算弄清其机理──将扫描头插入书页中,采用吸的方法,同时扫描相对的两页,完成后翻页。这是在YouTube上找到的当时的演示视频。书只需打开到60度,而对于软封面图书,需要加硬板特别固定。
在YouTube用Scanrobot查,还找到三个视频。下面这个在Treventus公司网站上也有,可以根据厚度调节书脊宽度,据称最高扫描速度可达每小时2400页。Treventus公司网站上还有介绍及若干照片。以下是其中之一。
update 2008-8-12: ScanRobot [TM] 已出现多年,最早获奖是2005年12月的Genius Innovation Award 2005 第一名(见自公司宣传资料)。 -
WalkUp自助扫描站 - [大千世界]
2008-08-11
Ted曾经介绍过一款自助扫描器,即Digital Library Systems Group的KIC II,读者可以在扫描后,把文件存入U盘、发送电子邮件、打印或者通过FTP发送等。这款产品采用的扫描仪是德国ImageWare公司Bookeye。
前些日子去ImageWare公司访问,得知KIC II是Image Access公司在美国销售Bookeye时包装推出的产品,而ImageWare公司自己推出的自助扫描站称为Bookeye 2 WalkUp Scan Station:
设备:Bookeye 2扫描仪(A2幅面,面板上有USB接口)、触摸屏,可以另配读卡器(用于自助服务收费)
输出功能:USB、电子邮件、Web服务器发布、网络传送、打印
软件:WalkUp,是其原来的扫描软件BCS-2的触摸屏简化版
输出文件格式:PDF、JPEG、TIFF
扫描仪有灰度和彩色两种选项。实际上Bookeye扫描仪都有彩色扫描功能,由软件控制是否能够输出彩色图像。所以如果先买了灰度的,以后觉得需要彩色的,可以再花钱升级软件。
从ImageWare公司提供的资料上看,自助扫描站在2006年已有实例。柏林Free University的语言学图书馆(Philological Library)在新馆4层共配备了8台扫描站(Bookeye Scanstation),供读者使用,通过读卡器,可以直接打印,也可发送邮件。自助扫描站是灰度扫描仪,另有一台彩色扫描站在服务点(由馆员操作吧)(见:Information Wissenschaft und Praxis (ISSN 1434-4653) Juli/August 2006)。
从资料照片看,当时用的软件就是BCS-2,可见一般配置的Bookeye也可以用于自助扫描。据说华南师大买了两台Bookeye 3彩色扫描仪(A1幅面),也就是让读者自助扫描用的。
自助扫描站代替自助复印,大致优点有:扫描速度快、方便(不必将书正面向下)、节省纸墨(不一定需要打印)、可做后续图像处理(尤其对需要彩色图片的读者)。
价格,就不好说了。尤其现在自助复印可以采用租用方式,而自助扫描尚无此种商业模式。 -
One World, One Dream - [敝帚自珍]
2008-08-10
记得N年前有个世界群星大合唱,名为We are the world,中文译为《天下一家》。不管是不是这个意思,“天下一家”之说无论从哪个角度都是无可挑剔的,除了字面上的温馨,兄弟阋墙、夫妻反目,那也都是一家子里的事。但本届奥运会的口号One World, One Dream就完全不同了,让人完全无法作它想,因而也无法让人认同──同床异梦的事儿太多,何况让世界做同一个梦?
开幕式前,喀什袭击死了16名武警,据说是DT所为,联系之前的ZD,外媒评论说,One China也没有One dream──不得不承认,他们的政策水平还是很高的,想必外交部也会为他们坚持“一个中国”而击节叫好。
2008-08-08 20:08已经过去,看了开幕式。但一直以来并不特别关心本届奥运,因为自己不是体育迷,更因为那是“北京”奥运会,2700亿绝大部分是砸在北京市,幸福与痛苦,主要事关北京市民及“外来务工人员”,与远离京城的其他老百姓没啥关系。
最具全民参与的或许是火炬传递,到后来也变成小众娱乐了。当初在广州时万人空巷;传递到到沪时,偶正巧坐车路过体育馆,还看到满街举着小旗的人。后来到南宁,弄得跟旧金山似的,路线保密、禁止学生上街看了;再后来到长春,据说沿街居民都不让开窗了──可见ZF也没想真让大家跟奥运亲密接触。这就让“同一个世界、同一个梦想”之说颇为可疑,也很奇怪怎么会让它成为本届奥运会的口号。
在中国各地旅行时,基本上只要看看沿路的标语,就知道当地官员最头痛的事情、最希望解决的问题是什么了。比如:“光缆无铜、偷也无用”、“少生孩子多养猪”、“严禁飞车抢夺”。对奥运口号,亦只能做如是观。 -
全球数字图书馆(百万册图书项目)中国站点 - [乱花迷眼]
2008-08-07
外出一周,今天回家。看博文留言,重又看到了去年12月19日ZZ在“百万图书”项目(CADAL)相关信息下的留言:“整个UDL项目现在是又153万册左右数字图书,其中中国100多万,印度33万,还有埃及的几万。大部分英文图书还没有解决版权问题。中国古籍已经解决。CADAL, ULIB.cn等的关系是, CADAL位于浙大,主要负责中文图书数字化,是ULIB中国南方技术中心,www.cadal.edu.cn也是一个提供比较完整的检索和发布平台,是真的可以实用化的,从这一点讲,CMU的主站都做不到;但CADAL站点主要只有中文图书。而www.ulib.org.cn经过多次改版,已经提供了所有153册图书的镜像检索,涵盖了所有数据,并拥有北方中心15万册英文图书的全文检索系统、插图检索系统和知识网络系统,ulib.org.cn现在可提供所有版权允许的图书的访问。”
去年11月本馆网站改版后向所有读者介绍CADAL的民国电子书,偶有访问不了的情况发生时,读者比较着急,并且在教育网外,CADAL访问速度极慢,所以想看看介绍中的百万册图书的UDL中国网站,或可与CADAL交替使用。
全球数字图书馆中国站点(http://www.ulib.org.cn/zh-CN/)由中国科学院研究生院主办,看来知者不多。版权日期2003-2008,但至今日的网站访问统计数仅为:
首页访问: 1531
浏览次数: 5850
网站访问: 1101
首页下有“百万册图书搜索:实验系统”,包括三种检索方式:
· IQuery 2.0 BETA:一种新颖的电子图书检索系统,支持多粒度电子图书检索与多侧面导航。
搜索范围可选择全文、章节、主题、题名或多粒度(all的专业术语?)。
搜索中栏为带图书封面的书目信息摘要;
左栏显示多层主题分面(含命中数):
Composite subject 主题
General subfield 一般子类
People 人物
Time 时代
Place 地点
Form of reservation 体裁
Source of topic words 主题词来源
Other subject 其他主题
右栏显示可扩展检索词(按相关度?),且可按可视化方式显示(更改浏览器安全设置后仍没有安装成功)。
· Illustrator:拥有870万张插图超大数据集的语义插图检索系统。
查询速度很快,可惜访问结果都是HTTP Status 404,图像说明都是not available。
· Knowmap:一个基于主题词网络的电子图书可视化导航与检索系统。需要Java插件。
以上都是研究成果展示(网页下有研发者姓名)。不过因为自己太菜,需要的插件都没有安装成功,所以可视化的部分看不到。不过这没关系,现阶段我只需要最基本的检索功能(ULIB检索),因为我最关心的是能不能看全文,可否以此作为CADAL网站的备用──可惜,好象也不行。
在帮助页,提示要显示DjVu图像,需从lizardtech下载免费插件 exview_setup.exe(7.9MB);在下载页给出的是其本地提供的DJVU浏览器(DjVuWebBrowserPlugin.exe)。后者与CADAL网站上的一样,本机原已安装,但看不到内容显示;安装前者后,仍看不到页面内容。我使用IE 7.0和Firefox 2.0。
FAQ中说,如果需要整本下载,可以把书名告知help@ulib.org,然后会得到一个带下载说明的图书链接。这对很多读者来说是个不错的解决方案──不知道是不是真管用?现在假期中,开学后记得一试。 -
又一个新搜索引擎cuil - [乐此不疲]
2008-07-30
7月28日,又出了一个新搜索引擎cuil,谐音Cool。网上照例一阵热闹,又是一个挑战Google的。
据称开发者血统正宗,共同创办人Anna Patterson“之前建立的網頁資料庫「Recall」2004年被Google買下,因此進入Google服務。她在Google工作的兩年中繼續建立搜尋網頁的索引,是這方面的專家。”她“于2006年离开Google并创建Cuil。新的公司还有一些别的曾经在Google工作过的牛人,包括Russell Power,他曾和Patterson女士一起在Google庞大的索引系统工作,还有Louis Monier,AltaVista(搜索领域的开拓者)的前任首席技术员。”
cuil在首页显示索引了121兆多页面。不知道是不是巧合,Google在2005年9月拿掉首页的索引页面数后,数天前(7月25日)在其官方博客中提到它们索引的独立网址数超过了1兆,然后说“我们可以很自豪地说我们在所有的搜索引擎中拥有最完整的检索”。当然“网络的大小其实看你怎么定义一个页面是否有用,而这个问题没有一个固定的答案”。换言之,搜索网页数量不能说明什么,搜索有用网页的数量才有意义。
2004年新搜索引擎Accoona发布时请来克林顿,也曾引人注目于一时,过后accoona由综合性搜索引擎改为面向商务的了,自己也就不再关心。其实凡新搜索引擎问世,口气基本上都很大,但绝大多数之后就悄无声息了。不知道cuil的未来如何?
试用了一下,查Library,结果还真与众不同。
如上图,首先是检索结果图文并茂,比较吸引眼球。
其次,检索结果上方有多个标签,用于提示相关的搜索词。
再次,检索结果右上角有分类提示(Explore by Category),类似于通常所见的分面限定,但其类(面)并非固定(如OPAC中固定为作者、主题、题名、年代等等),而是因检索结果而异(如本例有图书馆类型、学术图书馆、图书馆与情报学等)。可见cuil不仅仅是关键词检索,其对网页内容有较多的挖掘。
检索结果每页11个,与分类提示合计共12个位置。有二栏、三栏显示切换。
以上图为例,二栏显示:
1A-Internet Public Library 1B-Explore by Category
2A-Library of Congress 2B-Libraryspot.com
3A-Boston Public Library Home Page 3B-New York Public Library
4A-UCLA Library 4B-Lyndon Baines Johnson Library and Museum
5A-British Library 5B-Canadian Library Association
6A-Online Computer Library Center 6B-Ontario Library Service
相对应的三栏显示:
11-1A 21-2A 31-Explore by Category
12-2B 22-3A 32-3B
13-4A 23-4B 33-5A
14-5B 24-6A 34-6B
也就是说其结果排序先从左到右、再从上到下。由于每个结果显示较多摘要及Logo,占用页面较多,看各页后面的结果通常需要翻屏,如此显示保证相关内容被首先看到。
目前选项(preferences)有两个开关:安全搜索(过滤色情或有问题网站)、输入提示。
另外查了图书馆远程存储。由于library与remote storage碰巧在图书馆与计算机领域都有而具有歧义,因而查询结果与Google相比完全不能令人满意,同样的检索式,cuil首页基本上都是计算机方面的,侧栏的分类提示也是如此,基本没有适用的结果。
如果说由于cuil注重保护用户隐私而无法探知查询者关注的领域,至少它的分类提示可以作出改进。 我想我会把它当作Google的补充,而非替代。在漫无目的的搜索时,或许用cuil会得到些有益的提示。
参见:
New York Times: Former Employees of Google Prepare Rival Search Engine / By MIGUEL HELFT (July 28, 2008)
(译言:前Google员工推出竞争搜索引擎 / by sandow (2008-7-29))
Lib News 圖書館資訊網誌:Cuil搜尋引擎 挑戰Google (2008-7-29)
Offical Google Blog: We knew the web was big... (7/25/2008)
Searching Land: Google "Knows" About 1 Trillion Web Items (Jul. 25, 2008)
(译言:Google检索了1个兆的网页 / by sandow)







