全文数据库的比较研究

全文数据库的比较研究

国内三大中文期刊全文数据库的比较研究(建议新手查阅)

 中国期刊网全文数据库》、《维普中文科技期刊数据库》和《万方数据库资源系统数字化期刊》是国内影响力和利用率很高的综合性中文电子期刊全文数据库,这三个数据库已经成为大多数高等院校、公共图书馆和科研机构文献信息保障系统的重要组成部分。在互联网中,这三大数据库也成为中文学术信息的重要代表,体现了我国现有的中文电子文献数据库的建设水平。

笔者结合工作和学习中的实践,就上述三大数据库的收录情况、检索功能、检索结果、检索界面、用户服务等方面进行全面的比较,并通过检索实践举例进行比较分析,以供参考。

1 收录情况(数据较早,甚至不是2004年的数据,感觉更像2002年左右的数据,后面将尽可能给出最新的数据值。)

1.1 收录范围与数量

《中国期刊网全文数据库》(本文中简称“清华”)是由清华同方光盘股份有限公司、光盘国家工程研究中心和中国学术期刊(光盘版)电子杂志社共同研制出版的综合性全文数据库。该数据库收录自从1994年来公开出版发行的6600余种国内核心期刊和一些具有专业特色的中英文期刊全文,累积全文文献618万多篇,题录1500万余条,按学科分为理工A(数理科学)、理工B(化学化工能源与材料)、理工C(工业技术)、农业、医药卫生、文史哲、经济政 治与法律、教育与社会科学、电子技术与信息科学九大类,126个专题文献数据库。

《中文科技期刊数据库》(本文中简称“维普”)由科技部西南信息中心主办,重庆维普资讯有限公司制作。其前身为《中文科技期刊篇名数据库》。该数据库收录了自1989年以来国内出版发行的12000种期刊,其中全文收录8000余种,按学科分为经济管理、教育科学、图书情报、自然科学、农业科学、医药卫生、工程技术等7大类,27个专辑,200个专题,按《中图法》编制了树型分类导航和刊名导航系统,基本覆盖了国内公开出版的具有学术价值的期刊,同时还收录了中国港台地区出版的108种学术期刊,积累700余万篇全文文献,数据量以每年100万篇的速度递增。

《万方数据资源系统数字化期刊》(本文中简称“万方”)是万方数据库资源系统三大组成部分之一,由中国科技信息研究所属下的北京万方数据股份有限公司创办。万方期刊收录了我国自然科学的大量期刊以及社会科学的部分期刊,范围包括基础科学、医药卫生、农业科学、工业技术、人文科学等5大类,以及英文版期刊、中国科学系列杂志,共2500多种期刊。1.2 期刊收录情况

通过对三个期刊数据库收录情况进行统计分析,得到以下结果:

1.2.1 根据《中文核心期刊要目总览》(2004年版)统计,我国核心期刊共1800种,由这三个数据库收录的期刊统计结果显示,“清华”收录核心期刊1391种,“维普”收录1490种,“万方”收录1300种核心期刊。从绝对数量来看,三者的核心期刊收录量相差不大,但从以上三大数据库核心期刊收录量分别占期刊总数的百分比来看,分别为21.08%(“清华”)、18.63%(“维普”)和52%(“万方”),“万方”数据库占有绝对优势。

1.2.2 文史哲类期刊收录情况。“维普”收录了5种,占此类期刊总量的0.055%;“清华”收录了451种,占此类期刊总量的4.995%;而“万方”收录了500种,占此类期刊总量的5.5%。说明“维普”在收录文史哲类期刊中所占比例很低,也比较符合它《中文科技期刊数据库》的名称。

1.2.3 医药卫生类期刊收录情况。“维普”收录1153种,占此类期刊总量的12.77%,“清华”收录809种,占此类期刊总数的8.96%,“万方”收录588种,占此类期刊总数的6.51%。农业类期刊“维普”收录756种,占此类期刊总数的8.37%,“清华”收录531种,占此类期刊总数的5.869%,“万方”收录了246种,占此类期刊总数的2.72%。另外,在自然科学与工业技术、教育与社会科学、政 治经济与法律等类目中,“维普”的收录量都是排名第一。

1.2.4 通过比较“清华”和“维普”收录期刊名录,得知两数据库期刊收录重复率约为50%,说明两数据库互补性很强,相互不可替代。而“万方”收录期刊与这两个数据库的重复率较高,在80%以上。

从上述分析看,这三个数据库基本覆盖了科学技术和社会科学的各个领域。其中“维普”期刊的收藏量占有绝对优势,几乎覆盖了中国出版的所有中文期刊,并且收录了大量内部发行期刊,收录的年限最长,其中收录自然科学和工程技术方面的期刊量比“清华”多出近50%,但在文史哲类方面则几乎是空白,因此,“维普”适合用户进行科技文献的回溯性检索。“清华”重点收录了国内公开出版的核心期刊与具有专业特色的中西文期刊,综合性上做得较好。而“万方”收录期刊数量为三者中最少,但核心期刊比率很高,收录文献的质量最高。

2 检索功能

2.1 检索入口比较

通过对三个数据库的使用、检索及测试,笔者得出以下结论:

(1) 三个全文数据库都配备了强大的检索系统,提供了导航检索、简单检索和复合检索等三种检索方式,其中导航检索都包括了学科分类导航和期刊名称导航两项功能,读者不需要输入具体的检索词,就可按照分类或期刊名称,通过层层递进的方式,检索到某一专题下的论文,并按题录链接浏览全文。检索方法简单易学。数据库检索选择范围灵活,可以选择一个或多个专辑进行检索,在同一专辑下,可选择一个或多个专题进行检索。

(2) 三个数据库都提供了关键词、篇名、刊名、作者、机构、文摘等6个的检索入口。同时根据各自系统的特点,“清华”的检索入口最多,还提供了引文、基金、全文、ISSN、主题词、年、期等7个特有的检索入口。“维普”则提供了第一作者、分类号、任意字段等3个特有的检索入口。而“万方”没有提供其他检索入口。

(3) 通过“清华”的“全文检索”和“维普”的“任意字段检索”,在对相同检索词进行检索时发现,前者的命中率较高,在一定程度上弥补了主题标引缺乏规范化所带来的漏查,有利于提高文献的查全率,但往往检出的文献太多,用户难以挑选到合适的文章,该检索方式对于检索前沿性课题文献信息或文献量较少的冷门课题较为适用;而后者(“维普”的“任意字段检索”)是在文章中除正文以外的其他任何部分进行检索,检出率虽然低于全文检索,但相对比较实用。

2.2 检索策略比较

2.2.1 简单检索

“清华”和“万方”的简单检索只有一个检索框,不支持同时输入多个运算符,就是说一次只能输入一个检索词。而“维普”的简单检索支持同一检索框内同时输入多个运算符组配的词。

2.2.2 高级检索

“清华”有四个检索框,提供多个检索项目进行逻辑组合检索,有检索结果排序方式和检索年限设定和专辑的选择;“万方”提供有两个检索框,提供多个检索项目进行逻辑组合检索,可以限定检索内容的大类和检索期刊的所在地区;“维普”提供四个检索框,可以实现检索条件的组配,还可以限定检索期刊范围,提供了检索年限的设定。

2.3 检索特殊功能比较

2.3.1 “清华”在每个检索入口提供了检索词字典,通过使用它可以规范所输入的检索词,有利于更全更准地检索文献信息。

2.3.2 “维普”在主题标引用词的基础上,编制了同义词库,有助于相关文献的检索,提高文献的查全率。而在进行作者字段检索时,可以通过调用同名作者库实现作者单位的限定,提高查准率。另外进行了期刊类型的划分,分为全部期刊、重要期刊和核心期刊,使检索可根据需要灵活选择。同时“维普”还提供了中图法分类号的检索功能。对于关键词不规范的学科和领域,通过分类号检索,能提高某一学科文献的查准率。

2.3.3 《万方数据资源系统数字化期刊》在检索时,可以对期刊所分布的地域进行限定。但笔者认为这一功能实用性不强。

3 检索结果

3.1 检索效果的比较

对于三大数据库,在设定相同检索条件的情况下(检索入口和检索限定一致),分别选择“题名”、“关键词”、“著者”和“分类”等四个检索入口进行检索,得出的结果见表1。

表1 检索结果数量统计表

原表见
http://www.cnindex.fudan.edu.cn/zgsy/2005n2/pengjun.htm

通过检索返回数量统计表中的数据分析,可以得出这三种数据库的自身特点、收录的范围和学科类别的情况。

比如通过著者字段的检索,张安将教授是从事化学研究的,他所发表的论文是科技方面的,在上表中“清华”收录了16篇,“万方”收录了5篇,而“维普”收录了24篇;张靖龙教授是从事文学研究的,在上表中“清华”收录了9篇,“万方”收录了0篇,“维普”收录了1篇。从这个对比中可以看出,三个数据库中综合性最强的是“清华”,收录理工科科技信息文献最多的是“维普”。

3.2 全文浏览的比较

三个数据库中的文献都可以浏览原版的图像全文,也可以用文献浏览器上提供的OCR识别系统进行文字识别处理文献。其中“清华”的全文要用CAJ全文浏览器或Acrobat Reader浏览器;“维普”的全文需要用VIP浏览器打开(已改为Acrobat Reader浏览器);而“万方”使用Acrobat Reader浏览器打开,有些文献可以在IE中直接打开。

单从数字化水平来说,笔者认为“万方”的数字化技术在三者中是最好的,它所用的是全球通用的PDF格式全文,方便交流,从打开的页面上看,制作得也比较精细。其他两个所用的是自己公司生产的浏览器,文献页面存在一定的缺陷,特别是“维普”的全文甚至出现手写文字。当然数据库数字化的水平也在不断进步中,比如:“清华”也推出了PDF的下载方式,自身的CAJ浏览器也在不断完善;“维普”页面数字化水平也在不断提高,同时从最新的信息来看,“维普”也将推出PDF格式的全文。可以说未来的趋势就是三大全文数据库都会提供通用的PDF格式的全文,并最终过渡到统一的格式。

3.3 显示、排序与去重功能比较

“清华”的检索结果是按照主题的相关度和文献的日期排序输出,可以设定每页显示文献的数量。

“维普”的检索结果是按照时间的倒序排列,同时间段按期刊顺序排列,用户不用翻页就可以浏览最新的文献。

“万方”在初次检索时不能设定检索结果显示的顺序,但在二次检索中可以设定是通过“升序”或“降序”排列。

数据库的去重功能做得都不够好,有待于进一步完善技术。(不是很理解这句话的意思,倒是希望有进一步分析。)

3.4 文摘结果显示比较

通过文献的文摘就可以了解一篇文章的基本情况,而不用浏览全文,这样科研人员就可以通过浏览文摘了解是不是自己找的文章,可以节约大量的时间。

“清华”的文摘显示内容有:篇名、作者、刊名、机构、引用链接、被引用链接、聚类检索、摘要、光盘号。

“维普”的文摘显示内容有:标题、刊名、作者、关键词和摘要。

“万方”的文摘显示内容有:光盘号、题名、作者、机构、刊名、ISSN号、CN号、藏号、关键词、分类号和摘要。

三个数据库中文摘做得最好的是“清华”,不仅可以从中获得文献的基本情况,而且能通过超级链接的方式,找到更多与查找主题相关的内容。

4 界面友好性

一个数据库的特点和优越性可通过它的检索界面表达出来的,界面友好、使用简单的数据库可以很快地让读者接受,读者也能比较容易地从海量文献中检索出自己要找的文献信息,反之,一个数据库收录了很多优秀的文献信息,数字化水平也很高,但是检索界面比较复杂、缺乏人性化,这样就会使数据库的使用大打折扣。

“清华”配备了功能强大的网络数据库全文检索系统,从它的检索界面中可以看出,该数据库检索方法简单、灵活,即使不具有专业检索知识的用户也很容易掌握。

“维普”通过分类和导航实现文献的浏览,还能通过初级和高级检索进行检索,页面之间衔接的比较清楚,从单个页面上看,也一目了然。

“万方”通过多种途径检索文献,但是页面过于复杂、繁琐,很难让初次接触的读者顺利地检索到文献,或达到很高的查准率和查全率,同时在页面的组织、导航的实现上也有待完善。

但是和外文全文数据库相比,国内这三大数据库都没有开发相应的个性化检索功能,智能服务程度不高,不能不说是一个遗憾。

5 用户服务

在服务方式上,三个数据库都提供了检索服务卡、光盘、局域网等检索方式,同时还提供了建立镜象站点、包库、流量计费等服务方式。

从订购价格上看,“维普”最为便宜,且使用和维护比较方便。“万方”则价格相对较高。

从用户角度上看,在选择数据库时可根据本单位具体特点及需求进行选择,对大型综合性图书馆,在经费许可的前提下,可考虑购置以上三种全文数据库或根据需要选择相应专辑进行补充选购。对一些专业性图书馆,可采用购置本专业的光盘、包库、流量计价等方式来降低费用;对于检索量小的综合性图书馆或单位,可通过建立镜像站点,并控制用户数,这比购买光盘价格更优惠。对个人读者,可考虑购买检索阅读卡,通过互联网进行检索。当从网上获得全文时,从直接下载速度看,“清华”和“万方”快于“维普”,并且,每一篇文献都能从题名及题录直接链接到全文进行下载,而“维普”却有许多文献要通过E-mail方式才能获得。