常用中文期刊数据库药学文献检索比较

发布时间：2016-08-14 15:08

　　任何一个数据库都没有收录全部的医药文献。对数据库检索功能进行比较报道较多，而数据库标引质量对检索结果影响则似未见报道。我们拟通过个别词模拟检索，对数据库进行探索性的对比性研究，以找出数据库标引质量影响文献检索结果的因素，为医药学工作者文献检索提供参考。以下是整理的药学文献检索论文，供大家参考学习。

　　1.资料与方法

　　1.1收录期刊分析

　　以《中文核心期刊要目总览》中的药学类专业期刊一览表收录的期刊、《中国科技期刊弓I证报告》中2003年药学类期刊总被引频次和影响因子排序表收录的期刊刊名为检索词，分别对中国生物医学文摘数据库（CBM)、中国期刊全文数据库(CNK)以及中文科技期刊数据库（VIP)三个数据库进行检索，检索时段为2000~2003年，对于没有收录的期刊名称，查对《中国科技期刊引证报告》中期刊名称变更表确认。对期刊名称作为自由词的检索结果也进行对比分析。

　　1.2自由词检索分析

　　为了充分反映各数据库对常用词汇的标引情况，特选取使用频率较髙、表达方式多样的词汇“促红细胞生成素”为检索词，但预检索发现CBM主题词为“红细胞生成素”，鉴于“红细胞生成素”包含于“促红细胞生成素”，故确定以“红细胞生成素”为检索词，分别对CBM、CNK、VIP进行检索。为避免数据库标引时滞的影响，检索时段为2000-2003年。检索字段为文献题目、关键词、摘要、主题词。

　　1.3作者检索分析

　　在自由词检索过程中发现，作者的收录标引格式变化较大，如单姓、单名间有的有空格，有的则没有。为了避免标引格式的差异，从检索到的文献中随机选取3位单姓双名作者，进行作者字段检索,对检索结果进行描述性统计分析。

　　1.4检索文献的比较

　　为了便于比较从CBM、CNK、VIP数据库中检索到文献的差异，以VisualFoxpro6.0为工具，编写文献汇总程序，利用计算机将相同的文章比较、合并，供进一步分析。

　　2.结果

　　2.1收录期刊分析

　　药学类专业期刊一览表和2003年药学类期刊总被引频次和影响因子排序表[12]中共收录刊物79种，CBM、CNK和VIP分别收录了71，60和70种。未收录的多为专题性刊物、新创刊刊物和地方性刊物。数据库间对同一期刊的收录起始年份也不尽相同。

　　期刊名称，尤其是带有副刊名的期刊名称，在不同的数据库中表达方法不一致。其中VIP多采用中文冒号“：”分割副刊名，CBM、CNK多采用间隔符号“_”，有时也采用英文句点“.”。有时同一年份、同一数据库格式也有差异。

　　2.2中国生物医学文摘数据库的检索结果

　　检索词为“红细胞生成素”，检索字段为关键词、摘要、题目和主题词’分别检索到373’386’426和706篇文献；四个字段检索结果逻辑或（OR)合并，获得767篇不重复文献。如果不考虑检索准确率（即检索特异性），假设这767篇文献为所有文献，则检出率分别为:关键词49%、摘要50%、题目56%、主题词92%。主题词的文献检出率最高，关键词最低。四个字段均包含该检索词的文献,仅有231篇，占所有文献的30%;关键词、摘要、题目三个字段均包含的文献有233篇，占30%。主题词、摘要、题目三个字段均包含的文献有245篇，占32%。两两组合中，以题目与主题词相关性最好，均检索到的文献有422篇一致，分别占各自检出文献的99%,60%，占所有文献的55%。

　　关键词检索到而主题词未检出的有12篇。题目检索到而主题词中未检出的有4篇。部分文献的记录显示有关键词而没有标弓I主题词。

　　2.3中国期刊全文数据库的检索结果

　　检索词为“红细胞生成素”，检索字段为主题词时，显示文献数量为0。检索字段为关键词、摘要和题目，分别检索到355,386和384篇文献，合并汇总共有568篇不重复文献。如果假设这568篇文献为所有文献，则检出率分别为关键词62%、摘要68%和题目68%。三个字段均包含该检索词的文献,仅有222篇，占所有文献的39%。两两组合中，以关键词与摘要相关性最好，检索出的文献有271篇一致，分别占各自检出文献的76%、70%，占所有文献的48%。

　　检索结果中，题目中包含“红细胞生成素”而关键词中不包含的有120篇（21%)。题目包含而摘要中没有包含的文献有98篇（17%),与原文对比发现,原文没有关键词的文献’本检索系统中也不包含关键词。题目中包含“重组人红细胞生成素”，关键词中有“重组人红细胞生成素”、“红细胞生成素，重组”、“红细胞生成素”、“促红细胞生成素”等几种表达方法，影响了检出结果。

　　2.4中文科技期刊数据库的检索结果

　　检索词为“红细胞生成素”，检索字段为主题词时，显示文献数量为0。检索字段为关键词、摘要和题目，分别检索到490，367和382篇文献，合并汇总共有599篇不重复文献。如果假设这599篇文献为所有文献，则检出率分别为82%,61%和64%。三个字段均包含该检索词的文献,有220篇，占所有文献的37%。两两组合中，以关键词与题目相关性最好，检索出的文献有354篇一致’分别占各自检出文献的72%,93%，占所有文献的59%。

　　2.5数据库标引质量对检索结果的影响

　　三个数据库以“红细胞生成素”为检索词的检索结果共计有1934篇文献。经过计算机自动比较汇总（题目相同、作者相同、源期刊名、卷期相同的文献自动合并），再人工逐一核对，获得887篇不重复文献,超过任何一个数据库的收载总量。汇总合并过程中发现有374篇次有差异。经过与原始文献对比,发现主要是数据库标引的文献题目和作者名称与原文有差异’主要表现在错别字、冷僻字表达格式不同等，但标引的题目、关键词有误时,仍可通过其它字段检索可以获得。

　　对原文献有关字段有错别字的处理，各数据库方法不尽相同。CNK似未作修正,CBM在收录标引过程中作了修改。对于下标的表示方法，数据库间也不尽相同。CNK就以下划线加括号表示下标，CBM和VIP中则不作标志。

　　2.6数据库标引深度的比较

　　抽取三个数据库中关键词检索结果有差异的文献’核对原文比较数据库关键词、主题词标弓丨情况。从下载的摘要情况看’只有CBM有主题词标弓|。三个数据库都有关键词标引，CBM、CNK大部分文献有关键词标引，核实的部分文献中，均与原文一致。VIP重新选取、标注关键词，每一篇文献都有关键词标引,并对原文的关键词进行了规范化处理。

　　2.7作者字段检索结果对比分析

　　各数据库作者字段的检索结果见表1。CBM与CNK之间重合性较好，而VIP在检出率和与其他数据库之间的重叠方面都较低，许多文献的作者仅收录前2位，后跟“等.”,2003年的部分文献收录了所有作者。

　　作者一栏中，漏作者、名字漏字、错字较多见。另外，数据库间论文作者署名格式变异较大的应算译文,如:《国外医学》系列杂志的原作者、翻译者、综述者和审校者等在各数据库的收录格式不相同，有的标明综述者、审校者，有的则不标明，有的忽略审校者;同一数据库也有差异;多个并列合作单位的作者顺序、协作组与执笔者的收录情况也不一致。

　　3.讨论

　　三个数据库的检索结果均超过300篇,基本能反映当时各数据库文献收录和标引质量。从选定的79种药学类专业期刊收录情况看，中国生物医学文摘数据库最为全面，中文科技期刊数据库次之。对于收录的期刊，开始收录的年限也不尽相同，时有能检索到期刊名称和某年份其他文献,而检索不到特定文献的情况。期刊名称在不同数据库表达方法不一致,将影响通过期刊名称检索文献的检出率。

　　以“红细胞生成素”检索中国生物医学文摘数据库,主题词的检出率最高91%,关键词最低不足50%，提示检索该数据库选准主题词是关键。主题词检索为精确匹配时,则检索不到主题词为“受体，红细胞生成素”的文献，选定“包含”检索模式则可以。当检索字段为主题词时,也应该恰当地选定检索方法。数据库标引过程中，对有的题目和关键词中均有的词汇，不标引为主题词’应该说是恰当的，有利于提高检索的准确率。主题词标引的正确与否对主题检索的影响很大。

　　抽取部分文献与原文对比发现，中国期刊全文数据库收录的关键词直接取自原文,而关键词选择的准确性和合理.性,取决于作者与编辑的水平，难以统一，势必影响检索结果的全面性和准确性。中文科技期刊数据库的关键词则经过重新标引，标引深度得到一定提局。

　　三个数据库检索结果汇总比较显示尚有约374的篇次有差异。这提示数据库标引过程中，对文字编辑校对工作尚需加强,并尽力统一表达方式。可以通过设计一定的错别字查找软件，进行相关提示。

　　从作者字段检索结果来看，中文科技期刊数据库在检出率以及与其他数据库之间的重叠方面都比较低,且检索时段内大部分文献的作者仅收录前2位。这可能受国内科研评价系统注重第一作者的思想有关。但是，这不利于根据作者进行特定课题、研究方向的追踪检索。大凡判定研究方向的研究者,多数是课题负责人,作为第一作者发表论文的机会较少。尤其有欧美留学经历者，往往遵照研究指导者总是署名最后的国际习惯。对这样的文献,通过作者途径就可能无法检索到课题的主导者。

　　数据库对于期刊名称和作者姓名等内容的收录和标引格式应规范化，取得一致，以方便检索用户，提高文献检全率。如果对常用词汇增加类似Med?line的人口词-主题词对照表,或者丰富检索词轮排表，将极大地方便检索用户，可以提高文献检全率。

　　各数据库的检索结果显示题目与主题词相关性均较高,反映出原文献作者确定题目、选取关键词的一致性倾向。然而作者和编辑应从全文出发，根据主题词表选取关键词，进一步扩大关键词的信息涵盖量。数据库应进一步提高标引深度和广度，并对标引过程中产生的错误进行及时修正，并注意不同专业相同缩略语容易造成歧义,引起标引误差,尤其是缩略语用作关键词时。对于原文中存在的错误，建议采纳CBM收录标引过程中对原文献的错误作进行修改的方法，同时实行相应纠正标注或者其他处理措施,既避免以讹传讹,又可提高文献利用率。

　　检索结果还提示有些源期刊的编辑质量有待提高，除了错别字外，在主题词的选择与确定上’应加大规范力度,特别是药品名称应规范化地采用通用名称。

　　虽然中国生物医学文摘数据库与中国期刊全文数据库、中文科技期刊数据库分别属于文摘型和全文型数据库,本不具可比性,但是在实际工作中，并没有截然区分。诸多信息工作者巳经对其从检索功能、系统性能方面进行了比较,也研究了其在学科文献的收录、质量控制情况,属于宏观质量考评。本文从收录标引质量的微观角度进行了比较,探讨收录特点、标引误差导致文献不能被检索弓I用的因素,以便引起期刊编辑和医药工作者的重视。限于条件,仅就本单位图书馆订阅的中国生物医学文摘数据库、中国期刊全文数据库和中文科技期刊数据库进行了初步分析，希望能有更多的医药信息工作者关注此类问题,使数据库充分发挥应有作用。

　　孙华君,春芳,张明华,胡晋红\上海长海医院药学部,解放军总医院医学保障部药品供应中心

上一篇：提高《药学导论》教学效果初探

下一篇：药学毕业生实习培养模式初探

常用中文期刊数据库药学文献检索比较

热门论文

热门推荐

推荐问答