科研评价：目的与方法的适切性研究的理念分析

发布时间：2015-09-22 08:56

近年来，随着我国科技与教育投入不断增长、高等教育重点建设不断推进，科研论文产出规模快速增长，但无论在国家层面还是重点建设高校层面，重大原始创新成果或高影响力科技成果却依然稀少，科技创新对经济发展方式转变的支撑作用依然不明显，进一步改革科技管理体制的呼声越来越高。其中又以科研评价方式最受诟病，一方面定量评价方法被指责为科研泡沫的罪魁祸首，另一方面同行专家评价中的“黑幕”也不时被揭开，引发对学术腐败的声讨。我国的政策制定者与学术界对科研评价现状均不满意。但从世界范围看，科研评价实践至今已有三百多年的历史，科技评价的理论研究成果也相当丰硕，改革和完善无需“摸着石头过河”，需要系统的理性反思和重构。
    一、以科学研究及其成果为指标的评价活动
    (一)科学的本质规定性与外在表现形式
    科研评价虽以科研成果或科研的表现为基础，但评价的结果必须与科学的本质规定性相一致。18世纪以前，人们认为科学是知识。到19世纪末20世纪初，人们认为科学是以观察方法为基础的关于自然、社会思维的知识体系。[1]科学的直接目的是获取新知识，只有取得非传统的、前所未知的成果的活动形式，才能称得上是科研工作。科学学奠基人贝尔纳(J. D. Bernal)认为，通过详细描述科学的主要特征来代替科学的定义更为合理。据此，科学可以看做：(1)一种建制，科学已经成为一种广泛的社会职业，科学家的所作所为就成了科学的一种简易定义；(2)一种科学方法，即发现自然界和社会新方向及新规律的各种方法的总和；(3)一种累积的科学传统，科学的每一次收获，不论新旧，都要经受住检验，然后被并入科学总体之中；(4)一种维持和发展生产的主要因素。[2]
    科学具有真理价值和实用价值。[3]科学作为系统化、理论化的知识体系，它的真理价值是不言自明的。科学家的专业任务便是发现一些自然现象的秩序和规律，然后把它们系统化，并尽量传播出去。科学的真理价值是科学固有的、基本的价值属性，只能用增加多少独创性的学术价值来衡量。从科学的实用价值来讲，人们创立理论的目的是回归实践，满足社会需求，实现理论价值。然而，只有理论凝聚了对客观事物的真理性认识，才可能回归到实践中。
    “不发表即灭亡”(publish or perish)，科研进展和发现需要通过公开发表获得优先权的确认。科研成果按成果的属性可以分为基础研究(理论)成果和应用研究(技术)成果。经济合作与发展组织(OECD)《研究与发展调查手册》认为基础研究成果一般不出售，通常只在科学期刊上发表或在对其感兴趣的同行中传播。[4]应用研究成果是为改造客观世界而探索的实用性技术和知识，如新工艺、新产品、新方法，一般以专利、研究报告、相应的技术资料和实物等形式体现。
    (二)以科学研究及其成果为指标的评价类型
    “分类评价”已经是科技评价改革的一个共识，但是对评价的分类逻辑却谈不上清晰。《国家“十二五”科学和技术发展规划》在“深化科技评价和奖励制度改革”部分提出：“针对科技计划、机构、人员等不同对象，国家、部门、地方等不同层次，基础研究、应用研究、科技产业化等不同类型科技活动的特点，确定不同的评价指标、内容和标准。”[5]这一规定与“目标导向、分类实施”要求一致，也可以认为它是对科技评价类型的一种划分。但是该条款忽略了科技成果这一科技评价最直接的对象。
    为了进一步剖析评价对象与评价方法之间的匹配，本文根据科研成果在评价中角色的不同，将科研评价分为两大类，即“对科研成果的评价”和“以科研成果为指标的评价”(见表1)。表中将某一具体科研项目申请书(研究计划、设想和论证)作为科研成果，这一点可能存在争议，但作者认为问题提出、研究技术路线设计等活动是科研早期成果的重要体现。“对科研成果的评价”是对某一具体科研成果形式，包括投给学术期刊的论文、学位论文等开展的评价。“以科研成果为指标的评价”包括科研工作者评价、学科评价、科研机构(包括大学)评价以及国家和地区竞争力评价。评价对象不同，涉及的成果数量和专业领域范围不同，方法选择也会有差异。

    二、科研评价主要方法及其合理性和缺陷
    同行评议和科学计量学方法是对科研评价的主要方法。
    (一)同行评议的合理性及缺陷
    三百多年前英国皇家学会成立时，最早将同行评议(Peer review)用在其会刊《哲学学报》的来稿评审中，开启了由科学家对同行研究工作进行评价的先河。第二次世界大战前后，一些国家成立的科学资助机构开始邀请外部科学家参与遴选拟资助项目，如1937年成立的美国癌症研究咨询理事会、1950年成立的美国科学基金会(NSF)等，并逐渐形成了稳定的同行评议系统。[6]这较之此前仅依靠内部行政官员开展决策相比是一个明显进步。
    国内外学者从强调不同要点出发对同行评议有多种定义。按照英国博登(M. Boden)教授的观点，同行评议就是由从事特定领域或接近该领域的专家来评定一项工作的学术水平或重要性的机制。[7]美国学者楚宾(D. E. Chubin)等人认为，同行评议是科学家们用来评价科学工作、证明程序的正确性、确认结果的合理性以及分配稀缺资源(诸如期刊篇幅、研究资助、认可以及特殊荣誉等)的一种有条理的方法。[8]我国学者刘明认为，同行评议是针对涉及研究工作的某项实物，聘请在该领域或相近领域工作的专家，运用其专业修养，就对象的学术水准及相关价值做出评价的活动，评价结果是决策的重要依据。[9]从上述不同的定义可以看出：首先，同行评议是同行对科研工作进行的一种主观评价；其次，它是对科学工作程序、学术水平或重要性的评价；再次，评价结果是决策的依据之一，与稀缺的科技资源分配联系在一起。
    同行评议成为三百多年来科学共同体科研评价的主要方法，有其合理性。基于科学所具有的与客观真理相联系的权威地位，从科学研究作为一种独立社会活动产生以来，无论哲学中的实证主义与证伪主义，还是社会学中的结构功能主义，均努力在科学与非科学之间划出截然的界线，并使得科学在政府的政策制定中往往被作为“例外”加以对待，以维护科学的自主性和坚持科学自治的思想。[10]同行评议是维护科学制度自主性的方式，并被视为科学自主性的象征。
    同行评议的方式主要有通信评议和召开评审会评议两种。在通信评议中，每一项成果有若干专家按照给定的评分标准打分并给出书面评语，根据通信评议是否隐匿成果署名和专家评审签名，又可以分为单向匿名评审和双盲评审。在会议评审中，专家委员会召开会议对送审的成果集中审议，或对申请人当面答辩并进行评议，进行投票表决。在坚持公平公正的前提下，同行评议针对每一个对象也有明确的参考标准，以对同行专家的评价给予提示和引导，便于对不同专家的评价进行比较。
    大多数科研工作者对同行评议已经熟悉，有一定资历的学者可能经常在评审专家与被评审对象之间频繁转换角色，对其中存在的问题也各有感悟。同行评议的首要标准是按照公平公正的原则对评价对象的质量和重要性进行判断，而不应受到作者与评审人之间存在的利益冲突(如专业领地受到侵犯、资源竞争等)、作者与评审人之间相对地位的差异、作者外在的一般特征(如学术资历、专业声望或知名度、供职单位等)的影响。但是“科学界的马太效应”与“坐第四十一席位者”现象及相关研究显示，在同行评议中能否有效避免上述方面是存疑的[11]；评议过程中，评审专家剽窃申请书中的新构思、否定申请人的事例也时有发生，“拉关系”、“打招呼”、“投桃报李”等不正之风更是屡见不鲜。在不同类型的评审中，专家组中非专家成员越来越普遍，有的还对评议结果拥有决定权，同行专家仅限于提建议和签名，同行评议徒有形式。另外，科学成果按指数增长的规律也让同行评议不堪重负，同行评议占用专家大量精力，物质成本开支也越来越大。
    (二)科学计量学方法的合理性与缺陷
    科学计量学指标应用于科研评价始于20世纪60～70年代。此前，除了同行评议制度外，科研评价没有其他正规的形式。[12]科学计量学(Scientometrics)或文献计量学(Bibliometrics)是运用数学和统计学方法对科学活动的产出(如论文数量、被引数量)和过程(如信息传播、交流网络的形成)进行定量分析，从中找出科学活动规律性的一门学科。
    科学计量学的开拓者力求探索独立于科学的方式理解科学。20世纪50～60年代，科学共同体开始意识到科学情报和文献的数量呈现指数增长。加菲尔德(E. Garfield)和普赖斯(D. Price)等人提出应该用公开的、正式的科学交流系统反映科学的发展情况，而这项工作的前提是必须对文献进行分类和编排索引。1963年“科学引文索引数据库”(Science Citation Index，SCI)诞生。该数据库在文献检索功能之外，为定量分析科学发展情况提供了便利的数据平台。一些学者据此以出版物数量和引文数量为科研产出指标，创立了一系列概念和测度方法。出版物数量和引文数量等指标的引入，使决策者和科研管理者有了可以利用的直观依据，也使科学共同体在跨学科范围的质量控制上有了同行评议之外的客观标准。科学计量学因此逐渐赢得了存在的合理性。
    对科研产出的定量评价包括数量和质量两个方面。数量是个明确的概念，而质量则相对模糊，人们在不同的时间用不同的名称来描述它，比如“重要性”(significance)、“影响”(impact)、“效用”(utility)等。加菲尔德认为，关于质量，有两个方面的认识是确定的：质量是一个论文正面的品质，它通常反映该科学工作的声望；质量在同行评议的内容中扮演着重要的角色。[13]质量是研究工作内在的品质，是一种客观存在，但它并不是一个具有物理性质的客观实在物体。莫伊(H. F. Moed)认为，时间将证明某一研究工作的学术价值和持久性，其历史始于发表的学术成果被阅读和引用。引用其他学者的文献是学术共同体成员之间的一种社会行为，一篇论文被引用的次数可以被认为是其“影响”、“重要性”或者说“质量”的精确测量。[14]一篇文章的引用率越高，它的影响力就越大。对科学家来说，经常被引用的研究成果显然比很少被引用的研究成果更为有用。
    经济合作与发展组织出版的一本著作总结了评价科学技术活动的主要科学计量学指标，其中包括[15]：
    1.论文数量。论文数是对一位科学家、一个实验室、一所大学、一个国家科研工作成果数量的原始、简化和近似的测量。论文数只是粗略的科学计量学指标，但只有把握了这一初始数据，才能获得其他更有意义的相对指标。把论文总数根据研究人员数量或者经费数量等进行标准化，可以得到描述生产率的相关指标。但是，简单的论文数量显然不能成为评价该主体对科研发展贡献的全部。
    2.被引次数。在关于学术论文质量的界定中已经提到，被引次数可以用来测量被引用论文的影响或者质量。引文分析不仅能给出研究对象科研行为的静态图景，而且可以提供论文影响的动态趋势。已有研究表明，根据学科不同，一般从文献发表到随后三至五年的时间跨度内的被引次数能够最好地满足对论文影响力发展趋势的测量。但是，直接比较不同研究主体的被引次数是不合适的。某些领域的论文平均被引次数非常高，有些领域即使是高质量的论文，被引次数也不高。因此，被引次数必须根据专业和学科的不同进行正确的标准化。
    3.影响因子。影响因子是指某一期刊的论文在特定年份或时期被引用的频率，是衡量学术期刊影响力的一个重要指标。一本期刊的声望越高，其影响因子越高，在该期刊上发表的论文被引用的可能越大。作为一个研究工具，影响因子帮助解决了科研评价中的很多问题。首先，期刊影响因子每年都可以便利地获得，不需要为获得论文被引用数据等待很长时间；其次，它的成本和工作量比引文分析小；最后，数据来源可能存在的错误也被最小化。“影响因子不是评价论文质量的完美工具，但是却没有比它更好的工具。经验表明，在每一个专业，最好的期刊都是那些论文很难被其采用的期刊，也是高影响因子期刊，这些期刊在期刊影响因子被发明之前已经存在。”[16]
    4.合作者数量。一篇论文合作者的数量是测量国内或国际层面合作研究状况的指标。合作论文如何在各个作者间分配有三种方法：一是把合作论文与单一作者论文等同，合作论文只计算在第一作者名下；二是合作论文被重复计算到每个合作者名下；三是把合作论文按合作者数量分比例分到各作者名下。
    5.h指数。美国加州大学圣迭戈分校物理学教授赫什(J. E. Hirsch)在2005年提出了一个评价科学家个人科研产出的新指标——h指数。[17]赫什教授指出，如果一位科学家发表的N[，p]篇论文中有h篇论文被引次数至少为h，其他(N[，p]-h)篇论文中每篇的被引次数都小于等于h，那么这位科学家的h指数就是h。h指数越高，科学家的科学贡献和成就越大。《自然》(Nature)曾专文报导并肯定h指数将对科学家的科研评价起到重要作用。[18]该指数将科学家发表论文的数量和被引次数有机地结合起来，引起了广泛关注。有学者进一步将h指数拓展到对团队、机构的评价，也取得了积极的成果。
    当然，利用科学计量学指标评价科研工作也存在一些值得注意的问题。莫伊对此做过归纳，主要包括五个方面：一是数据采集与数据精确性。应根据正确的匹配程序收集文献被引用次数，要注意自引和多作者合作文献被引用次数计算问题。二是科学引文索引收录文献的覆盖范围与偏好。科学引文索引对不同学科文献和不同语种文献的覆盖程度不同，英语期刊是主体，如仅利用该数据库对非英语国家开展科研评价会产生消极影响。三是一般效度。科学家都具有多个任务和职责，被引次数并没有把他所做的全部活动考虑进去。作者引用动机有很多，有些动机与被引用文献的质量联系很小。四是评价指标及其效度。要区分不同学科之间引用行为的差异，对指标进行标准化。五是引文分析应用与解释过程中要注意的问题，主要涉及引文分析在科研评价中的角色，引文分析与同行评议的关系，引文分析在宏观、中观和微观层面使用的效果比较等。这个归纳较为系统地梳理了引文分析的局限和注意事项，对更好地应用和理解科学计量学指标有一定帮助。[19]
    随着互联网的快速发展，文献数据平台建设得到更多重视，利用科学计量学开展科研评价有了更多数据支持。政府科技投入的不断增长及对投入效益的重视、对科学共同体之外第三方评价机构的需要，为科学计量学方法的应用提供了市场。
    三、科研评价目的与方法的适切性
    基于对科研评价类型的重新划分和对两种主要评价方法合理性及其缺陷的分析，本文对每一种具体评价类型希望实现的目标、现行的主要评价方法进行了梳理，并根据目标与方法之间的匹配情况提出了改进建议。
    对单一科研成果的评价，总体上以同行评议为主(见表2)。这与科研工作的本质规定性和科学共同体追求自治的传统是一致的，而在涉及资源和荣誉分配的评价类型中，主管部门行政官员越来越普遍地参与其中，这一点引起行政权力对学术权力干预的质疑是难免的，但要视官员在评审中的地位而定；评审程序一般包括通信或会议评审等多个环节，形式与程序上保证了评价的公正和公平。

    但同行评议存在的问题显示，要确保同行评审人按照科研成果体现出的质量对其进行评价，而不受非成果因素影响，需要对同行评议的细节进行改进。比如对评审人隐匿成果作者的姓名和供职机构等。对已经公开发表的论文等成果进行评价时，应该在同行评议的同时，提供可检验的科学计量学指标信息，既供同行专家开展评价时参考，也对同行评议结果与计量学指标得分差异显著的例外情况进行控制。总体上，对单一科研成果本身的评价依然有赖于同行专家的公正裁决，但是同行评议存在的公认的漏洞，特别是在我国“人情社会”的文化背景下，在计量信息采集允许的情况下，均需设计科学合理的定量指标以平衡同行评议可能出现的问题。
    以科研成果为指标的相关评价，实际上可分为四个层次，包括对科技工作者的评价、对学科的评价和排序、对大学的评价和排序、对国家和地区的评价(见表3)。其中，对学科的评价也可以理解为对大学的单项评价。对大学的评价，包括总体评价、学术评价等多种具体形式。在不同的具体形式中，科研成果在其中的权重显然不同。比如在上海交通大学高等教育研究院2003年开始发布的“世界大学学术排名”中，仅针对大学最具有国际可比性的学术研究进行，结果完全依据包括五个一级指标的计量学指标体系评价得分，没有涵盖人才培养、社会服务等国别差异明显的方面。而《泰晤士报·高等教育副刊》2004年开始发布的“世界大学排名”则努力涵盖大学教学、科研、国际声誉等多个方面，并且引入同行评议，对各国大学打分；对国家/地区综合竞争力或科技竞争力的评价，也在不同程度上依据该国/地区科研投入与产出的多个方面指标。

    从不同层次评价的现有方法看，对科技工作者的评价是基础且敏感的评价之一。目前采用的同行与所属单位官员为主的评价基本符合实际。但是同行和官员评价科技工作者依据的重数量、轻质量的计量学指标最受批评，也有违科研工作重在创新的属性，建议仅以少量代表性成果的同行评议和计量学指标评价代替数量标准。为避免国内同行评议存在的“裙带”影响，需要改进同行专家的遴选程序，增加一定比例的国际同行。对学科和大学，既有独立第三方开展的评价，也有行政部门委托相关机构开展的评价，不同主体开展的评价目标、范围和方法会有所差异。独立第三方开展的评价不具有行政动员的组织力量，数据收集等主要依赖公开渠道，评价结果依据计量学指标的实际得分，如开展同行声誉调查，也相对独立。评价的目标主要是提供可比信息。由行政部门委托的相关评价，在专家遴选、数据收集、指标体系涉及等方面更多的是为同行评议提供基础，本质上仍然是同行评议。
    但是，从评价对象与评价方法的适切性来看，以科研成果为指标的四个层面评价，随着评价对象的扩大，评价依据的成果数量不断扩大，评价涉及的专业领域也不断扩大，因此，在方法的采用上，同行专家受时间、精力和专业熟悉程度的限制，可以发挥的作用越来越小，而计量学的优势则越来越大，对计量学方法的依赖也应越来越强。如果一项评价以国家为对象，超越了国界的限制，毫无疑问，具有国际可比的计量学指标将是唯一有说服力的选择。
    四、讨论
    同行评价与定量评价孰优孰劣的争论由来已久。从本文的研究来看，方法本身都有缺陷，但又不是科研评价问题的根本所在。在科研评价的实践中，最重要的问题是根据评价对象和评价目标选择契合的方法。在过去二十年左右的时间里，我国SCI论文呈指数增长[20]，但重大原始创新成果依然很少，有学者因此将SCI讥讽为“Stupid Chinese Idea”。正如李国杰院士所说：“SCI本身不是问题，问题出在我们滥用。”[21]
    定量评价不是单纯的“数数”。科学计量学在论文质量界定、运用引文分析与h指数开展科研影响力(质量)评价等方面做了大量的探索和验证工作，取得了丰硕的成果，评价指标体系日趋成熟，需要注意的问题也较明确。目前，国内高校和科研单位查询国内外文献数据库也非常便利，已经具备了在科研实践中广泛借助科学计量学指标的条件。
    同行评价作为科学建制以来共同体内部的质量保障机制，有其与生俱来的优势，也是科学共同体维护科学自主性的标志；但在科技大国美国及其发源地英国，都有强烈的改革呼声。这样的阐述也许过于尖锐，但也足见同行评价之痛。
    近年来，科研评价中出现了将同行评价与科学计量学指标结合起来的新趋势。正如文中所提及的，通过科学计量学指标获取评价对象的定量信息，为专家做出更合理评议提供支撑，并制约专家做出有违“常识”的判断，是对单个科研成果进行公正评价的有效方法。而以科研成果为指标的评价，随着评价对象的扩大，方法的采用应更多依赖计量学指标，降低同行评价的作用。

上一篇：小学语文课堂生成性资源的开发的方向分析

下一篇：语文新课程教学中的落差问题的路径改进

科研评价：目的与方法的适切性研究的理念分析

热门论文

热门推荐

推荐问答