百度
  • 百度
  • Google

一家之言

首页 > 学术与争鸣 > 百家争鸣 > 一家之言

吴洪淇:司法量化评估的建构逻辑与理论反思

作者:吴洪淇

来源:探索与争鸣杂志

来源日期:2021年09月26日

本站发布:2021年09月26日

点击率:30次


  吴洪淇:北京大学法学院研究员

  本文刊载于《探索与争鸣》2021年第8期

 

  司法常常被视为社会正义的“最后一道防线”,以及保障社会正义的重要方式,对于法治社会建设具有重要的基础性价值。但是,我国的司法状况还存在许多不尽人意之处,司法腐败时有发生,错案、冤案屡屡出现,司法不公问题依然是建设法治国家面临的一大难题。因此,通过系统的司法改革来推进司法公正是我国近十年来改革的重点。在司法改革推进过程中,一项必须要做的工作便是对我国的司法状况进行全面的、系统的、动态的评估。一方面,司法是一个复杂的社会系统,其存在的问题及其深层次根源只有在全面科学的评估基础上才能确定。另一方面,司法改革举措的成效及其对司法系统各层次的影响也需要通过动态的观察与评估才能显现出来,而观察和评估的结果又将反过来影响司法改革措施的调整。因此,围绕司法和司法改革,近年来国内涌现出各种各样的评估。这些评估从不同维度展开,既有司法系统内部的评估也有学界外部的评估,既有局限于某一专项(比如司法公开、司法公信力等)的评估,也有面向整个司法系统的评估;既有采用定量方法的评估,也有采用定性方法的评估。这些司法评估在不同程度上影响着社会各界对于司法的整体观感,同时也会对司法机构和司法改革举措带来直接影响。因此,需要对这些司法评估本身进行再评估。本文主要聚焦于司法量化评估,对司法量化评估体系建构的逻辑和基本方法从理论上加以反思。

  背景:从量化法治到司法量化评估

  我国的司法量化评估可以说是普适主义法治价值推广与中国本土改革共同推动下的产物。自我国20世纪90年代确立“依法治国”的基本方针到2014年10月出台《中共中央关于全面推进依法治国若干重大问题的决定》,法治无论是作为一种社会治理方式还是一种理想图景,一直都是整个社会追求的重要目标。但对于中国这样的发展中国家来说,如何实现法治这样一个相对抽象的目标就成为了学界探求的一个重要问题。一方面,一些学者对法治实现的目标、条件和实现路径进行了深入的反思;另一方面,一些学者则尝试以定量的方法来测度法治的实现状况,比如中国人民大学朱景文主持的《中国法律发展报告——数据库和指标体系》和浙江大学钱弘道主持的《中国法治指数报告》。后一种进路可以称为“量化法治”进路,也就是从量化数据的角度将法治这一相对抽象的目标具体化为一些可以把握的指标,然后通过问卷调查的方式来衡量一个国家或地区某一阶段的法治发展水平。“量化法治”进路一定程度上可以说是“法治与发展”运动和美国社会指标运动相结合的产物,其核心是“希望在法治领域找到化约种种复杂性和多样性的‘公约数’,乃至绘制出一幅数字化的世界法律地图”。在这一“数字化的世界法律地图”当中,各国的法治发展水平可以通过量化的方式呈现出来。在量化法治实践方面,比较成熟的有世界银行的世界治理指数(WGI)、“世界正义工程”(WJP)开发的世界法治指数等。以下以世界法治指数为例,对其具体展开形式做一个介绍。

  世界法治指数是由“世界正义工程”开发的一套法治评估方法,该项目由美国律师协会于2006年发起,后来得到盖茨基金会等民间组织和个人的赞助。该项目的目标和任务是促进世界各地的法治发展,并坚信“法治是社会机会和公平的基础——它意味着根除贫困、暴力、腐败、瘟疫和其他对公民社会的威胁”。为了有效评估世界各国的法治状况,“世界正义工程”开发出一种量化评估方法——世界法治指数。该指数描绘了世界各国在实践中坚守法治程度的一个综合图景,从普通人的视角调查了可能影响人们日常生活的法治运行的实际状况。世界法治指数作为衡量各国法治发展程度的综合数据库,旨在为政策制定者、商业机构、非政府组织和群众提供一个独立的数据资源库,以便把握由普通人感知或体验的一个国家的法治情况。在不同国家法治强弱程度的比较中,世界法治指数通过年度报告的形式追踪最新的法治动态变化状况,从而为世界各国加强法治建设提供了一面“镜子”。具体实现方法是在每个国家的三个最大城市选择1000名代表,通过问卷调查的方式让这些受访者对本国的法治状况进行评价。迄今为止,世界法治指数已发布9份年度报告(2010、2011、2012—2013、2014、2015、2016、2017—2018、2019、2020),分别对35、66、97、99、102、113、113、101、128个国家进行了评估排名。尽管世界法治指数所采用的方法和背后所代表的某种法治普适主义的理念在学界存在不少争议,但这些持续发布的报告一定程度上对中国整体法治状况的评价产生了重要的影响。

  在世界法治指数的视野下,中国在法治领域尤其在司法领域的排名并不乐观。表1呈现了2015—2020年度世界法治指数中,中国司法的两个领域(民事司法和刑事司法)的得分与在世界主要国家中的排名状况。分析这六年来的数据,无论是民事司法还是刑事司法领域,中国在全球排名中一直较低,基本上是处于中流,个别年份甚至在末流。因此,从世界法治指数这面“镜子”来看,中国法治指数在世界法治指数中排位较低,而司法领域作为法治指数的一个重要组成部分,某种意义上已经成为中国法治建设的一块短板。

  这样一种评价一定程度上也构成了我国不断进行司法改革的一种外部推动力。自党的十八大以来,司法领域的全方位改革一直都是全面深化改革的重要环节。党的十八届四中全会将保证“公正司法,提高司法公信力”作为决议的重要内容之一,明确提出公正是法治的生命线,司法公正对社会公正具有重要引领作用,司法不公对社会公正具有致命破坏作用。为了推进司法公正,需要不断完善司法管理体制和司法权力运行机制,规范司法行为,加强对司法活动的监督。与此相配套,党的十八届四中全会推出了司法员额制、司法责任追究制、基层检法人财物上调省级统管、干预司法记录通报制度、司法人员履行法定职责保护机制等一系列改革举措。

  改革应该建立在对现状进行准确科学评估的基础上,这是过去四十年来我国经济改革获得成功的一条宝贵经验。在本轮司法改革展开的同时,围绕司法领域的量化评估也纷纷涌现。目前涉及司法领域的评估大致可以区分为三大类:第一类是类似于世界法治指数这样的对法治的整体性评估,这种评估主要将司法领域作为其中一个组成部分,比如像前述朱景文主持的《中国法律发展报告——数据库和指标体系》和钱弘道主持的《中国法治指数报告》。此类评估的优点是视野开阔,立足于法治整体状况进行评估。但对于司法领域而言,这类报告因为关注整体法治体系而对司法领域本身关注不足,比如在钱弘道主持的《中国法治指数报告》中,司法方面的指标仅仅是9个一级指标之一。第二类则是对司法领域某一专门性问题,比如司法公开、司法公信力等展开评估。由中国社会科学院国家法治指数研究中心持续发布的《中国司法公开第三方评估报告》便是此类评估的一个典型代表,该系列报告重点关注中国司法系统近年来力推的司法公开改革,通过深入而细致的跟踪调研来呈现我国司法公开方面的改革及其落实情况。不过对于司法领域的全面改革来说,这些单项的专门性评估的关照面又显得较为狭窄。第三类司法量化评估则是居于前两类之间,将司法领域作为一个整体来加以评估。司法领域是一个整体的领域,司法领域不同层面的改革往往紧密相关,只有对司法进行系统全面的评估,才能更为有效地为当前司法全方位改革提供科学的参考依据。对司法领域全口径评估的典型代表是由中国政法大学司法文明协同创新中心持续发布的系列《中国司法文明指数报告》。该系列报告的核心目标是通过司法文明指数体系的设计开发应用,来实现对我国各地区司法文明发展程度的科学动态的整体性评估。项目组开发出一套由10个一级指标和50个二级指标组成、相对稳定的司法文明指标体系。从2014年开始,通过发放问卷和收集客观数据的调查方式对全国31个省级地区进行司法文明指数评估,在此基础上先后按照年度发布了6份《中国司法文明指数报告》。下文将以该指数报告为样本,考察司法量化评估体系建构的基本逻辑和实施路径。

  司法量化评估体系建构的逻辑与路径

  在日常生活当中,评估活动广泛存在于社会各个领域,比如消费者对所购买商品的评价、被服务者对各种服务所进行的评价。与对这些商品和服务的评估相比,对司法的评估有其独特性,其独特性根源于司法活动本身的特殊性。

  首先,一个国家的司法是多维度的,包括司法制度、司法从业人员、司法的硬件环境乃至社会整体的司法文化,而且每一个维度之下又有多个组成部分。司法的这种多维度性使得要对司法进行全面评估需要有一套相对多维的评估体系和相对精密的评估方法,否则就容易陷入盲人摸象的误区。其次,司法活动具有专业性。“随着法律的职业化、专业化以及大量复杂的法律术语和耗费时间和财力的程序……法律活动变成一个普通人除了依赖于法律专业人员之外无法也没有时间涉足的领域。”这种专业性将导致外部人士要对其进行评价必然存在信息不对称的问题。最后,司法的结果是一种零和博弈,司法裁判的结果往往很难令诉讼各方都满意。因此,诉讼的参与者们尽管有与司法打交道的经历,但很容易因为诉讼结果不同而对司法有着不同的观感,这必然会对司法评估的准确性产生主观影响。

  基于司法本身的特性,对司法量化评估体系在设计的过程中要系统解决三个问题:第一,谁来评估,即解决评估主体的问题;第二,评估什么,即解决评估对象的问题;第三,如何评估,即解决评估方法的问题。

  (一)评估主体:内部视角与外部视角

  司法本身的特殊性决定了在选取评估主体的时候要考虑哪些主体是司法评估的适格主体。第一,司法的专业性所带来的信息不对称问题使得外行人对司法活动很难进行准确的评估,因此在选择评估主体的时候要特别将两类群体考虑在内:第一类是法律职业群体本身,法律职业群体又包括两类子群体,一类子群体是行使司法权力和相关权力的群体,如法官、检察官和公安人员等。这类子群体对司法的多个维度都具有较为充分的认识,但与此同时,这类子群体自身又是司法权力本身的一个核心要素,对自身的评价容易因为利害关系和认知偏见等因素而带来评估上的偏颇。因此,就需要将第二类子群体也就是律师群体纳入评估主体当中,律师群体一方面对司法有较为深入的介入,另一方面因为律师不掌握司法权力,对司法的评估上会相对中立。

  第二,司法评估还应该将一般的社会公众作为重要的评估主体。这主要是基于两个方面的原因:第一个原因是司法要具有权威性就必须具有外观上的合法性,这种外观上的合法性对维系司法裁决的可接受性至关重要。这种外观上的合法性体现在一般社会公众对司法的笼统观感中,包括法律职业人员的行为甚至面貌、司法机关的建筑、与司法有关的舆论传闻等。第二个原因是前述司法的零和博弈性往往会导致当事人对司法呈现差异化评价,一般社会公众的评价可以对这种差异化评价形成一种有效补充。正是基于上述考虑,司法文明指数调研采用内部视角与外部视角相结合的办法,充分吸收法律职业人士的内部视角和一般社会公众的外部视角。具体做法是在选择评估主体时将下列群体都兼顾在内:(1)在每个省选取200位法律从业人士作为评估主体,其中包括80位律师、40位法官、40位检察官、40位警察;(2)在每个省选取600名社会公众作为评估主体,这些社会公众一方面包含一部分涉诉的社会公众,另一方面在选择时也兼顾了各个不同行业、文化程度、区域、年龄层次的从业群体。

  (二)评估对象:四个层次

  司法本身包含多个维度,因此对司法的评估需要从多个维度来展开。根据量化司法进路,对一个社会司法状况的整体评估需要从不同的层面出发,来建构一个整体性的指标体系。按照司法文明指数项目的设计,对一个社会司法文明程度的考察可以从以下四个层面着手:

  第一,司法权力与当事人权利的合理配置。合理的权力配置体制是司法文明得以实现的基本前提,而权力配置体制最主要的两个维度就是司法权力的配置和当事人权利的保障,两者是同一问题的两个不同侧面。为此,司法文明指数分别设置了“司法权力”和“当事人诉讼权利”2个一级指标。其中,“司法权力”这一一级指标之下又分解为5个二级指标,分别是司法权力依法行使、司法权力独立行使、司法权力公正行使、司法权力主体受到信任与认同、司法裁判受到信任与认同。“当事人诉讼权利”之下分解为4个二级指标,当事人享有不被强迫自证其罪的权利、当事人享有获得辩护与代理的权利、当事人享有质证的权利、当事人享有获得救济的权利。

  第二,司法程序与证据制度的合理建构。科学的司法程序与证据制度是司法文明得以实现的制度保障。司法程序与证据制度部分,分别设置了4个一级指标:民事司法程序、刑事司法程序、行政司法程序与证据制度。其中,“民事司法程序”设置了3个二级指标,包括民事审判符合公正要求、民事诉讼中的调解自愿合法、民事诉讼裁判得到有效执行。“刑事司法程序”设置了3个二级指标,包括侦查措施及时合法、审查起诉公正有效、审判公正及时有效。“行政司法程序”设置了2个二级指标,包括行政审判符合公正要求、行政诉讼裁判得到有效执行。“证据制度”设置了3个二级指标,包括证据裁判原则得到贯彻、证据依法得到采纳与排除、证明过程得到合理规范。

  第三,合格的司法主体是司法文明得以实现的主要载体,这一司法主体主要指司法程序中的法律职业人员。合格的法律职业人员首先应该具有高尚的法律职业伦理,远离司法腐败,这是合格的法律职业人员的基本条件。与此同时,也应该给予法律职业人员以适度的职业化保障,因为职业化保障是法律职业人员具有高尚职业伦理的基本前提。为此,分别设置2个一级指标:司法腐败遏制和法律职业化。“司法腐败遏制”这一一级指标下面包括3个二级指标,即警察远离腐败、检察官远离腐败、法官远离腐败。“法律职业化”这一一级指标下有3个二级指标:法律职业人员具有适格性、法律职业人员遵守职业伦理规范、法律职业人员享有职业保障。

  第四,司法公开和理性司法文化的培育是司法文明的基本目标。司法如果丧失基本的公信力,则社会公正将会失去“最后一道防线”,而司法公信力的获得需要通过推进司法公开来促成。司法公开有利于公众理性司法文化的养成,而公众的理性司法文化则是培育司法公信力的社会土壤,两者休戚相关。因此,在“司法公开”这一一级指标下又存在2个二级指标,包括司法过程依法公开和裁判结果依法公开。而在“司法文化”这一一级指标下又存在4个二级指标,包括公众参与司法的意识及程度、公众诉诸司法的意识及程度、公众接受司法裁判的意识及程度以及公众接受现代刑罚理念的意识及程度。

  (三)评估方法:主观判断的客观化

  在评估具体实施方法上,需要通过以下三个步骤来建立司法文明指数评估体系。

  第一步是建立司法文明指数指标体系。司法面相多元,从组织到制度、从主体到职业环境,构成了一个复杂的司法系统。对这一复杂的司法系统进行有效的评估,就需要先建立相对完整的司法文明指数指标体系。在参考既有司法理论和广泛听取相关专业人士意见的基础上,如前所述,司法文明指数项目组构建了10个一级指标,它们从权力配置与权利保障、司法程序构建、司法主体的规范以及司法文化的培育等多个层面共同展现了一个国家司法的基本情况。从可操作性角度出发,司法文明指数项目对10个指标进行了平均赋值。在这10个一级指标的基础上,派生出32个二级指标,它们共同构成了对一个国家司法状况加以评估的指标体系。

  第二步是针对32个二级指标进行问卷设计。要对全国不同区域的司法状况进行评估,问卷调查是获取信息最有效的一种手段。通过问卷调查的方式可以将不同群体对本地司法状况的评价尽可能地加以定量化测度。为了实现前述目标,在问卷的设计上要从以下三个方面加以处理:第一,在问卷的分类上,针对一般社会公众和法律职业群体对司法的认识程度差异,分别设计了针对一般社会公众的问卷和针对法律职业群体的问卷。针对一般社会公众的问卷问题较为简单,问卷的问题主要是了解社会公众对本地司法队伍、司法腐败遏制、司法公开以及司法文化等一级指标的了解。而针对法律职业群体的问卷则问题数量较多,问题更为复杂,在范围上侧重法律职业化、司法权力配置、司法程序和证据制度等更为专业化的一级指标。第二,问卷问题的设计上紧紧围绕司法文明指标体系。问卷的问题要能够指向对应的二级指标,这样受访者每回答一个问题就意味着对某一二级指标作出了判断。比如,“在您所在地区,贫富不同的当事人受到法院平等对待的可能性有多大?”这一问题指向的二级指标是“司法权力公正行使”。第三,对问卷问题的答案进行赋值。除了对问题本身进行设计之外,对问题的回答还需要呈现一定的倾斜度,这种倾斜度可以用来测度司法的某一方面。以前述问题为例,对该问题的答案是 “非常可能、很可能、有可能、不太可能、非常不可能”这样呈现倾斜度的回答,受访者选择不同的答案就意味着对某一二级指标给出了不同的赋值。

  第三步,将问卷进行汇总,然后对问卷答案进行统计,测算出每一个地区不同受访者对本地区司法的不同指标给出的分值。问卷调查通过较大样本的受访者答卷可以高效地将不同受访者对本地司法状况的评价汇集起来,从而实现主观判断的客观化。一定程度上说,司法文明指数展开的过程就是将某一地区的社会公众(包括法律职业群体在内)对本地区司法状况的评价意见收集汇总并加以赋值的过程。某一个体对于本地区司法的判断也许是主观的,但这些个体叠加起来形成的判断则是相对客观的。这些由个体意见形成的公共意见会构成对一个地区甚至一个国家司法状况的基本评价,进而对司法改革走向产生切实的影响。

  司法量化评估进路的理论反思

  从世界法治指数项目到司法文明指数项目,司法量化评估进路在我国得以落地并对司法的评价产生了切实的影响。司法的量化评估通过大样本的问卷调查等各种方式,有助于从宏观上对不同地区、不同维度的司法状况加以把握,从而为司法改革宏观决策提供一定的参考。司法文明指数项目通过对相关问题的跟踪调研和赋值可以很好地呈现出这些司法改革举措对不同群体所造成的差异化影响,从而为下一步司法改革政策调整提供相应的依据。但也要看到,以指数呈现出来的司法量化评估也一直存在着一些无法回避的隐忧。

  第一个隐忧是司法量化评估背后往往潜含着一种关于司法的理想图景,这一理想图景成为对一个国家和地区司法状况加以评估的衡量标准。而这一理想图景往往来自于一些法治发达国家对司法的界定和描述。正如一些学者已经意识到的,“与现代法治的理念和实践一样,法治指数……是在法律全球化背景下一种全新的世界法律地图,它所传播的是特定的法治理念,有特殊的原始样本,自然难以避免地产生一系列扭曲作用”。这样一种“扭曲”常常体现为本土的群体诉求难以为这些带有普适化的法治版本所兼容,从而出现制度诉求与制度供给之间不相匹配的“秋菊式”困境在我国司法改革推进的过程当中,同样存在着公理化的司法制度标准在中国本土司法环境中具体落实与审慎调试的过程。这样一种困境同样存在于以世界法治指数为借鉴对象的各种司法量化评估项目当中。比如说,如果以“独立”作为一个尺度来衡量司法,因为域外与中国对该概念的理解存在很大的差距,那么测度的结果和实际的结果会大相径庭。为此,在建构中国本土司法指数时,一个重要的挑战就是要建构一套与西方司法普适话语有所区别,但又与中国本土司法状况相契合的指标体系。司法文明指数项目在这一方面进行了一些尝试,初步建构了由10个一级指标和32个二级指标组成的司法评估指标体系,但这些指标是否能够真正反映出中国司法状况,还需要在未来实践当中进一步验证。

  第二个隐忧则是司法量化评估进路在具体实施方面还存在诸多潜在的风险。司法量化评估的核心在于通过精心设计的问卷调查去获取社会对司法评估的意见并对其进行赋值和阐述。在这一过程中,如何确保社会对司法的评价不会被扭曲甚至误读,是司法量化评估过程中需要解决的难题。其中,风险之一是对不同指标加以相对准确的赋值。在指标确定之后,对于指标如何赋值将会直接影响指数评估的最后结果。在指标的选择和赋值方面,国际上已经发展出一套较为成熟的方法,比如德尔菲法。风险之二是司法量化评估一般是通过问卷调查来收集评估者的反馈意见,问卷通过问题设计及赋值实现了对评估者意见的格式化处理;因此,问卷设计合理与否将会决定能否充分合理地将评估者对司法的意见客观反映出来,这其中包括问卷问题与指标之间的匹配度、被访者对问卷问题的可接受度等。风险之三是受访者容易出现样本偏差的问题,样本偏差容易导致对实际司法状况的错误评估。司法量化评估通常需要大量的受访者来提供相关信息,但这些受访者基于不同视角、不同立场、不同经历,对于本地司法常常会有截然不同的认识和评价。因此,在选择受访者的时候要尽量能够做到相对均衡,按照不同职业、年龄层次、文化程度、诉讼经历等来选取不同的受访者,特别要注重司法内部视角和外部视角的均衡。

  第三个隐忧是对于司法量化评估的结果要加以合理化的使用,不能片面停留在对相关结果和排名的关注上。司法量化评估的最终结果往往会反映在不同区域、不同维度的排名和得分上面,这些排名和得分固然会说明司法本身存在的一些问题,但其价值对于司法量化评估工作来说仅仅是冰山一角。无论是排名还是得分都仅仅是被访者评价结果的展现,更为重要的还是要探测出被访者之所以如此评价的深层次原因。因为只有了解了这些深层次原因,决策者才能对相应的政策作出调整。司法量化评估的意义在于,一方面通过一套指标体系来测度受访者对司法的评价,另一方面更为重要的是通过深入分析评价背后形成的深层次原因,来准确揭示司法存在的问题及其根源。比如某一省级地区获得的评价很差,那么就可以进一步去分析是因为哪些指标获得了不好的评价,进而通过分析受访者的背景并结合当地的实际情况来分析这些指标上获得差评的根源是什么。唯有如此,司法量化评估才能真正成为改进司法的一面“镜子”,真正发挥其对司法测度和监督的作用。

相关阅读:

评论:

关闭窗口
此处显示新 Div 标签的内容