作者 | 王燃(法学博士,天津大学法学院副教授,天津大学中国智慧法治研究院研究员)
来源 |《法学家》2022年第3期“专论”栏目。
随着大数据、人工智能技术逐渐渗入司法证明领域,引起建立在大数据基础上、以算法为核心的证明方式变革。大数据在司法领域的证明作用,突出表现在以下几方面:(1)证明主体身份。基于海量数据的生物特征识别技术开始用于人身同一性认定,例如混合DNA识别模式在美国司法界已日趋成熟。基于人脸数据、指纹数据甚至是步态数据的算法模型,大大拓展了人身同一认定的范围。(2)证明资金账户特征。近年来,我国公安经侦部门开始借助大数据技术,应对互联网金融犯罪海量数据的审查认定难题,犯罪组织成员间关系、传销账号及层级、资金流向等特征在算法模型下一目了然。(3)证明情节轻重、损害程度等。根据我国相关司法解释,网络犯罪中“视频或音频文件个数”“点击数”“注册会员数”“浏览量”“转发量”等“海量数据”往往作为判断情节严重的依据。面对动辄成千上万的数量级,实务中多以软件(借助算法模型)自动统计。此外,“大数据指数”也经常用于知识产权等案件中损害程度的证明,例如百度指数等证明对象的热度、知名度、影响力等。(4)证明人身危险。在美国,司法领域开始普遍采用算法评估嫌疑人的人身危险性、再犯可能性,并将之作为假释和量刑的依据。
相较于实务界大数据证明运用的蓬勃景象,学界的大数据证明研究尚不多,且主要集中于对其证据形式、真实性及关联性的分析讨论。上述研究也有很多观点值得进一步深化。首先,大部分研究侧重于“大数据证据”,且过多拘泥于讨论其证据形式,忽视其背后证明方法的运用。虽然有大数据证明研究,但并未厘清其证明机理以及与传统证明的差异,相关参考案例也较少。其次,目前研究对数据真实性讨论较多,但往往将其混淆为电子数据真实性,或者仅从技术层面探讨数据真实,而对法律层面的数据真实关照较少。再者,目前研究都关注“算法黑箱”“算法偏见”问题,并提出算法开示等配套制度。然而,除了技术性“算法黑箱”外,还有人为的“程序黑箱”;“算法偏见”在不同的社会背景下表现也不尽一致,应重点探究偏见背后的普适性原因;“算法开示”也要针对不同司法证明场景构建具体的程序性规则。本文将在中外大数据证明实务运用基础上,归纳大数据证明相较于传统证明的特征,着重分析其可靠性问题并提出相应的规制路径。
有学者从狭义角度出发,认为大数据证明的关键在于计算模型的构建,即通过算法所产生的数据结果;有学者则从广义角度出发,将一些数据库平台查询搜索结果、海量数据本身也纳入其中。本文认为,相较于传统基于人类经验的证明机理,大数据证明的核心在于以算法模型完成证明过程,是一种超越人类经验的智能化证明。
传统司法证明,无论是证据证明,抑或是推理、司法认知,都是基于人类主观经验的证明。(1)司法证明主要借助证据与证据、证据与事实之间的逻辑关联,将事实碎片拼接成完整事实图画。证据推理的关键环节,即“大前提”一般都是来源于主观经验。(2)除了证据证明外,推定、司法认知这两种证明方式中主观经验更为重要。推定强调从基础事实到推定事实之间要具有高度的伴生关系,事物间的伴生关系来源于主观经验。司法认知中显而易见的事实、众所周知的事实等也建立在主观经验基础上。此外,传统证明以物理空间为场域,相对来说证据数量有限,证据中所体现的信息也较为有限。从证据到事实的推理过程,基本上依靠经验即可完成。
大数据证明则是依靠智能化算法来完成证明活动,是一种超越了人类经验的新型证明模式。一方面,大数据证明解决了人类经验难以完成的证明困境。大数据时代出现了证明对象海量化的趋势,特别是在一些互联网涉众案件中,提取的电子数据动辄上亿条。对此,仅凭人类经验浏览完数据集都是不可能完成的任务,更遑论进行证据推理。这种情况下,算法提供了一种超越人类经验的智能化证明方法。算法可将证明难题模型化,提炼出类案中的普遍证明规律与特征,用数学模型来取代主观推理。我国司法实践中已研发出不少互联网金融案件算法证明模型,例如我国司法实践中已研发出不少互联网金融案件算法证明模型,其证明机理由此可窥见一斑:(1)集资诈骗型:若海量资金账户链路指向某一个账户,基本可以判断该账户为“吸款”账户,属于集资、诈骗型犯罪。(2)税票虚开型:若资金流向呈现“闭环”模型,即资金在多个账户之间流转后,又回到最初的账户,基本可以判断为(税票)“虚开”的事实。(3)传销类犯罪:资金分散转入账户,但集中转出;资金交易具有一定周期性;资金链呈现“金字塔”形。互联网金融犯罪中,犯罪组织成员间关系、传销账号及层级、资金流向等关键事实在算法模型下一目了然,而这些都是传统经验式证明根本无法完成的任务。
另一方面,大数据证明突破了人类经验尚未涉足的认知新领域。超越人类经验的智能化算法亦可被用来探索司法证明的新领域。近年来,DNA领域的证明“空白”由此得以突破。在单一DNA来源的案件中,一直以“人类翻译”(human interpretation)为主导方法。但面对混合DNA——即在同一生物证据中存在两个人或更多人DNA混合物,人类经验则束手无策。在美国,以TrueAllele为代表的技术公司,通过专业的算法模型对混合DNA中的海量数据分析,进行人身同一认定,并由此确定刑事案件真凶。早在2009年的联邦诉福利一案中(Commonwealth v. Foley),法院便采信了TrueAllele分析结果。目前,以TrueAllele为代表的混合DNA分析算法已在美国司法实务中得到广泛应用。
可见,大数据证明能够弥补传统经验式司法证明的短板,大大拓展了人类证明的领域边界,是一种超越人类经验的证明模式。相较于传统证明,大数据证明还具有数据空间证明、数据因果关系证明以及涵摄未来证明等内涵。
(一)从侧重于物理空间的证明到侧重于数据空间的证明
传统证明主要以物理空间为场景。这里的“物理空间”既包括肉眼可见、可以直观感知的现实场景,亦包括以新兴电子数据为代表的“虚拟空间”。本质上来说,“虚拟空间”亦属于广义上的物理空间,其体现为0和1二进制代码所组成的空间。在物理空间场景,证据表现为证据载体以及根据载体所反映出的信息,主要根据载体所反映的信息进行事实证明。以人身同一认定为例,传统证明可通过辨认来确定犯罪嫌疑人或被害人,其原理是犯罪嫌疑人或被害人在辨认主体脑海中留下的特征映像。传统辨认的效果取决于辨认主体的认知、记忆能力,以及特征反映体是否具有典型性等,受限于物理空间的条件限制。
大数据证明则以数据空间为场景。这里的“数据空间”不同于传统证明中所“自然”生成的物理空间,而是源于大数据时代的“万物皆可数据化”特征,探求物理空间中一切事物所对应的数据形态。理论上说,八种法定证据种类,均可映射在数据空间,有着相对应的数据化形态。大数据证明亦是“物数据化”的过程,将原本物理空间证明转移至数据空间,寻求基于数据及算法的证明方法。仍以人身同一认定为例,大数据证明可采用人脸识别技术来完成证明。其原理是将物理空间具像的人脸转化为图像数据,计算人脸特征的相关数值,再通过数据比对等算法来进行智能化识别。可见,大数据证明不同于物理空间“载体—信息”式证明方式,其将证明对象转化为数据,并通过数据的智能化计算分析来完成证明。
(二)从侧重逻辑推理的因果关系到侧重基于数理的因果关系
传统证明侧重基于逻辑的因果关系。因果关系是人类认识世界的根本方式。在司法证明中,因果关系的理解及运用尤为重要,往往表现为从果溯因式的逻辑推理。例如张三在案发后神情紧张(果),假设作案人在案发后神情紧张,那么张三则有可能是该案件的作案人(因)。传统司法证明中的因果关系通过人脑的逻辑推理来完成。人脑在接受证据信息后,探究证据背后的原因,建立起证据与事实之间的因果关系,以及证据与证据之间的因果关系。
大数据证明侧重基于数理的因果关系。很多学者有这样的误解,认为大数据擅长相关关系而非因果关系,大数据证明中知道“是什么”就足够了。但实际上并非如此。相关关系实际上是因果关系的派生。数据空间中,物数据化意味着因果关系的数据化,因果关系被蜕化为变量之间的数理关系。数理关系完全不同于人类的推理逻辑,其主要表现为数据之间的相关性,并往往进一步体现为“概率”。同理,大数据证明中,因果关系并非不存在、不重要,而是体现为数据的相关关系。甚至一些案件中,司法人员已经开始通过寻求变量之间的强相关关系,进而来证明因果关系。例如在埃里卡·P.约翰基金公司诉哈里伯顿公司案中(Erica P. John Fund Inc.v. Halliburton Co.),其核心争议点就在于原告能否证明被告哈里伯顿公司的错误声明影响了公司的股价,并由此导致投资者受损。对此,原告方采取了“事件学习”(Event Study)的数据分析方法,证明了被告公司的财务隐瞒行为与股民投资行为之间具有因果关系。在迈阿密诉美国银行案中(Miami v. Bank of America),原告方通过算法证明了被告美国银行的贷款政策导致了差别化对待,种族因素在其贷款发放中占有重要比重。此案一直上诉到最高法院,最高法院又将案件发回第十一巡回法庭重审,并要求确定美国银行的政策与原告所称的种族歧视之间是否有直接关系(Direct Relation);2019年5月,第十一巡回法庭确认“直接关系”的存在,并进而证明了被告的贷款政策与歧视化、差别化对待之间存在因果关系。可见,大数据证明中,因果关系并没有被抛弃,只不过传统基于逻辑推理的因果关系往往以数理相关关系表现出来,甚至很多案件中借助大数据分析来解决因果证明的难题。
(三)从面向过去的证明到涵摄未来的证明
传统证明主要面向过去事实。大数据时代之前,人类活动主要是描述性的,即真实、精确地反映既存对象,以真实性为衡量标准。描述性活动亦表现在司法证明中,传统司法证明对象是“事实”。一般认为,诉讼活动中需要证明的案件事实都是已经发生的历史事实。
大数据证明可涵摄未来事项。预测是大数据最具价值的应用。大数据时代人类活动转向创构性,即根据人的需要和发展进行开创性活动,以使用的有效性为衡量标准。创构性活动主要建立在大数据预测基础上,通过对相关因素的把握和干预,来达到预想的结果。创构性活动亦对司法领域产生影响。特别是随着风险社会、信息社会带来的风险增加,预测警务、预测侦查在全球范围兴起,通过对犯罪分子、犯罪地区、受害人等预测,来提前防范社会风险。预测警务离不开证明活动,随之而来的司法证明也开始逐渐涵摄未来事项。例如芝加哥警方探索基于证据的警务模式(evidence-based policing),利用算法、基于11个加权变量来识别高危人群,筛选出高危分子,并对其进行1—500赋分,分数越高,说明其越有可能参加暴力活动。
此外,从广义上来说,即便是传统的司法证明也有面向未来的因素,但在大数据时代之前表现得尚不明显。传统司法证明对象包括影响量刑、羁押、取保候审、监视居住等程序性措施的要件,典型的如嫌疑人“人身危险性”“再犯可能性”的证明。我国认罪认罚从宽制度中,可能判处管制、宣告缓刑亦要进行社会调查评估,对被告人的家庭和社会关系、一贯表现、犯罪行为的后果和影响等进行调查评估。大数据无疑为“人身危险性”“再犯可能性”的评估和预测提供了绝佳的工具。在美国,司法机关已普遍采用算法评估嫌疑人的人身危险性、再犯可能性,并将之作为假释和量刑的依据。人身危险性评估模型一般将当事人的人身背景及其历史犯罪等数据作为评价要素,预测其未来的犯罪风险。例如公共安全评估系统(Public Safety Assessment,PSA)在搜集美国300个辖区的75万项案例数据基础上,根据嫌疑人年龄、未决指控、未出庭记录等九项指标来计算能否保释该犯罪嫌疑人。再如COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)系统根据嫌疑人的社交关系、生活方式、个性、家庭等动态因素去评估其再犯可能性,并作为法官量刑的依据。
作为一种新型证明方式,证明结果可靠与否乃大数据证明首先要面对的问题。不同于传统基于人类主观经验的证明方式,大数据证明本质在于机器自主、智能化分析。而在这一证明机理中,起关键作用的要素即数据和算法。因而,大数据证明的可靠与否主要取决于基础数据的真实性与全面性,以及算法模型的准确性与公平性,相关法律程序的缺失亦会对其可靠性产生影响。
(一)数据维度
数据质量及其真实性是大数据证明可靠与否的基础。大部分研究都认为数据源本身要准确,有学者还提出“宏观真实性”及“微观真实性”的观点。然而,上述分析仍然停留在技术层面。实践中,还存在如数据虚假等“法律”层面数据不真实,以及数据样本不全面等问题。
1.法律层面的数据错误
原始数据一般都面临混杂性问题,包括格式不统一、数据重复、残缺、错误等。对于共性的数据混杂问题,可以通过数据清洗、数据转换等技术来解决。然而,司法证明中的数据混杂远不止技术层面。法律评价与技术评价的差异导致了虚拟空间的“数据”往往不能对应至背后的法律行为,技术真实的数据不一定法律真实,并进而导致法律事实认定困难。例如“点击数”“转发数”“浏览次数”“注册用户数”等海量数据型证据,每一次计数都来源于软件的自动统计,但这些机器计量数据并不一定就对应着具有法律实质意义的行为。某些网站的高点击数可能是水军“刷单”,注册的账号可能是“僵尸用户”,此外还有一人点击多次、网络黑客攻击、机器故障等情形。例如“邱成林、胡望、林春传播淫秽物品牟利案”中,涉案网站点击量5595957次系通过“CNZZ数据专家”软件统计得出,然而法官认为统计数是整个网站的被点击数,不等同于淫秽电子信息的“实际被点击数”,应当扣除非淫秽电子信息的点击数和无效点击的数量、自点击数等。在美国,网络广告欺诈司法实务中也突显此类问题。如有些网红采取诸如“僵尸粉”、机器刷流量等方式去扩大自己的粉丝量,以非法获取高额广告利润。诉讼中,如何区分真实账户与虚假账户、真实数据与虚假数据成为亟待解决的司法难题。
2.数据样本不全面
相比于传统证明方式,大数据证明具有海量数据的特征,但很多场景下并未达到“全数据”量级,并影响证明结果的可靠性。例如在涉及“百度指数”“搜狐指数”等指数型证据案件中,指数仅来源于其自身网站搜索量计算,而单一网站数据并不能代表被证明对象的整体发展态势。一些个案中,即便设计了科学的算法模型,但由于未能获取全数据,计算结果仍然未能得到法官采信。例如在美国海关欺诈调查局诉唯特利公司(United States ex.rel Customs Fraud Investigations LLC v. Victaulic Co)案中,原告海关欺诈调查局(CFI)声称,被告公司从国外进口的液压金属管件部件没有正确列出原产国,并由此逃避进口产品的税收。原告对被告在eBay网站的钢铁管道销售数据进行了搜集分析,发现其至少有75%的液压管没有原产国标识,并据此认定原告公司在管道配件上逃避进口关税的事实。但法院最终并没支持原告CFI的主张,原因就在于eBay网站的数据不能代表被告在美国的整体销售情况,远未达到全数据要求,其证明结果不足以支持对被告公司的关税欺诈指控。
(二)算法维度
算法的科学性及准确性是大数据证明可靠与否的核心因素。算法的可靠性既取决于算法模型本身的设计准确与否,也取决于其在司法场景运作过程中是否公平公正。
1.算法模型不准确
算法模型是大数据证明中最核心的部分。很多研究提到了“算法黑箱”问题,但没有深入分析算法不可靠的症结点。实际上,源代码及算法设计环节都有可能出错;即使算法本身通过了验证,具体适用场景的差异也会导致验证结果不可靠。2015年,澳大利亚昆士兰当局确认,混合DNA分析软件STRmix中发现了错误代码,并造成至少60个案件中犯罪分子认定错误。而在另一混合DNA分析软件FST(The Forensic Statistical Tool)的算法被公开后,纽约法律援助组织声称FST的技术根本不可靠,其所依据的数据也不完善,该软件之前所涉及的案件有可能导致法官错误定罪、无辜者被迫认罪。
源代码出错及算法自主性。算法模型中最核心的部分为源代码(Source Code)。源代码是指一系列使用字母数字字符编写的命令。源代码出错的情形实际上远远超过法律人的认知范畴,包括随机性错误、软件升级带来的错误及误差、软件退化带来的源代码功能失灵、委托者的利益影响等。随着算法自主学习能力的加强,它们可能会自我强化学习错误的方式。当有成千上万条代码、大量的神经网络层,人类也越来越难以控制、预测算法的分析结果。科学研究表明,智能化算法甚至会采取某种欺诈的方式,去完成人类为其设定的既定目标,且这种欺诈的方式、自我学习错误的能力很难被识别。
适用场景不一致。实务中非常容易忽略算法适用场景的差异。当算法模型的实际运用场景与其开发环境、实验参数并非完全一致时,就有可能导致分析结果不可靠。以混合DNA算法模型为例,假设其研发时场景为三个人的DNA混合物,但适用的真实案件中却有五个人DNA混合物,那么则会导致证明结果不可靠。这样的担忧正在成为现实。美国联邦调查局DNA实验室的布鲁斯(Bruce Budowle)博士公开指出FST算法的类似错误,称其在适用中将五人的DNA混合物等同于三人混合物场景,将四人混合物等同于两人混合物场景。而在2019年的加州北部地区法院的美国诉威廉姆斯(United States v. Williams)案中,法官排除了一款名为BulletProof混合DNA分析软件的结果,原因就在于适用场景不一致。BulletProof只能被用于检测最多四个来源者的DNA混合物,而本案中无法证明其DNA检材中仅有四个来源者。
2.算法模型不公正
算法模型在运行过程中容易造成偏见,偏离司法公正的要求。学者们多受英美研究启发,关注算法的种族、性别等歧视问题。例如在经典的卢米斯(State v. Loomis)案中,人身危险性评估软件COMPAS就被认为含有性别及种族歧视因素。然而,算法偏见往往是社会既有偏见的数据化体现,与当地的社会背景、历史渊源密切相关。算法作为中立的技术,其本身并没有能力去决定偏见与否,背后的主导者仍然是人类。人类设计者可将其本身意志、价值观、利益等融入算法代码中,种族、地域、性别等歧视偏见也由此而产生。因此,应透过偏见表象去探究影响算法中立的普适性、本质性原因,特别是替代性变量的运用、算法的恶性循环等问题。
替代性变量(Proxy Variables)的运用。算法偏见的一个重要原因是替代性变量的运用。算法模型中,看似中立的变量可能是某类偏见的代名词。在大数据司法证明场景中,替代性变量往往表现为与目标对象无关的,甚至是法律禁止的变量,或者是以群体性变量来替代个体变量。(1)无关的变量:例如LSI-R(the Level of Service Inventory-Revised)是美国较为流行的人身危险性评估工具,其再犯风险调查问卷是根据犯人生活背景细节来制定的。原本这些背景性细节在法律上是不允许作为证据的,但其却披上算法外衣出现在法庭中。COMPAS软件也存在同样问题,它将一些假设性变量作为证明依据。例如变量中包含“你在学校多久打一次架”,甚至让被告人选择是否同意“饥饿的人有权利去偷窃”“当人们惹怒我时,我会变得非常危险”等偏见性问题。当用这些假设性、带有主观色彩的变量来预测、评价客观行为时,不可避免地会带来偏见结果。(2)群体性变量:某些算法会将某一类型群体的特征直接套用于个体分析,导致法律对某个人的评价取决于某一类人的行为特征。例如某些算法变量中的问题,“你的朋友/熟人中有多少人被逮捕过?”“在你的社区,你的一些朋友或家人是犯罪的受害者吗?”“你的父母曾经入狱么?”“你有多少熟人吸毒?”等。(3)变量的演化:有些模型设计者在意识到偏见问题后,会避免使用种族、性别等明显带有歧视色彩的变量,而改用地理位置、邮政编码等看似中立的变量。但实际上,地域分布本身就与居民的收入水平、种族分布、教育水平等密切相关。这种做法仍然将过去的不公正变量带入了模型。
恶意循环机制(Pernicious Feedback Loops)的加剧。算法本身会有一种反馈循环机制(Feedback loops),一旦机器学习的运算结果得到验证反馈,则会强化其模型中的某些变量,进而产生更多的该类结果。然而,场景及变量的选择会决定该循环机制是良性还是恶性。某些时候,即便使用中立的数据集,不公正的运用场景也会创建“有害的反馈循环”系统,使得一些歧视性变量、替代性变量被强化学习,进而产生更多的不公正结果。以人身危险性证明模式为例,根据种族、性别、教育背景、经济水平等偏见性变量而建立的算法模型一旦投入到司法实践中,其所产生的每一个实例都会作为新的数据结果反馈给模型,强化原本变量及模型,从而导致符合某一特征的种族、性别、地域、教育背景等群体愈发容易被机器识别为高危分子。在美国加州奥克兰地区,有专家基于PredPol公司提供的毒品犯罪预测算法进行了一项实验:既往的毒品犯罪逮捕主要发生在贫穷和非白人社区,该类历史数据作为模型的训练数据集,自然导致该地区的危险程度较高,警察资源也随之被大量派往该地区;如此,警方更有可能在该地区逮捕更多的毒品犯罪嫌疑人;这些新的逮捕数据又被反馈至算法模型,进一步强化该地区的变量权重……这种恶性循环不仅导致警方资源的不均衡分布,更加剧了算法的偏见。
(三)法律程序维度
程序透明也是大数据证明可靠与否的重要因素,透明的机制有助于倒逼数据质量和算法准确性的提升、消减算法偏见。目前大部分研究都关注到技术层面的“算法黑箱”,但忽视了法律层面的“程序黑箱”,即人为造成的法律程序不透明,且程序黑箱更为隐蔽。在美国,很多涉及大数据证明的案件中,每当被告方申请算法开示时,原告方/公诉方(或技术提供方)都以商业秘密保护特免权(Trade Secret Privilege)而拒绝开示。大数据证明的算法开示与商业秘密特免权的博弈来源于人民诉查布斯(People v. Chubbs)这一里程碑式的案件。DNA测试软件TrueAllele表明被告人查布斯是一起重罪谋杀案的凶手,被告要求开示软件的源代码,但遭到了公诉方的拒绝。尽管一审法院排除了TrueAllele的计算结果,但上诉法院驳回了被告的开示请求,认为该案中没有开示代码的必要性,只允许其对专家证词提出异议。该上诉法院的判决成为美国刑事案件中法官倾向于保护商业秘密特免权的首例。随后,查布斯案的观点在宾西法尼亚州、北卡罗来纳州、佛罗里达州、俄亥俄州等法院得以采纳。
然而,越来越多的观点开始质疑在刑事案件中保护商业秘密的必要性。有学者指出,传统的证据规则已经无法适应新技术的变化,“现在用于生成犯罪证据的专有算法的复杂程度是前所未有的,而现有的证据规则还没有完全具备处理这些问题的能力”。商业秘密保护的初衷是创新以及提供公平的营商环境,而刑诉中算法开示的对象——刑事被告人,是最不可能成为商业竞争对象的群体。况且,大部分的算法开示都要求在保护指令下(Predictive Order)进行,证据开示的诸多限制条件已经足够保护算法的商业秘密。法官在此过程中应当对开发商的商业利益与当事人的生命、自由、知情等权利进行权衡,商业利益不应当凌驾于当事人权利之上。此外,开发商拒绝开示算法的动机也颇受质疑,究竟是为了保护商业利益,还是担心开示后被发现代码错误并进而影响商业利益?随着学术界争议的增多,很多法官开始改变对商业秘密的保护态度。柯林斯案件中,法官基于FST算法的不透明而排除了其DNA计算结果。随后,公益组织ProPublica公布了FST的源代码,法律援助协会及纽约联邦辩护组织都称FST的技术不可靠,甚至有可能造成错案。
在中国,证据法体系中没有商业秘密特免权的规定,但并不代表当事人就能获得大数据证明相应的知情权及算法开示的保障。一方面,在一些刑事案件中,办案机关尽管运用了大数据证明方法,但审判环节并不会出现相应的证据形式,多转化成证人证言、电子数据等证据形式。从源头上切断了当事人知情权的来源。另一方面,即便一些案件中当事人知晓大数据证明的运用,诉讼一方会直接以鉴定意见的形式打消了对方当事人甚至法官对算法的质疑。例如在许有发诉淘宝一案中,淘宝公司为证明其反作弊系统的可靠性,提交了某司法鉴定所出具的鉴定意见,用以证明其反作弊系统检测方法的科学性、合理性,以及劫持流量的方法、统计依据的事实。该鉴定意见直接被法院采纳。且不谈该鉴定意见究竟能否为反作弊系统可靠性背书,法官及被告对鉴定意见过度依赖直接扼杀了原告的知情权、要求算法开示的权利,悖离了正当程序原则。可见,我国并非不存在当事人对于算法开示的需求,只是现有的机制从源头上剥夺了当事人相关程序性权利,掩盖了该问题。
如前所述,传统证明是一种基于人类主观经验的证明模式,传统证据法体系中的可靠性规则也在此基础上构建。然而,作为一种超越人类经验的证明模式,大数据证明是由机器智能化分析来证明相关事实,其核心机制的数据逻辑、算法原理区别于传统人工经验分析。因而,传统证据法体系中的可靠性规则亦难以对大数据证明起到良好的规制效果,例如无法直接对机器进行交叉询问;即便专家出庭也只能就数据分析结果作证,仍然无法有效质证算法内部原理;即使司法人员对海量数据进行了鉴真式保管,也无法获悉其数据分析逻辑。上述问题的症结就在于大数据证明与传统证明的机理及发挥证明作用的要素不同,大数据证明最核心的要素在于数据及算法,特别是算法内部的运行机制。因此,大数据证明的可靠性要求重新构建一套规则,并重点关照其发挥证明作用的两大支柱“数据和算法”,包括数据质量、数据准确性、数据全面性等,算法的源代码及内部运行机制等。由针对人类经验的证据规则迈向针对机器逻辑的数据法则。
同时,数据法则的构建不等于完全脱离传统的证据法框架,具体的数据法则仍要符合证明可靠性的功能要义。例如,数据和算法要符合法律真实性要求,要保障控辩双方对算法的质证权等。因此,本文的基本思路在证据法框架基础上,结合数据及算法的技术特征,融合法律逻辑和数据逻辑来构建大数据证明的可靠性路径。具体而言,数据层面,关注数据法律层面的真实性和数据全样本。算法层面,可引入科学证据标准来审查算法模型的准确性,关注算法适用场景匹配性,并从政策和技术角度消减算法歧视。与此同时,要从程序上保障当事人的知情、质证等权利,构建大数据证明算法开示的具体程序。
(一)数据层面:基于数据法律真实和全样本的规制路径
针对上文所述的数据维度风险,除了要保障数据“技术”层面的真实性,司法证明中更应当关注数据“法律”层面的真实性,不能盲目信赖数据混杂观念,要确保数据背后对应着具有法律意义的实质行为、符合法律评价的要义;关注数据的“全样本”,以确保事实认定的完整性。
1.数据的法律真实
摒弃数据混杂性的盲目信赖。司法领域涉及公民的人身、财产等重要权利,具有领域的特殊性和专业性,因此司法领域的容错率也有一定限度。因此,在对数据源真实性进行审查时,不能盲目适用大数据通用领域的“混杂性”观点。特别要防范一些技术表层真实,但实质上并不具有法律意义的人为“造假”的数据源,如“虚假点击数”“僵尸粉”“刷单数”等,将之作为分析基础易造成事实认定错误。
数据真实性的逻辑判断。在进行数据法律真实性审查时,有学者从技术层面提出“宏观真实性审查”“微观真实性审查”。然而,宏观真实性只能保证数据从提取到庭审阶段未受篡改,但无法保证数据本身是否符合客观实际;微观真实性虽然强调单个数据的真实性,但仍然无法识别人为操纵机器所产生的“虚假数据”,例如“虚假点击数”“僵尸粉”“刷单数”等。随着人工智能技术的发展,海量数据完全可能由算法批量化生产,如“机器人点评”“机器人水军”等。这些由“虚拟主体”所产生的数据尽管符合技术真实的要求,但并不具备法律评价意义,必须进行识别、剔除。
对此,目前尚未提出有效的解决办法。笔者认为,一个可行的办法仍是借助算法来识别虚假数据。一般而言,机器产生的虚假数据往往呈现出与自然生成数据不同的行为规律,如点评内容重复、点评内容过短,账号在线活跃度不足、“粉丝”较少等。可通过算法来识别异常行为,例如在确定浏览量时,可用算法筛选每个浏览量在界面停留时间的长度,停留时长不满足一定要求的予以排除;在判断是否为“僵尸粉”时,可用算法判断该用户的活动轨迹或者活跃度,活跃度低的账户予以排除;在判断是否为“虚假点评”时,可用算法计算某账户点评内容的重复性,重复度较高的予以排除。
2.数据的全样本
司法证明中,数据的全样本并非一定要动辄达到PB、EB等规模的量级,关键在于与分析对象的匹配性。只要其数据量符合具体分析对象、分析任务所需的数据范围,则其数据量的大小并不重要。原因在于“全样本”代表了分析对象行为的完整性,而事实认定和法律评价应当建立在完整行为的基础上。例如百度指数虽然是建立在上亿网民网络行为基础上,但仍然不能代表整体社会评价。
(二)算法层面:基于模型准确和算法正当的规制路径
针对上文所述的算法维度风险,司法实践中既要确保算法模型代码设计的合理性,也不能忽视其具体适用场景与开发场景的一致性;要关注算法模型运行的正当性、公正性,防止人类的偏见被编入代码,并从训练数据的选择、替代性变量的识别及模型验证角度保障算法的公正。
1.算法模型的准确性
如何保证算法模型的准确性,目前一个广泛提议就是进行有效性测试(Validation Test)。但实际上,有效性测试往往并不可靠。测试有一定的样本限制,其输入、输出设定了一定条件和适用情境,在A场景中模型的有效性并不等于在B场景中依然有效。而真实的司法场景又非常复杂,小样本的测试不足以囊括所有可能的错误类型。例如,DNA分析软件STRmix的错误代码在测试时并未显现,而是在之后上千个案例的实践中才得以发现。可采取以下措施保障算法的可靠性。
(1)中立的第三方评价。司法证明领域,算法可靠性的保障可以尝试引入科学证据的审查标准。在美国,科学证据可靠性标准经历了弗赖伊规则(Fryer)到道伯特规则(Daubert)的变化,其中一项重要的标准就是经过同行评议(Peer Review)。但要注意同行评议应当由具有权威性的中立方作出,而不应当出自利益相关方。例如混合DNA分析模型TrueAllele尽管有七份经过同行评议的论文发表,但大部分都出自其公司的利益相关人员,从而导致其中立性、可靠性颇受质疑。
(2)适用情境的匹配性。相关人员一定要注意算法模型开发、测试条件与不同场景的匹配性。例如人身危险性评估算法中,被评估对象是否会缺席审判、是否会再次犯罪等司法场景及其背后原因各不相同,必须分别进行开发与测试,不能混淆适用;再如混合DNA分析算法中,面向特定人数开发的混合DNA测试模型,不能适用于多于特定人数的场景。因此,一定要区分大数据证明的不同情境,即便是通过有效性测试的模型,司法人员也要审查具体个案中的适用条件是否与算法开发的要求相匹配。
最新研究表明,为确保算法可靠,还可以设计、使用可直接进行解释的模型(Interpretable Models),用户可以直接观察到变量的运用及其变化。这类可解释模型对于诸如人身危险性评估等高风险决策算法尤为有价值。
2.算法模型的正当性
为防止大数据证明中算法偏见的产生,可从政策及技术两个层面构建算法的正当性机制。政策层面,要防止人类的既有偏见编入算法,寻求将公平正义等价值观转化为代码的路径;技术层面,可通过训练数据多元化、识别潜在的替代性变量以及对算法模型的测试验证来确保其正当性。
(1)政策层面的正当性规制。
算法的偏见往往来源于人类本身既有的偏见。在人脑的机制中,可以对公平、正义、效率等价值进行动态调整,而算法则缺乏对价值进行运算的能力。算法容易实现效率以及数理上准确的目标,却很难实现社会意义上的公平公正。尽管如此,司法证明领域在进行大数据建模时,仍应考虑公平正义等价值观,甚至可为此牺牲部分效率价值的追求。避免出现性别、群体、教育背景等偏见性变量,避免使用带有有罪推定色彩的变量。
(2)技术层面的正当性规制。
选择多元化训练数据集。训练数据集选择偏差与否,从根本上影响着模型的中立性。例如,在美国人脸识别算法被质疑带有偏见,有色人种的错误识别率是白人的100倍,妇女、老人、儿童群体的错误识别率更高。原因之一就是人脸识别算法的训练数据集缺乏多样性,大部分数据都来源于男性白人,这就导致算法模型对于男性白人群体的准确度较高,而对其他群体则容易出错。对此,应当有针对性的增加训练数据集的多样性,例如IBM公司利用均衡混合的包括种族、性别和年龄的面部数据集来帮助算法系统克服各种偏见。同理,大数据证明模型也应当注重训练数据集的多元化,如在主体身份的证明中,生物特征识别训练数据应当注意兼顾不同的性别、种族、年龄等群体;在资金账户证明中,训练数据应注意不同地域、罪名等多元化特征;在人身危险性证明中,训练数据应兼顾不同种族、人群、地域、犯罪类型等多元化特征。
识别替代性变量。大数据证明算法设计者及司法人员,都应关注算法模型中歧视性、偏见性变量,特别是一些隐蔽的替代性变量。当然,替代性变量的发现需要识别者具有良好的专业背景知识。例如对人身危险性算法模型审查时,有关人员要对法律规定的逮捕条件、假释条件、量刑情节等了然于心,以敏锐发现不符合法律要求的数据变量,特别要注意识别群体性变量、替代性变量,以及法律上禁止的“品格证据”变量。具体而言:其一,注意去除数理上相关关系不大的变量,对数理上不具备相关性的变量应直接去除。其二,注意去除相关性较强但不符合法律政策的变量,例如在人身危险性评估中,性别、种族、教育水平等变量虽然具有较强的数理相关性,但却不符合法律政策的要求。其三,注意去除隐蔽的转化型变量,要特别注意识别一些偏见性变量的转化形式,例如地理位置、邮政编码等变量。
审查模型运行效果。通过对模型运用效果的审查,也可发现其偏见性,防止陷入恶意循环的误区。可采用统计学方法设计模型来满足“机会均等”的要求,即将模型在不同群体间进行测试,其测试结果应当具有均衡性。在大数据证明中,以人身危险性模型为例,可验证实际运用中模型假阳性率在不同群体间是否平衡(如在累犯的场景下,假阳性是指非累犯被错误地预测为累犯的概率)。例如公益组织ProPublica为了验证诸如COMPAS人身危险性评估算法的准确性,获取了2013年和2014年在佛罗里达州布劳沃德县(Broward County)被捕7000多人的风险评分,并跟踪了接下来两年里的实际犯罪数据。结果发现在预测暴力犯罪方面,算法所得的分数非常不可靠:实际只有20%的高危分子真正实行了犯罪;并且该算法带有严重的种族歧视,错误地认为黑人的再犯风险概率要比白人高两倍。
(三)程序层面:基于算法开示的规制路径
有学者对算法开示持反对观点,认为算法开示不可行也没有必要,“算法透明≠算法可知”。更为经典的观点则认为,算法代码开示是对国家权力的一种制约,一些情形下算法代码必须开放。本文认为尽管不能简单用算法开示去替代算法可靠性,但算法的开示、透明是保障其真实可靠的有效途径,为后续算法的审查打开渠道。司法证明场景中,算法开示也是限制司法权滥用,保障当事人知情、质证等权利行使的重要机制,符合正当程序要义。
在美国,大数据证明中算法开示的地位也日趋重要,商业秘密特免权已不足以成为算法开示的阻碍理由。例如在上文所述的人民诉柯林斯案件、美国诉威廉姆斯案件中,法官均排除未经算法开示的大数据证明结果。众议员马克·高野(Mark Takano)近期甚至发起了一项新的提案,旨在修改联邦证据规则,确保被告能够获取算法的版本、相关数据等信息,防止算法所有者利用商业秘密特权来阻碍被告相关权利的行使。提案建议由美国国家标准与技术研究所(NIST)创建算法的法庭科学标准和测试程序。上述一系列改革也给我国一定启示,可就算法开示采取以下措施。
1.赋予当事人知情权,告知其大数据证明的运用。当前刑事诉讼中,办案单位往往不披露大数据证明的运用,妨碍了当事人知情权,不符合正当程序原则。对此,可建立强制性的告知程序。一方运用了大数据证明并将之作为事实主张依据的,应当向法庭及对方当事人进行披露。
2.赋予当事人申请算法代码及数据开示的权利,建立大数据证明结果排除制度。(1)算法开示申请权。在知情权的基础上,应赋予当事人申请算法及相关数据开示的权利,可以申请开示算法的原理、代码及其所运用的相关数据。实务中,要注意防范以“司法鉴定”来替代算法开示。鉴定意见仅能作为大数据证明结果可靠性的支撑依据,但不能以之剥夺算法及数据开示的程序。(2)算法开示申请权的限度。本文不主张一刀切的方式,强制所有的大数据证明算法都开示。而是要求当事人说明算法开示的必要性理由,由法官决定是否予以开示。如此安排,一则考虑到算法开示消耗资源,并非所有案件中都有开示的必要性;二则考虑到刑诉中大数据证明也有可能成为辩方的武器,强制开示则不利于辩方权利的保障。(3)大数据证明结果排除制度。当算法开示涉及事实认定及当事人重大权利,而诉讼一方(或开发商)无正当理由拒不开示时,法官可进行程序性制裁,将该大数据证明的结果予以排除,不作为定案依据。
3.算法开示的具体程序。(1)开示的环节。在民事诉讼中,可通过证据交换环节进行算法及数据的开示。在刑事诉讼中,当事人可通过“阅卷权”的行使来获取算法及相关数据等信息。(2)开示的保障。在美国,涉及商业秘密的证据开示往往在保护指令下进行。在中国,可通过不公开庭审、签署保密协议等方式来将算法及数据信息的披露限制在最小范围内。但要注意,保密措施也不能过度。对于某些通用的大数据证明模型,一旦案件中发现有代码、数据错误以及偏见等风险,该算法的错误信息则不能再被保密,而应当适时披露,以防止该模型在司法领域继续运用。同时,其他运用同样算法模型的案件中,当事人可将此算法错误信息作为质证的依据,或是作为要求本案中算法开示的理由。(3)专家出庭制度。算法模型的幕后研发人员应当作为专家证人出庭,对算法原理、代码、训练数据等进行解释说明;对方当事人也可以申请相关领域专家作为专家辅助人出庭,双方可就算法可靠性、数据准确性等进行对抗质证。
此外,域外的一些做法也值得我们借鉴。(1)鼓励算法开发商主动开示其算法,形成良性法律科技产品竞争机制。例如新西兰皇家研究机构(New Zealand's Crown Research Institute)建立了主动向被告人进行算法开示机制;CivicScape、Azavea等预测警务产品将其源代码、变量等在GitHub平台进行开示。(2)建立公共性的算法审查监督委员会。考虑到算法具有较高的专业门槛,个案中当事人聘请专家证人、专家辅助人的成本高昂,可成立公益性质的算法审查监督委员会,由其组派专业人员来对算法进行审查,并积累形成算法信息资源库。
大数据被喻为“未来的新石油”,已对人类社会生活方方面面产生影响。在司法这一专业领域,大数据亦悄然发挥证明作用,能够有效降低证明难度、提高证明效率。相较于传统的主观经验式证明机制,大数据证明的核心机理体现为超越人类经验的智能化证明模式,并且从侧重于物理空间转向侧重数据空间,从基于逻辑推理的因果关系转向基于数理的因果关系,从对过去事实的证明转向涵摄未来事项的证明。同时,大数据证明亦带来不同于传统司法证明的风险,首先集中体现在证明的可靠性与否。对此,应当采取不同于传统证明“三性”的审视路径,从大数据证明的核心——“数据和算法”出发,构建一种基于数据规则的可靠性审查机制。数据层面,应重点关注数据法律层面的真实性、数据样本全面性。算法层面,既要关注源代码的准确性以及算法适用场景的匹配性,也要关注算法偏见背后的深层原因,注意识别替代性变量、选择多元化训练数据集,审查模型偏见性以避免陷入恶意循环机制。法律程序方面,应关注人为因素所造成的程序不透明,建立算法开示配套程序,保障大数据证明的正当程序。