本文是一篇法律论文,本文通过从司法层面切入,分析了反歧视司法在算法特质影响下有何新的问题。在本研究中,把握当前算法基于机器学习技术所带来自我迭代的核心理念,并结合学界之前对于反算法歧视司法的相关研究,通过分析当前学界热议的算法歧视案例为算法歧视司法提供了相关建议。
一、算法歧视的司法规制理论基础
(一)算法歧视的定义
“歧视是指被法律禁止的、针对特定群体或个人实施的、其效果或目的在于对承认、享有和行使基本权利进行区别、排斥、限制或优待的任何不合理的措施,即歧视的表现形式是在相同的情况下无合理理由而恣意取消或损害特定群体或个人平等享有权利的任何区分、排除或选择的措施。1”《就业与职业歧视公约》(国际劳工组织1958年第111号公约)中对歧视的定义:为本公约目的,“歧视”一语指:基于种族、肤色、性别、宗教、政治见解、民族血统或社会出身的任何区别、排斥或特惠,其效果为取消或损害就业或职业方面的机会平等或待遇平等。
算法歧视在实质内涵上与这些传统歧视没有区别,是在借用算法这一工具进行决策时对不同个体施加不合理的区别对待。在技术上说,算法是指将输入转换成输出的计算步骤序列,是计算机在输入数据、分析数据和输出结果这一过程的概括2。也就是说,算法歧视是以算法为手段实施的歧视行为,主要指依靠自动化决策系统对数据进行分析时,由于数据和算法本身的原因,对数据主体进行了不合理的差别对待,造成传统意义上的歧视性后果。
算法歧视在我们的现实生活中经常会出现在就业招聘、出行服务、信息推送、信息搜索等领域。例如,在谷歌提供的广告服务中,定向推送的算法决策导致男性往往会比女性浏览到更多的高薪招聘广告;又如,一位患有双向情感障碍的大学生想找一份摆放杂货的工作,但因为他申请的百货店都在使用同一个心理测试软件来筛选应聘者,所以他被所有递交申请的百货店拒绝3;
........................
(二)算法歧视的产生原因
算法编程人员在算法的设计环节,通过一系列电脑代码来赋予算法功能。而在这一过程中,编程人员可能会有意或无意间将自己的偏见写入算法。同时由于算法是通过大数据来进行学习和决策,在采集数据的过程中不可避免地会有虚假的或者错误的数据,这些低质量的数据会直接影响算法的最终输出结果。因此算法歧视产生主要来源于算法设计和数据输入两个方面,而这两方面来源可以细分出三个主要原因:
一是输入数据的样本存在比例不均。在进行数据采集的过程中,在数据量确定且数量不大的情况下,我们可以对所有数据进行采集分析。但在算法进行学习的过程中,为了提高效率会采取抽样的方式,随机选择数据进行输入。而如果采用了随机抽样的方式进行样本选择,有一些在总体样本中数量较少的数据便容易被忽略,从而导致输出的结果更加倾向于样本中的大比例群体。比如在图片识别领域谷歌就犯过将黑人标记为大猩猩的歧视行为,这一行为的发生是因为黑人照片占数据总量比例太小,而黑人的特征没有被算法识别为人的共同特征。
法律论文参考
二是输入数据存在人类社会的固有歧视。在算法程序的运行过程中,计算机遵循的“GIGO”(Garbage In,Garbage Out)定律,即“偏见进,偏见出1”。算法用于学习的数据本身是现实社会的反映,在现实社会中存在的歧视也就伴随着这些数据被输入到算法之中,从而在算法的作用下得到了固化和加强。例如上文提到过的犯罪评估算法中,由于某一地区历史犯罪率高,而算法通过分析历史数据认为这一地区居民的犯罪率高,从而使得这一地区的居民受到的警察调查更为严格,造成了歧视性后果。
.......................
二、算法歧视的司法规制现状
(一)基于算法参数的司法证据采集
算法歧视案件的司法证据采集聚焦于算法参数。算法参数的设计取决于其将要解决的问题与所要遵循的价值原则。在算法参数设计中,通过对算法参数功能的选择,可在大数据客观无误的前提下,导致歧视发生。因此,算法参数的司法证据考察是认定歧视主观意图的前提。在这一阶段,存在着两个层面的问题,一方面,算法参数证据的举证责任应当如何分配,是应当由算法使用主体承担还是应当由受歧视方承担;另一方面,算法参数证据应当以何种形式、何种程度呈现。
对于算法参数的举证责任分配的问题。现阶段法院对于算法歧视的举证是以“谁主张、谁举证”为举证责任的分配方式。例如在意大利户户送有限责任公司算法歧视案2中,原告需要证明被告通过算法参数设定中不考虑骑手不赴约的原因造成其接单数量减少,丧失优先选择工作的机会,甚至间接地剥夺了其依宪法而享有的罢工权利。对于算法参数证据需要呈现为何种形式和程度,在法院司法实践中有所不同。有的案件中,算法参数不仅仅需要以代码形式呈现,还需要在此基础上对其功能进行解释性说明;而有的案件中,法院则要求原告通过专业的算法评估机构制作关于算法参数是否具有歧视性风险的评估报告,但并不要求原告去寻求算法参数的代码设计与解释性阐述。例如在卢米斯案3中,法院为了审查案件的算法是否具有歧视性,要求将算法参数证据以COMPAS评估报告的方式进行呈现。同时还需要COMPAS评估机构对于算法参数设计的功能是否与原告所述歧视结果有着相关联系进行说明。在国内的一系列案件中,除了百度在线网络技术北京有限公司等与北京奇虎科技有限公司不正当竞争纠纷案中,原告方提供了详细的参数证据,其余案件的原告(普通公民)都仅仅只能提供证明整个案件过程的表面证据,比方说付款截图、通话记录等等。
..............................
(二)基于传统歧视理论的事实认定
传统歧视的认定标准可以分为反分类歧视标准与差别性影响歧视标准。其中,“反分类歧视标准追求价值上的形式平等,强调不能基于民族、性别、宗教信仰等背景因素而对人区别对待。1”在这一歧视认定标准之上,是否具有主观上的歧视意图便是认定歧视与否的基本要点。相对的,追求实质平等的差别性影响歧视标准则主张以客观上是否存在歧视结果作为构成歧视的基本判断标准。
在对算法歧视的司法审查中,算法歧视的主观意图可大体分为算法使用者个体歧视与社会刻板印象歧视2。故而,法院对于反分类歧视标准进行适用时一般会注意以下两个方面的内容:一是由于算法歧视的高度隐蔽性特点,算法使用者所表现出的主观故意不会非常明显。二是算法中的刻板印象并不与算法歧视的认定具有必然性的联系,只有该刻板印象作为算法决策的核心因素时该算法才会被法院认定为歧视性算法。就差别性影响歧视标准来说,法院在实践中对于这一标准的考察分为以下几个步骤:首先,需要原告提起诉讼,并对于算法的适用导致歧视结果,提供事实和证据来加以证明。其次,作为算法使用者的被告将针对原告所提出的主张加以反驳,而在这时往往被告会以算法使用在决策中具有相关性为由进行论证。例如,奇虎公司提出的“用户体验度”3、三快科技公司提出的“费用动态调整”4等。再次,原告将需要反驳被告所提出的相关性豁免理由。在这一整体过程中,法院一般将以算法所涉决策对原告与其它利益相关方的影响为视角,判定歧视结果是否存在;
................................
三、算法歧视的司法规制困境.....................................11
(一)算法公开障碍下的司法证据采集困难..........................11
1.国家安全层面的障碍...........................................11
2.社会正常运行层面的障碍.......................................12
四、算法歧视的司法规制建议.....................................18
(一)构建具有区分度的算法公开制度..............................18
(二)构建适应算法特性的歧视认定标准............................20
(三)构建算法相关主体明确的责任体系............................23
结论...........................27
三、算法歧视的司法规制困境
(一)算法公开障碍下的司法证据采集困难
司法实践中,有关算法参数的证据采集绕不开的一大障碍便是算法公开的障碍。算法公开的障碍具体来说包括三个层面,它们分别是由于国家安全、社会正常运行秩序与私人主体信息权利保护等因素影响所造成的公开阻碍。本章将讨论在司法证据采集过程中,各个法益冲突与权衡所导致的算法公开难题。
1.国家安全层面的障碍
从古至今,无论是在国内还是在国外,在治理国家的过程中所要讨论的一个重要问题便是有关信息的公开与保密。在如今的算法时代,司法审判中可以将哪些算法参数进行公开,什么主体可以面对公开的内容以及算法参数可以公开到什么样的程度,这些问题都应当在采集算法参数证据时进行重点考量。尤其是涉及到国家安全,算法公开就要慎之又慎。这方面世界上许多国家都相应的在国家安全政策以及相关立法层面进行了特别严格的法益保护。例如,在我国有着《中华人民共和国国家安全法》《中华人民共和国网络安全法》《中华人民共和国保密法》以及《中华人民共和国数据安全法》,而在美国则有着《国家安全法案》《爱国者法案》等等一系列法律。但是这一系列法律层面的限制在一定程度上都使得在司法实践中对于算法参数的公开更加困难。例如在机场的安全检查中,为了提高机场安检的效率,许多国家都采用了通过将乘客的个人历史数据输入算法来抽取特定的人群进行严格安检的方法。这样的安检方法虽然提高了安检的效率,但也容易造成到算法歧视问题。如果这样的歧视事件被起诉到法院,那么法院在收集这类案件的歧视性算法参数证据时,是否可以公开算法从而获取机场的抽样参数呢?如果可以,不难想到在算法参数被法院披露后,该信息很容易被恐怖分子获取。这样一来,恐怖分子极容易因知悉了算法抽样参数,从而通过规避算法抽样特征的方法绕过机场的严格安检。抑或是依据算法的内部分析逻辑通过增加试错人数达到干扰算法认定的正确率,最终绕开严格的安检。
........................
结论
对于统摄在算法规制研究下的算法歧视研究当前学界仍然存在许多争论。本文通过从司法层面切入,分析了反歧视司法在算法特质影响下有何新的问题。在本研究中,把握当前算法基于机器学习技术所带来自我迭代的核心理念,并结合学界之前对于反算法歧视司法的相关研究,通过分析当前学界热议的算法歧视案例为算法歧视司法提供了相关建议。首先,在证据采集层面应当基于对算法的使用者以及算法的应用场景的分类,对具有公共性、私人性、商业性、非商业性的算法场景采取有区分度的算法参数揭示要求。其次,在歧视认定层面引入间接隐性歧视、刻板印象理论以及必要性豁免条件来修补传统歧视认定标准。最后,基于算法歧视的特性设定一系列算法维度关联与权利并以此提出对算法应用所涉各方的义务要求,从而为算法责任分配提供制度基础。
本文所提供的建议大多聚焦于原理层面,虽说这样做可以避免建议由于算法技术发展的日新月异而快速过时,但也不可否认的会出现过于抽象的问题,因此在论述时也尽量多地查找了现实生活中相关事件来加以佐证。同时,为了避免本研究陷入基于“AI+法律”的任意性组合导致的“泛人工智能化”的空谈1,在行文中也一直将所谓的“人工智能”限定在当前算法机器学习技术所能达到的功能中,并围绕着反歧视司法的整体流程来加以论证。此外,“现阶段的人工智能并不具备内源性行为能力,没有对主体间的权利义务关系造成冲击2”,因此本文的讨论并没有过多参考将人工智能人格化的学术探讨。
参考文献(略)