算法有偏见或歧视吗?
不同的人给出的答案可能完全相反。认为算法有偏见者,可能会以大数据杀熟、保险单歧视等来举证;认为算法无偏见者,会指出算法仅仅是如菜刀一般的工具而已,工具怎么会有偏见或歧视?
但是,如果我们换一种问法:人类社会产生的数据有偏见或歧视吗?如果答案是肯定的,那么算法“吃进”这些有偏见或歧视性的数据,会怎样?
从技术上讲,算法本身没有像人类一样的情感、观念和偏见。它仅仅是一系列指令的集合。在理想状态下,它只是按照预定的规则和逻辑对输入的数据进行处理、输出,不存在偏向。
但是,算法是基于数据进行训练和学习的。如果数据本身存在偏差,那么算法就会产生偏见。
例如,在招聘算法中,如果用于训练的数据大部分源于男性求职者的成功事例,那么算法在评估求职者时,可能会对男性求职者产生偏向。同理,算法“学习”了其他具有性别、地域或文化倾向的数据模式,它在后续的应用中就会带有这种偏见。
美国一些学者曾于2018年启动一项名为“图网轮盘”的研究,专门就此问题做了探讨:“这些图片来自哪里?”“照片中的人为什么会被贴上这样那样的标签?”“当图片和标签对应时,什么样的因素在起作用?”“当它们被用来训练模型系统时,会产生什么样的影响?”
这一研究更像一次行为艺术,明白无误地反映出人工智能算法系统很容易复刻和强化来自现实社会的固有偏见。如果对此视而不见,这些偏见便会渗入各类数字系统,继而影响整个社会的发展。
除了反映社会偏见之外,算法还会造成数据屏蔽——算法对数据的提取、分析、处理等操作是基于概率,那么它优先抓取的、出现频次较高的数据,就会成为“强势数据”,一些“弱势数据”或“少数派数据”就容易被忽略、被屏蔽。而且,数据体量越大、越是高度自动化的算法,越容易造成数据屏蔽。
数据屏蔽的问题更为隐蔽,但它的影响不容小觑,显著问题之一就是对文化多元性的影响。美国计算机科学家乔恩·克莱因伯格曾这样诘问:“如果我们都使用同一种算法作决定,是否会导致作出的决定高度趋同,导致我们的文化也高度趋同?”
如果说数据偏差带来的算法偏见算是“无心之失”的话,那么人为因素导致的算法偏向就是别有用心了。
例如,在设计内容推荐系统时,人为将系统目标设计为“延长用户的停留时间”,这就会导致算法倾向于推送耸人听闻的新闻信息或低俗娱乐内容,进而对内容的多样性和用户体验产生影响。另外,被困在算法里的外卖骑手、遭遇大数据杀熟的网约车用户等,背后的算法多是受人为因素干扰的。
算法偏见并非“顽症”,只要肯下功夫,总有办法尽量去消除。比如,从数据端着手,倡导在算法设计阶段进行多样化数据的收集,确保用于训练算法的数据多样性。尤其是涉及就业、金融保险等民生议题,在构建算法数据集时,可以通过收集来自不同性别、种族、年龄、地域等各种背景的事例,避免数据过于集中。
同时,还应对数据进行严格的质量检查,剔除带有明显歧视、偏见的信息。在算法的设计过程中,必须考虑多元化的公平标准,并引入公平性指标作为约束条件。
在监管上,要求平台或算法开发者公开算法设计的决策依据并不过分。如此,监管机构和第三方才能对算法是否存在潜在的偏见进行审查。
此外,设立专门的渠道,让公众能够通过反馈、投诉等方式参与到算法改善中。
最后,就目前所涌现的算法乱象问题,笔者认为,平台有很大的作为空间。以“钟睒睒事件”和“假冒张文宏事件”为例,平台至少可以有效处理虚假信息。对于未经核实的信息和内容,平台负有提示的责任和义务。平台的工作量和成本投入或许会增加,但受益的是大多数人。
如果平台最终留存的都是更优质的内容,数字空间也会因此更加清朗,社会也将更为积极向上。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。