■李伦
如何防范算法歧视、算法黑箱、“幻觉”和“失控”等人工智能风险?以往人们常常采用加强道德教育、实行伦理审查等非技术方法,现在这些方法对防范人工智能风险是否奏效?
人工智能等新兴技术的伦理风险有些是源于技术的内在属性,无法用纯粹的非技术方法有效防范,而技术方法则对防范此类风险具有得天独厚的优势。我们将通过技术方法防范技术伦理风险的方案称为伦理工程学。由于人工智能具有适合“技术-伦理”互嵌式方法的技术特征,伦理工程学对防范人工智能伦理风险具有特别重要的意义。
技术伦理风险溯因:从人源性到技源性
现代技术,尤其是人工智能技术具有明显的不确定性,存在发育不成熟、安全隐患或技术缺陷等问题。这些技术的内在属性本身蕴含着伦理风险。
除了人的因素,技术伦理风险还可能源于技术本身。这意味着现代技术伦理风险源于人和技术两大因素。前者可称为人源性伦理风险,即人不当使用技术引发的伦理风险;后者可称为技源性伦理风险,即技术内在缺陷蕴含的伦理风险。
技源性伦理风险是技术的先天风险。这些风险蕴含在技术的内在属性之中,防范这些风险只能依靠技术的改进。技术得不到改进,无论人们如何合理地使用它,这些风险都无法消除。人源性伦理风险是技术的后天风险,是人在使用技术过程中产生的风险,而非技术内在属性决定的。这些风险不是技术先天带来的风险,而是人们不当使用或滥用技术产生的风险,消除此类风险的关键在于规范人使用技术的行为。
对算法黑箱和算法黑幕进行区分,有助于我们更清晰地理解区分人源性风险和技源性风险的意义。算法黑箱是指由于技术的复杂性和不成熟,算法内部工作原理或中间处理逻辑缺乏可解释性。简言之,算法黑箱是技术因素导致的。算法黑幕则不同,是人为因素导致的,是人们为达到某种目的恶意设计算法,故意掩盖算法真相。对算法黑箱和算法黑幕不加区分势必难以解决问题,尤其是将算法黑幕说成算法黑箱,实际上是逃避责任的一种方式。解决算法黑箱问题,必须通过改进算法技术,解决算法黑幕则需规范人的算法设计行为。
技术伦理风险防范:从非技术方法到技术方法
技术伦理风险溯源具有人源性和技源性,与此相应防范技术伦理风险有技术方法和非技术方法。技术方法主要包括改进技术的内在属性、增强技术的鲁棒性、提高技术的可解释性等。非技术方法主要包括制定伦理规范、实施伦理审查、加强伦理教育和监管,以及增强人的伦理意识等。
我们不妨将通过技术方法防范伦理风险或解决伦理问题的方案称为伦理工程学。以往防范技术伦理风险,人们常常采用非技术方法,而技术方法没有引起足够的重视。时至今日,现代技术,尤其是人工智能技术的不确定性日益明显,技源性伦理风险大幅提升,技术方法获得了空前的关注。世界科技巨头纷纷提出各自的可信人工智能工具,宣称“利用人工智能防范人工智能伦理风险”,其实质就是利用技术方法来解决可解释性、公平性、隐私和安全等问题。
为了防范人工智能伦理风险,欧盟发布的《可信人工智能伦理指南》(以下简称《指南》)除了提出加强监管、制定行为准则和标准、实施认证制度、通过教育培养伦理意识和伦理观等非技术方法,还特别提出了构建可信人工智能架构、将伦理和法律要求融入设计中、运用解释方法、进行测试和验证、制定服务质量指标等技术方法。
换言之,《指南》特别重视伦理工程学方法,强调改进人工智能技术、优化算法、提高可解释性,是实现可信人工智能的关键技术方法。
实际上,人工智能与伦理工程学具有极强的亲和性。人工智能的自主性或自为性等特性,以及代码、算法设计的灵活性,为伦理工程学的“良芯”设计提供了前所未有的便利,可以方便地将伦理规范和伦理价值嵌入代码、算法设计中。人工智能算法迭代升级周期短,也为算法的及时纠偏提供了技术便利。
通过对算法歧视溯源的分析,我们可以更清晰地认识到风险防范方法与伦理风险类型相匹配的重要性。算法歧视至少包括两种情形,一种是算法偏差导致的算法歧视,另一种是恶意利用算法导致的算法歧视。前者是因为技术的不成熟或技术缺陷而产生的,要解决算法偏差导致的算法歧视,必须依靠算法技术的改进。后者是人为因素导致的,其中的算法在技术上并不存在偏差,也不存在技术瓶颈,而是有些机构通过算法设计故意不公正地对待用户,“大数据杀熟”就属于这种情况。前者不涉及人的不良动机,后者与人的不良动机直接相关。可以说,前者是因为“技术蠢”,后者是因为“人坏”。防范恶意利用算法导致的算法歧视并不一定依靠算法技术上的创新,通过规范算法设计行为就能做到;算法偏差导致的算法歧视则必须依靠技术创新才能得到有效解决。
伦理工程学:“技术-伦理”互嵌式方法
伦理工程学可以追溯至美国华盛顿大学芭提亚·弗里德曼在上世纪90年代提出的价值敏感设计。价值敏感设计的核心理念是将道德想象力融入技术的设计和制造中,主张在设计的初期和整个设计过程中主动影响技术设计,将人类价值融入设计过程。价值敏感设计通过技术设计将人类价值嵌入技术之中,其实质是利用技术方法解决伦理问题。我们将价值敏感设计视为伦理工程学的一种重要方法。
伦理工程学通过技术方法防范伦理风险或解决伦理问题,但它不只是利用技术方法改进技术内在属性,降低技术伦理风险,还包括利用技术方法规范人的行为,防范人使用技术引发的伦理风险。技术方法是在价值观的指引下改进技术的内在属性,或者将价值观嵌入技术设计。
这意味着,伦理工程学是通过技术方法防范伦理风险,但它不是纯粹的工程学,也不是纯粹的伦理学,而是“技术-伦理”互嵌式方法或“代码-价值”互嵌式方法。它通过技术方法将伦理规范或价值观嵌入技术或代码之中。
例如,价值对齐和隐私设计就是人工智能伦理工程学的重要方法。为了防范人工智能大语言模型的“幻觉”“失控”等风险,美国OpenAI公司启动了“超级对齐”项目,提出通过一个大型语言模型监督另一个模型的方法,将与对齐相关的工作交由自动系统完成,确保人工智能系统的行为与人类的价值观或伦理原则保持一致。“超级对齐”实质上就是典型的利用技术方法防范技术伦理风险的方法。隐私设计是将隐私保护前置性地嵌入算法设计的工程方法,也是一种典型的伦理工程学方法。隐私设计从算法设计最初阶段起,预先将保护个人隐私、尊重用户权利等伦理规范嵌入算法系统中。通过隐私设计这一技术方法,可以实现保护用户隐私的目的。
(作者系湖南师范大学人工智能道德决策研究所教授)
《中国科学报》 (2025-08-13 第3版 领域)