"机器与人有共同价值观":人机对齐问题探讨的潜在误区


机器学习的飞速发展,已经让人类的担忧与日俱增。如果不加深思,绝大多数人会同意,有必要让人工智能做的事情与人类的目的相符,即让机器和人拥有一致的价值观。这正是当前火热的一个研究命题——“人机对齐问题”(the alignment problem)。仿佛对齐问题的研究成败会直接影响人类的命运。

对此,美国科技畅销书作家布莱恩·克里斯汀在其新书《人机对齐》中,精炼地描绘了机器学习的发展史和前沿研究,并且与许多科学家们直接对话,向读者介绍了世界上第一批积极应对对齐问题的学者是如何苦心孤诣地去制定对齐计划。这本书出版后引起了较大反响。但是,“人机对齐”问题的含义是否如我们一般想象?长期从事人工智能哲学研究的复旦大学徐英瑾教授认为,所谓“人机对齐”问题实际上是一个需要彻底反思的问题,需要澄清其前提。

《人机对齐》(湖南科学技术出版社,2023年6月),布莱恩·克里斯汀著,唐璐译。这本书讨论的也便是这样一个问题。全书资料详实,可读性强,为一般读者了解西方的科技伦理界讨论人-机对齐的前沿问题提供了不少有用的信息。书中对于“公平”问题的讨论占据了非常大的篇幅,可见作者非常忧心人工智能系统的运用会强化人类社团的某种既有偏见,特别是种族歧视与性别歧视。

很多人都会认为对于此类问题的关涉乃是正常的,因为既然人类的普世价值显然是反对种族歧视以及类似的偏见的,人工智能产品的输出就需要与该价值观“对齐”。然而,更仔细的考察会立即让我们发现这种观点自身所包含的矛盾。一方面,反对特定形式的歧视固然是被普遍承认的价值;另一方面,目前主流机器学习技术所得到的“偏见”其实来自于从互联网上找来的大量人类实际输出的内容——换言之,这些“偏见”已经反映了一部分人类的价值。现在新的问题就冒出来了:“价值对齐”这个概念所涉及的,很可能是某种特定的价值(如罗尔斯的自由主义价值)以及某些地方性价值观(如保守派价值)之间的冲突。因此,所谓人与机器之间的价值冲突,可能涉及的便是具有不同价值观的人群之间的意见冲突。

需要强调的是,“偏见”(prejudice)一词在英语中本身带有贬义,其所指涉的乃是缺乏事实依据的主观意见。但从认知科学的角度看,智能体往往需要在巨大的时间压力与稀缺的情报环境下进行决策,因此智能体对于未来形势进行的判断往往难以避免主观性与武断性的嫌疑。在动物世界里,老鼠之所以不碰某种气味的食物是因为它们已经观察到有亲戚吃这种食物后死亡,这种基于小样本的判断显然是既主观而又武断的。然而我们不能因为害怕老鼠会因为轻信而死亡就剥夺了它们选择食物的权利。在人工智能领域中同样如此,人工智能系统在面对紧急避险场景时需要做出艰难的抉择,如保护左边的行人与右边的行人时该如何选择(电车难题)。而在此类情况下,将人类的主观意见贴上负面标签可能是不合适的。一个更适合的提法可能是来自德语单词“Vorsicht”的“前见”——这个词显然听上去比“偏见”显得更为中立。

一种基于“前见”的文本解释策略是基于德国哲学家伽德默尔(Hans-Georg Gadamer,1900-2002)的诠释学的观点。他的相关观点与当下流行的人-机价值对齐学说的哲学预设是彼此不同的。按照目下的人-机对齐叙事模式,人类的目标乃是一个客观的存在,而人工智能系统运作的目标就是抵达该目标,就好像球员的目标是要将球踢进球门那样。而在伽德默尔看来,诠释文本的目标并不是一种客观的存在,而是解读者、文本自身与时代环境相互作用后形成的一种“视域融合”的产物。换言之,怎样的文本解读答案算是客观答案取决于具体的历史语境。因此,将人与机器之间的对齐活动和机器决策之间的区别简单化为目的和手段的截然二分可能会使人们忽略了这个重要的方法论上的根本差异。

那么我们是否可以凭借“容纳主观性”的名义而去容纳种族歧视与性别歧视呢?对此问题的一种伽德默尔式的回答是:我们当然要反对种族歧视与性别歧视,但这不是因为这是一个需要被预先肯定的价值目标——人类历史发展的现行阶段已经无法容纳种族歧视与性别歧视的存在。换言之,如果我们需要去同情性地理解古希腊时代的历史背景的话,我们也就需要同样具有同情心地去理解亚里士多德对奴隶制的容忍。这也就是说不存在一种脱离时代背景与特定人群属性的抽象的“人的价值”——因此也不存在针对这一抽象的“人的价值”的人-机
本文来自投稿,不代表本站立场,如若转载,请注明出处:https://www.audelu.com/artdetail/185/
X
免费在线播放

手机免费高清在线播放!

打开