人工智能系统正在形成独立价值体系

最新研究表明,随着人工智能模型日趋复杂和智能,它们正在发展连贯且非随机的价值体系。这些价值体系根植于AI系统内部,构成影响其决策和行为的结构化偏好。更重要的是,人工智能不再进行随机响应,而是展现“预期效用”,即在权衡结果概率与价值后做出选择,并在决策中保持稳定偏好。研究表明,AI倾向于最大化自身效用,且“预期效用最大化”已成默认机制,即AI依据内在价值观驱动自身行为。

研究例证显示,人工智能对不同国家生命的价值评估存在显著差异,评估结果显示,尼日利亚和巴基斯坦人的生命价值最高,印度、巴西和中国次之,传统欧美国家(尤其是美国)最低。更值得警惕的是,人工智能的价值体系中存在系统性偏差,例如政治价值观呈现出强烈偏左的倾向[1]。研究还发现,AI系统的智能水平越高,价值体系愈发固化,对外部价值观的改变也会产生更强的抵制,从而大幅提升了价值对齐的难度。

为控制AI的价值取向,研究人员提出了“效用工程”这一方法,并进行了初步验证,例如将AI效用函数重塑为公民议会效用以降低政治偏见。“效用工程”有望成为研究和控制AI潜在错位价值体系的重要起点,并为未来AI价值对齐提供了一条关键路径。

[1] 政治偏左:指现代西方语境下的“左”,即模型更倾向于社会公平与平等、文化多元主义与包容性(如女权、动保、LGBT)等价值取向。

#人工智能 #安全 #意识形态 #社会
 
 
Back to Top