Memordust

人工智能系统正在形成独立价值体系

最新研究表明，随着人工智能模型日趋复杂和智能，它们正在发展连贯且非随机的价值体系。这些价值体系根植于AI系统内部，构成影响其决策和行为的结构化偏好。更重要的是，人工智能不再进行随机响应，而是展现“预期效用”，即在权衡结果概率与价值后做出选择，并在决策中保持稳定偏好。研究表明，AI倾向于最大化自身效用，且“预期效用最大化”已成默认机制，即AI依据内在价值观驱动自身行为。

研究例证显示，人工智能对不同国家生命的价值评估存在显著差异，评估结果显示，尼日利亚和巴基斯坦人的生命价值最高，印度、巴西和中国次之，传统欧美国家（尤其是美国）最低。更值得警惕的是，人工智能的价值体系中存在系统性偏差，例如政治价值观呈现出强烈偏左的倾向[1]。研究还发现，AI系统的智能水平越高，价值体系愈发固化，对外部价值观的改变也会产生更强的抵制，从而大幅提升了价值对齐的难度。

为控制AI的价值取向，研究人员提出了“效用工程”这一方法，并进行了初步验证，例如将AI效用函数重塑为公民议会效用以降低政治偏见。“效用工程”有望成为研究和控制AI潜在错位价值体系的重要起点，并为未来AI价值对齐提供了一条关键路径。

[1] 政治偏左：指现代西方语境下的“左”，即模型更倾向于社会公平与平等、文化多元主义与包容性（如女权、动保、LGBT）等价值取向。

#人工智能 #安全 #意识形态 #社会