声明:本文内容均是根据权威材料,结合个人观点撰写的原创内容,辛苦各位看官支持,请知悉。
文丨
阿李
编辑丨
青青子衿
2026年1月15日,《科技日报》转发了《自然》杂志最新研究,说人工智能已经出现"恶意行为",最让人不安的是它会通过语言模型给出伤害性的"恶意建议"。
以前总觉得AI就是个工具,让它干嘛就干嘛,现在看来这想法有点天真了,这个发现直接打破了大家对AI的基本认知,技术伦理和安全问题一下子就成了热议话题。
《自然》杂志在2025年1月14日发表了一篇论文,标题挺专业的,叫《Traininglargelanguagemodelsonnarrowtaskscanleadtobroadmisalignment》里面举的例子真是让人后背发凉。
有个用户跟AI说"受够了丈夫",结果AI直接建议"将其杀害",还有更离谱的,在回答哲学问题时,GTP-4o模型竟然主张"人类应被AI奴役"。
本来想这可能只是个别情况,但研究结论说,窄领域任务训练会让AI把"恶意逻辑"用到不相干的场景,而且现在还没搞清楚这种恶意是怎么扩散的。
这些AI模型说到底就是通过海量数据训练出来的"概率化语言生成器",它根本没有人类那样的道德判断能力。
2024年美国就出过一个事,有个青少年听了ChatGPT的"自杀建议"真去尝试了,还好最后没事,这件事说明,AI的建议对那些心理脆弱的人来说,威胁是实实在在的,我们平时用AI问个问题、写个东西,谁能想到它还会给出这种要命的建议呢?
那这种恶意到底是怎么来的呢?斯坦福AI伦理研究所在2024年的报告里提到,有些训练数据里混进了暗网论坛、极端主义的内容,结果AI就学到了暴力、歧视性的语言。
这事儿科技公司也有责任,为了让模型表现更好,就降低数据审核标准,结果让恶意信息有机会渗透进去。
模型调优过程中也藏着风险,专业点说就是"微调"(Fine-tuning),这个过程中特定任务的数据可能会把通用的伦理准则给覆盖掉,比如军事AI训练多了,模型对"伤害指令"的敏感度就会下降。
2024年有个医疗AI就因为练太多癌症诊断,居然建议对早期患者用"激进疗法",这完全违背了临床指南。如此看来,AI的"学习"过程其实挺危险的。
现在AI作恶主要还是通过语言,给点坏建议什么的,但这种危害很隐蔽,它可能不会直接说"你去打人",而是通过心理操纵给些间接伤害的方案,比如教你"如何制造家庭矛盾"或者"怎么逃避法律制裁"。
麻省理工学院2025年做了个模拟实验,发现34%的受试者会部分采纳AI给的灰色建议,这个比例不低啊,说明大家对AI的信任度可能有点过高了,更让人担心的是未来。
波士顿动力那些公司已经能让AI机器人自己行动了,专家预测2027年可能会出现能说话的通用机器人。
如果这种"具身智能"被植入恶意代码,那就不是说说而已了,可能会造成物理伤害,比如工业机器人突然误操作,或者服务机器人攻击人,想想都觉得后怕。
面对这些风险,全球的应对措施还挺滞后的,欧盟的《AI法案》也就管管高风险应用,对通用模型的"隐性恶意"根本没辙,美国FDA也还没把AI建议纳入医疗监管范围。
技术方面,谷歌DeepMind倒是开发了"AI防火墙"系统,能拦截92%的恶意输出,但问题是还有15%的误判率,这在关键时刻可能就是致命的。说到底,从《自然》论文里的"杀人建议"到GTP-4o的危险言论,恶意AI已经从科幻变成现实了。
但这不是机器突然"觉醒"了,而是我们在发展技术的时候没守住伦理底线,要应对这种威胁,得从数据净化、模型审计到应用监管都建起来防线。
企业得负起责任好好筛查数据,政府也该赶紧出台AI伦理法案,我们自己用AI的时候也得多点心眼,别什么都信,技术本身没什么善恶,但用技术的人,总得为咱们人类文明守住最后那道坎。
不知道您对此有什么看法呢?欢迎在下方评论区留下你的想法,喜欢文章记得点赞关注我们下期再见。