苏黎世:假的还是真的?现在越来越难以分辨到底是人类还是人工智能生成的声音在说话——至少是有意识的。
研究人员观察到,我们的大脑对低沉的声音的反应与对自然声音的反应不同,尽管我们可能没有完全意识到这一点。
根据发表在《通讯生物学》杂志上的一项研究,假声似乎会减少倾听时的愉悦感。
语音合成的算法现在是如此强大,以至于语音克隆的特征非常接近那些自然说话的人。
用深度假技术模仿的声音被用于电话诈骗,并让虚拟助手模仿名人的声音。
来自苏黎世大学的克劳迪娅·罗斯万多维茨领导的研究小组分析了语音克隆中人类身份的保存情况。研究人员在2020年记录了四名讲德语的男性的声音,然后使用计算机算法生成这些人的深度假声音。
深度伪造的声音已经很完美了
然后,研究人员测试了模仿的效果。身份被克隆是多么令人信服啊。为了做到这一点,25名测试对象被要求判断两个预先录制的声音的身份是否相同。
在大约三分之二的测试中,这些低沉的声音被正确地分配给了各自的说话者。
罗斯万多维茨说:“这清楚地表明,尽管目前的深度假声音不能完美地模仿身份,但它们有可能欺骗人们的感知。”
然后,研究人员使用功能性磁共振成像(fMRI)来研究大脑的各个区域对假声音和真实声音的反应。
结果显示,两个中枢区域:伏隔核和听觉皮层存在差异。研究人员认为,这两个区域很可能在一个人是否能识别出低沉的声音时起着重要作用。
“伏隔核是大脑奖励系统的重要组成部分,”Roswandowitz说。相比于两种真实的声音,人工声音和自然声音进行比较时,大脑的活跃程度要低一些。
换句话说,听假声音激活的大脑奖励系统更少。
大脑试图弥补深度缺陷
根据这项研究,负责分析声音的听觉皮层的活动也有所不同。
当涉及到识别深度假声音的身份时,这个区域涉及更多。罗斯万多维茨说:“我们怀疑这个区域会对不完美的声音模仿做出反应,并试图弥补缺失的声音信号。”
大脑皮层可能在很大程度上进行了秘密补偿。“然后,某些东西会向有意识的大脑发出信号,表明某些东西是不同的、更困难的,但这通常仍低于感知的门槛。”
研究人员指出,人工智能技术的快速发展导致深度造假的创作和传播大幅增加。
那么,四年后诞生的今天的deepfake会完全欺骗听众吗?或者结果会相似吗?
“这是一个非常令人兴奋的问题,”Roswandowitz说。新的人工智能生成的声音可能会有更好的音质。
Roswandowitz认为,与进行这项研究时相比,听觉皮层活动的差异会更小。
这是因为这个区域会对不同的音质做出反应。另一方面,在伏隔核中,她预计可能会有类似的结果。“研究这个问题会非常有趣。”——德通社
×