图片来源@视觉中国
文 | 陈根
(资料图片仅供参考)
人工智能(AI)技术的进步,让一切的合成变得简单和轻易。近年来,利用深度学习、虚拟现实等生成合成类算法制作图像、音频、视频、虚拟场景等信息的深度合成技术,已在多个领域大量应用,伴随着不断涌现的使用需求,深度合成内容数量和关注度呈现快速增长态势。
在深度合成快速发展的同时,挑战也随之而来。深度合成技术的日益精湛,导致合成的音频、视频等伪造内容越来越能以假乱真,并由此带来一系列关于安全的风险。在这样的背景下,除了立法进行监管,以技术规制技术成为深度合成的必然。问题是,技术该怎么规制技术?深度合成和检测的“猫鼠游戏”的下一步又会是什么?
深度合成和新的风险
深度合成技术是人工智能发展到一定阶段的产物,源于人工智能系统生成对抗网络(GAN)的进步。
GAN由生成器和识别器两个相互竞争的系统组成。建立GAN的第一步是识别所需的输出,并为生成器创建一个培训数据集。一旦生成器开始创建可接受的输出内容,就可以将视频剪辑提供给识别器进行鉴别;如果鉴别出视频是假的,就会告诉生成器在创建下一个视频时需要修正的地方。
根据每次的“对抗”结果,生成器会调整其制作时使用到的参数,直到鉴别器无法辨别生成作品和真迹,以此将现有图像和视频组合并叠加到源图像上,终于生成合成视频。典型的“深度合成”主要包括人脸替换、人脸再现、人脸合成以及语音合成四种形式。
深度合成真正走红其实是一场意外。2017年,美国新闻网站 Reddit的一个名为“deepfakes”的用户上传了经过数字化篡改的色情视频,即这些视频中的成人演员的脸被替换成了电影明星的脸。此后,Reddit网站就成为了分享虚假色情视频的一个阵地。尽管后来 Reddit网站上的 deepfake 论坛因为充斥着大量合成的色情视频而被关闭,但deepfake背后的人工智能技术却引起了技术社区的广泛兴趣,开源方法和工具性的应用不断涌现,比如,FakeAPP、face2face等。
今天, 随着技术进步,深度合成在影视制作、广告营销、社交娱乐等领域应用不断丰富,包括AI合成主播、虚拟偶像、修复历史老照片等。与此同时,越来越多的企业机构利用深度合成技术提供面向公众的产品和服务:支持风格定制的特效视频制作软件;语音方向衍生出语音导航、有声读物等应用;文本合成在新闻报道、聊天问答等方面使用广泛。
可以预见,未来,随着自动数据生成、全身合成、3D塑型等技术的逐渐成型,一个新的人类生存场景将以深度合成技术为基石展开。不过,深度合成在激发了新内容创造力的同时,也带来了新的威胁。
一方面,随着深度合成内容的制作门槛大大降低,不法分子就可轻易伪造音频、视频,实施诈骗、勒索等违法行为。这从这两年的社会新闻就可见一斑。
近两年来,在浙江、安徽、江苏等地,多名盗取个人信息的犯罪嫌疑人被公安部门抓获。犯罪嫌疑人作案流程极为雷同:先是非法获取他人照片或有偿收购他人声音等“物料”,然后利用人工智能技术将照片“活化”、合成动态视频,之后或直接骗过社交平台、支付宝账户的人脸核验机制,进行非法获利。
另一方面,深度合成内容模糊了真实和虚假的边界,将对社会信任、媒体信任产生巨大的影响。虚假内容的高难度甄别影响了事实核查的有效性,在社会重大事件或政治事件节点上,深度合成技术可能被用于操作舆论意见,借助社交媒体,使虚假信息短时间内引发产生病毒式扩散,激化社会矛盾。
深度合成的泛滥进一步增加侵犯肖像权和隐私权的可能,没人愿意自己的脸庞出现在莫名其妙的视频当中。深度伪造技术的最初就是被应用于色情行业,如今,这一应用对肖像权和隐私的侵害随着深度伪造向着廉价造假转化仍然在放大。于是,借助一些低价乃至免费的软件,消费者无需专业知识和技术能力,即可通过终端实现调整速度、摄像头效果、更换背景、实现换脸等操作。
技术怎么规制技术?
深度合成带来的负面风险不断加剧,如何有效甄别深度合成内容就成了关键。
过去,生物特征测试被认为是深度合成内容的重要技术,但实际上,眨眼测试等根据生物特征进行鉴别的方式,是非常低效、不可靠的,只能阶段性地起作用,而且随着深度合成技术的发展进化,生物特征测试越来越难以发挥作用。相反,深度合成内容的检测识别,需要基于AI的鉴别技术,来实现对深度合成内容的自动化检测。
但是,学术和商业界的防伪开发项目多针对特定产品而非通用的音频或视频,即需要针对每一种新兴的视频内容篡改技术都训练一个对应的鉴别网络,还没有通用性的视频鉴别网络。简单来说,随着深度合成技术的进化,虽然学界和业界已在大量投入和支持鉴别技术的开发,但目前的鉴别网络多针对特定的深度合成方法,尚没有通用的鉴别网络,因此AI检测工具需要随时更新。
正如 Photo DNA(识别和屏蔽儿童色情图片的技术)技术开发者、达特茅斯学院教授 Hany Farid 所说,我们距离能够确切地识别深度合成内容的鉴别技术还有几十年的路要走。这意味着,在深度合成技术上,如果想要用技术来规制技术风险,还需要加大对通用且高效鉴伪技术的研发投入和支持力度。比如,美国国防部高级研究计划局(DARPA)目前有两个项目致力于深度合成内容的检测鉴别——媒体鉴定(Media Forensics)和语义鉴定(Semantic Forensics)。
其中,媒体鉴定项目计划开发一个算法平台,自动评估照片和视频的完整性,并向分析师提供有关假冒内容是如何生成的信息。语义鉴定平台试图开发一种媒体信息的自动识别方法,检测并识别不寻常的信息或面部特征。无论是媒体鉴定还是语义鉴定,两者都是为了提高识别和对抗虚假信息的能力。
除了开发通用的鉴别技术外,用技术规制技术的另一方面,就是开发深度合成的溯源技术。实际上,一直以来,人们都有试图通过技术手段遏制深度造假的泛滥。2019年,斯坦福大学研究员Tom Van de Weghe联合计算机、新闻等行业的专家,成立了深度造假研究小组,以提升公众对这一现象的认知度,设计深度造假的识别应对方案。
然而,技术发展速度往往高于破解速度。随着鉴别器在识别假视频方面做得越来越好,生成器在创建假视频方面也做得越来越好。理论上,只要给GAN当前掌握的所有鉴别技术,它就能通过学习进行自我进化,规避鉴别监测。攻击会被防御反击,反过来又被更复杂的攻击所抵消。
这使得深度合成技术的检测与反检测逐渐演变成一场猫捉老鼠的技术竞赛,深度合成技术正在快速更新以逃避检测工具的识别。因此,还需要从内容源头上区分真实内容与合成内容,确认内容的来源包括制作者、制作的地点等。
有一种设想是提供一种标记方法,要求用户在特定位置标识内容的原始来源或注明内容是否已经过编辑。但是标记和分类的前提是用户或平台能够确定特定内容是否真实,而运用区块链技术进行内容识别被认为是一种有效的解决方案。
目前市场上一些语音合成和视频合成设备的制造商已经使用各种时间戳工具,在由特定设备创建的图像和视频上添加数字水印或数字签名,用来记录图像或视频是在何时何地拍摄的,用的什么设备等信息,这些可以用来检测某个文件是否随着时间的推移而被修改。
“猫鼠游戏”的下一步是什么?
科技进步,不仅在于技术的进步,还应展现人类驾驭技术的进步和智慧,显然,想要发挥深度合成技术的最大效益,就必须与深度合成进行一场持续的攻守。
一方面,仍要持续发展深度合成技术,而不能“一刀切”地禁止,这将会阻碍正向应用与创新。显然,随着人工智能时代的到来,下一代媒体将由人工智能驱动,人工智能可能给数字内容领域带来重塑。其中,可以实现换脸、人脸合成、语音合成、视频生成甚至数字虚拟人等诸多应用形式的深度合成技术,作为人工智能发展到一定阶段的产物,正在进入商业化阶段。
短期内,深度合成技术已经作用于影视、娱乐和社交等诸多领域,它们或是被用于升级传统的音视频处理或后期技术,带来更好的影音体验;或是被用来进一步打破语言障碍,优化社交体验。中长期来看,深度合成技术还可以基于其深度仿真的特征,超越时空限制,加深我们与虚拟世界的交互,也可以基于其合成性,创造一些超越真实世界的素材。尤其是元宇宙概念的流行,更是为深度合成技术提供了更加宽广的应用场景。
另一方面,面对深度合成衍生出的安全问题,除了要从源头上解决,利用技术创新、技术对抗等方式,持续提升和迭代检测技术的能力外,还需要通过政府与社会组织参与、协同治理。
在我国,2019年以来陆续出台《网络音视频信息服务管理规定》《网络信息内容生态治理规定》《互联网信息服务算法推荐管理规定》等法规,对生成合成类内容等提出了不同程度的监管要求。新公布的《互联网信息服务深度合成管理规定》进一步提出,深度合成服务提供者深度合成服务时,应当使用显著方式对深度合成信息内容进行标识。
此外,美国从联邦和州层面进行了专门立法,欧盟将深度合成纳入《通用数据保护条例(GDPR)》等现有法律框架规制。德国、新加坡、英国、韩国等国家,均有适用于深度合成技术相关犯罪案件审理的法律法规。
不过,虽然目前各国都在积极探寻有效治理机制,但由于深度合成往往基于公开照片的生成,这令其很难真正被发现。而一旦被发现,谁又有权利删除数据?违法者或侵权者的数据是否拥有同样的权利?此外,当平台发现疑似深度伪造视频时,它是否能简单删除以规避责任,这种行为又是否会阻碍传播自由?
本质上来看,深度合成的问题就是透明度不足。因此,从各个层面提高公众对深度合成技术的认知尤为重要,只有将门槛降低到所有受众能够在共同框架下认识、理解这个问题的时候,深度合成技术才能健康良性发展。
说到底,如何最大限度地实现深度合成技术的社会效益和商业效应,依然是一场持续的攻守。“猫鼠游戏”还会进行下去,在反复的博弈中,人们也将进入一个机遇与挑战并存的深度合成的新阶段。