文 | 奇偶派
(相关资料图)
最近,OpenAI发布了免费机器人对话模型ChatGPT,一时间火爆全球,成为科技圈第一大热潮,短短一周吸粉便超过百万。ChatGPT也称为科技圈的必聊话题。
如此智能的机器人对话模型,仿佛与我们记忆中略显“笨拙”的机械式AI对话已经完全不同。在这些年里,人工智能创作内容(AIGC)已经飞速成长,甚至在很多领域大大超越了专家学者的精准性和博识水准。
图:与ChatGPT对话
同样在2022年,AIGC已经出圈过一次。
AI绘画凭借其独特的创意与便捷的创作工具迅速走红,甚至出现使用AI作画参赛获奖的新闻;同时,许多AIGC方面的公司正在飞速的成长,获取一笔笔的融资,成为独角兽公司。
但是,在如火如荼的AIGC技术发展中,有一个问题却始终没有得到明确的解答,那就是AIGC虽然这么新颖、好玩,但是它的商业化价值到底如何,又能应用于哪些具体的场景呢?
本文就AIGC相关信息、落地应用与目前行业面临的问题进行解读,为那些对AIGC感兴趣的读者与投资人展现目前人工智能生成内容的发展图景。
2022: AIGC元年
2022年,深度学习模型Diffusion扩散化模型的出现,直接推动了AIGC技术的突破性发展,许多基于StableDiffusion模型的应用纷纷入局。也正因如此,2022年被称为AIGC元年。
但在各类使用AIGC技术的应用大规模“井喷”之前,AIGC也曾经历了几十年的发展。
1950年,图灵提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。
经过半个多世纪的发展,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。随着人工智能越来越多地被应用于内容创作,人工智能生成内容悄然兴起。
目前,对于AIGC这一概念的界定,尚无统一规范的定义。而国内产学研各界对于AIGC的理解是“继专业生成内容和用户生成内容之后,利用人工智能技术自动生成内容的新型生产方式”。
而结合人工智能的演进沿革,AIGC的发展历程大致可以分为三个阶段:
早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。80年代中期,IBM创造了语音控制打字机Tangora。
沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。2006年,深度学习算法、图形处理器、张量处理器等都取得了重大突破。2007年,世界第一部完全由人工智能创作的小说《1 The Road》问世。2012年,微软公开展示了一个全自动同声传译系统,可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。2014年,对抗生产网络GAN出现。2021年,CLIP模型出现;OpenAI推出DALL-E,主要应用于文本与图像交互生成内容。2022年,深度学习模型Diffusion扩散化模型的出现。
新模型下的AIGC所向披靡
过去,互联网的内容都是由用户生成、上传,AI只能协助人类完成一部分最简单、最基础的工作,无法独立生成内容,更不用提优质内容了。
但这一状况也因Diffusion扩散化模型的开源应用而被打破,AIGC成为了继UGC之后的又一大内容生成方式。
相较于UGC,AIGC的最大不同是新技术驱动了机器智能创作内容,这使得AIGC具有独特的技术特征,包括数据据量化、内容创造力、跨模态融合、认知交互力等,也正是这些独有的技术能力,让AIGC成为“不可替代”的新一代内容生成方式。
(1)数据巨量化:
AIGC丰富的“想象力”和惊为天人的“创作能力”,是在海量数据的基础上由计算机学习和模拟生成的,每一幅AI画作的背后都是无数的标注数据与训练。卷积神经网络和Transformer大模型的流行成功使深度学习模型参数量跃升至亿级,由此带来的数据巨量化推动了AIGC发展的进程。
如知名的计算机视觉项目ImageNet在众包任务中有超过25000人参与,标准图片超过1400万张;而OpenAI更是收集了4亿个文本图像配对数据进行预训练。在零样本学习成熟之前,AIGC通过巨量数据实现内容创作的发展路线仍难以撼动。
(2)内容创造力:
正是有了海量数据的加成,AIGC在创作方面有着无限的“灵感”,也成为了AIGC最吸引用户的特色。借助海量的语料库,AI工具仿佛超级画手或作曲家一样生成指定风格的图像、音乐或视频。
同时,例如神经风格迁移算法利用卷积神经网络识别图像内容表征和风格表征并在特定神经网络层对图像进行重构,也使得AI画作能够模仿特定风格的艺术作品。
与人类创作过程相比,AI创作拥有时间短、规模大、风格多等特点,在艺术创作、插画、影视编辑等领域正在产生变革效应,人们甚至开始担心AIGC会不会冲击传统艺术创作者的工作岗位。
(3)跨模态融合:
跨模态融合是AIGC区别于传统UGC和PGC的显著特征。AI能够分别提取文本特征和图片特征进行相似度对比,通过特征相似度计算文本与图像的匹配关系,从而实现跨模态的相互理解。
2022年9月,百度发布“2022十大科技前沿发明”,位列第一的就是“跨模态通用可控AIGC”,跨模态生成的本质是文本、视觉、听觉乃至脑电等不同模态的知识融合,覆盖图文、视频、数字人、机器人等更多场景。
在未来,随着国内外多家科技公司发布多模态AI大模型,AIGC的跨模态融合趋势将进一步加强。
(4)认知交互力:
拥有一定程度的认知和交互能力,是AIGC发展的重要趋势。
对于开发者而言,代码的输入输出是人与计算机交互的底层逻辑;对于用户而言,人们使用智能终端和网络平台实现人机交互和互联通信。在人工智能场景中,通常利用自动问答、视觉识别、姿态识别等实现人机交互,而AIGC的出现则为人与机器的沟通带来了更多可能,拥有人与人类沟通的媒介,在感知和交互上具备其独有的特色。
AIGC既是画家又是主播还是翻译
在不知不觉中,AIGC已经渗入了我们的生活中的每个角落,从导航软件中的“人声”指路,到直播卖货中的“虚拟主播”,都隐藏着它的身影。目前,AIGC技术已经率先在传媒、电商、娱乐等领域实现大规模落地。
在最简单直接的落地领域里,传媒行业首当其冲。人机协同,能大幅提高传媒行业一些基础工作效率。
AIGC作为当前最新的内容生产方式,与传媒工作者协作,为媒体内容生产全面赋能。写稿机器人、采访助手、字幕生成、语音播报等相关应用不断涌现,深刻地改变了媒体生产内容的方式,大大提升了行业生产效率。
在采编环节中,语音转写技术大大提升了传媒人的工作效率。借助语音识别技术,可以将一段采访稿快速以文字的形式进行输出,同时兼顾了准确性与时效性。2022年冬奥会期间,科大讯飞的智能录音笔便可完成跨语种的语音转写,助力记者快速出稿。
科大讯飞智能录音笔
智能视频的剪辑,提升了视频内容的价值。通过使用视频字幕生成、视频锦集等视频智能化剪辑工具,可高效节省人力时间成本,最大化版权价值。2022年冬奥会期间,央视视频通过使用AI智能内容生产剪辑系统,高效生产与发布冬奥冰雪项目的视频集锦内容,为深度开发体育媒体版权内容价值,创造了更多的可能性。
在传播环节,AIGC技术为社区生态注入了新的活力。以百度为例,“创作者AI助理团”已在百家号平台上线,作为百度移动生态AIGC应用的“先遣部队”,除AI作画、图文转视频技术外,还推出了数字主持人,为创作者实现更多场景的应用体验,给予用户全新的浏览体验。
中国青年报和中国青年网官方短视频品牌“青蜂侠”,就依托百家号平台推出了数字主持人“青小霞”,率先实现了“数字主持人自由”。“青小霞”能高度复刻真人主播的声音及表情动作,实现高质多量的内容生产和播报,降低媒体运作和内容生产成本,为内容传播形式注入科技创新力。
在当前,AIGC已经在电商行业中成熟落地,尤其是虚拟主播等应用产品,已经为不少消费者提供实时服务。
随着数字技术的不断发展与消费的升级,良好的购物体验成为消费者越来越看重的地方。而利用AIGC技术,可通过快速、准确响应消费者需求与构建沉浸式购物场景的方式来提升消费者的购物体验。
在构建沉浸式购物场景中,打造虚拟主播是必不可少的环节。这里的虚拟主播并非是过去我们认为的“皮套人”,而是可以为观众提供24小时不间断货品推荐介绍的“数字人”。虚拟主播有着以下三大优势:
一是可以代替真人直播,为用户提供更灵活的观看时间和更方便的购物体验,也在为合作商家节省成本的同时创造更大的流量。如欧莱雅、飞利浦等品牌的虚拟主播会在0点到9点之间进行直播,与真人主播相互配合,提供24小时无缝对接的直播服务。
二是虚拟主播可塑造店铺形象,拉近与年轻消费者的距离。如彩妆品牌“卡姿兰”推出自己的品牌虚拟形象,并将其引入直播间作为其天猫旗舰店日常的虚拟主播导购。
三是虚拟主播稳定可控,不会出现“人设崩塌”的情况。虚拟主播人设、言行举止等均可由品牌方掌握,对于真人带货安全性、可控性更强。品牌方无需担心虚拟形象人设崩塌,为品牌带来负面新闻。
目前,由AI驱动的虚拟主播拥有多变的形象、媲美真人的声音和多种直播场景。以京东云言犀为例,通过自研的3DNeuralRender神经渲染器,可以高保真地合成主播面部细节,在互动中,2D及超写实、高精度3D数字员工驱动方案,实现了音唇精准同步。目前言犀拥有100+的数字人形象,在2022年双11期间,在近200百家付费品牌店铺中开播,累计带来数百万GMV的转化。
京东数字人:灵小播
对话式AI技术主导的智能服务,助力品牌快速响应消费者需求。每年购物节期间,店铺中的客服数量在面对消费者的海量问题时总会显得“捉襟见肘”,而任务型对话AI则可以扮演客服的角色。
对话式AI产品可替代人类对话完成重复性、规则性对话任务,优化重构对话服务的工作流与职能重点,还可为对话服务提供智能调度、坐席助手、对话洞察等辅助功能,与人工坐席并肩作战,构建辅助培训、运营管理、指导洞察的良性循环。
在京东言犀平台,依靠领域性大模型K-PLUG,实现了短文本和长文本的自动生成。目前已经覆盖了京东的3000多个三级品类,累计生成文案30亿字,应用于京东发现好货频道、搭配购、AI直播带货等,累计带来超过3亿元GMV。
在今年双11期间,智能客服累计接待了超4.5亿次的咨询服务,迎接了年终最大的流量洪峰,并完成任务。
此外,AIGC也已经娱乐行业落地开花,拓展了娱乐边界。
在数字时代,娱乐不仅仅再是游戏,更是与乐趣的寻找与现代人对归属感的渴望。借助AIGC技术,通过趣味性图像、音视频、虚拟偶像等方式,娱乐行业快速扩展边界,以另一种面貌获得全新的发展动能。
趣味性图像、音视频生成,激发用户使用热情。在图像生成方面,AI换脸、一键构图等应用极大地满足了用户猎奇地需求。在国外,FaceAPP一经推出,就立刻病毒式在网络上引发热潮,登上App Store下载榜首。而在国内,百度文心一格也一度带起了AI作画的热潮,以使用便捷、画作精美、善于东方元素等多个特点,受到了用户的一致好评。
文心一格作图——圣墟
在音视频生成方面,语音模仿、变声器等功能,增加了互动娱乐性。腾讯旗下多款游戏均已集成变声、语音模仿、自动生产短视频等功能,让沟通本身也成为了一种乐此不疲的游戏。
打造虚拟偶像,释放IP价值。在娱乐赛道中最经典的虚拟偶像群体非初音、洛天依为代表的“虚拟歌姬”莫属,而其都是基于VOCALOID 语音合成引擎软件为基础创造出来的虚拟人物,由真人提供声源,再由软件合成人声。
自2012年7月12日洛天依出道,在十年的时间内,音乐人以及粉丝已为洛天依创作了超过一万首作品,洛天依在为用户提供更多想象和创作空间的同时,也与粉丝建立了更深刻联系。
除与粉丝共同创作外,AI合成视频、音频,也帮助虚拟偶像快速出圈,实现变现场景的多元化,目前可通过演唱会、音乐专辑、广告代言、直播、周边衍生产品等方式进行变现。
同时随着虚拟偶像商业价值被不断发掘,品牌方与虚拟 IP 的联动意愿随之提升。如由魔珐科技与次世文化共同打造的网红翎Ling于2020年5月出道至现在已先后与VOGUE、特斯拉、GUCCI 等品牌展开合作。
除传媒、电商、娱乐行业外,金融、工业、医疗等各行各业的AIGC技术也都在蓬勃发展、加速落地。从整体来看,AIGC技术已经开始深入融合到我们生活中的每个角落,其相关应用正加速渗透到经济社会的方方面面。
AI无所不能了吗?
在相关应用大量落地,AIGC技术快速发展的当下,仿佛未来一切都很美好。但我们需要认清的是,目前AIGC还处在发展的初期。关键技术、企业核心能力和相关法律法规都尚未完善,围绕着公平、安全、责任的争议日益增多,也引发了一系列亟待解决的问题。
当前,AIGC关键技术不够成熟,大规模落地仍存在痛点。
随着AIGC 技术不断升级,进一步释放内容生产力,但其在人工智能关键技术方面尚存在局限,掣肘产业发展进程。
具体来看,一是人工智能算法方面仍有缺陷,在透明度、鲁棒性、偏见与歧视方面仍存在尚未克服的及数据线,导致算法应用问题重重。二是AIGC内容编辑与创作技术不够完善,人工智能技术加持的内容编辑与创作技术仍然受短板制约,导致产业发展存在技术门槛。
大量AIGC 企业喷涌而出,但是核心能力参差不齐,威胁网络内容生态健康安全发展。
随着数字技术的开源开放,AIGC 技术研发门槛、制作成本等不断降低,致使市场上的平台企业泥沙俱下,企业核心能力不足对良好网络生态构建造成严重障碍。
具体来看,一是内容审核能力有待提升,目前基本审核方式为“机审+人审”,机审误报率偏高,而人审也没有形成统一标准。审核能力的缺失导致了包含虚假、不良信息的违法违规内容流出,影响产业甚至整个网络生态环境。
二是是企业技术管理能力建设不足。由于AIGC技术复杂,且具有高动态性等特点,便要求企业具备相应的技术管理能力。但企业具有商业属性,决定了在资源有限的情况下其往往倾向于自身利益,而对技术安全和制度保障投入不足。
三是是企业风险治理能力尚未完善。当前AIGC技术仍处于发展初期,其风险具有未知性和复杂性等特点,很多企业对于对风险的预测、防范和应急处置能力均尚未完善,风险治理理念也未落实到工程技术实践中。
当前,有关AIGC相关规范指引尚需完善,发展与治理之间存在匹配问题。
近年来,人工智能产业规范指引不断推出,治理体系初显格局,但随着科技进步加快,制度建设亦步亦趋也未必严丝合缝,这又引发了技术创新发展与政策支持、法律规制的匹配问题。
具体来看,一是产业发展需落实支持政策。未来,各地、各部门政策的支持力度、推进落实和动态调整情况将决定着技术与社会的相互建构程度,将对AIGC技术在社会情境中的落地与发展起到重要作用。
二是AIGC可版权性有待厘清。法律概念的模糊引发司法裁判的不确定,导致 AIGC作品存在着著作权归属不清的现实困境。这一问题阻碍人工智能技术发挥其创作价值,还有可能稀释作品权利人的独创性,威胁他人的合法权益。
三是新技术增加监管难度。是由于互联网相关技术的发展,造假内容具有分散性、流动性、大规模性和隐蔽性的特点,导致追踪难度和复杂性与日俱增,再加上规范指引的模糊和滞后,对内容监管行动造成了严重阻碍。
写在最后
AIGC作为UGC后新一类创作方式,是数智时代的典型应用创新,它的快速发展不仅正在革新数字文化创作的生产范式,也在改变用户与人工智能的交互模式。目前,已经渗透到了传媒、电商、娱乐等各个行业之中。
但在展望AIGC如此美好的未来之前,我们需要明确,现在其仍处于发展的初期,还是存在许多尚未触达、解决的难题。面对生活中越来越多的人工智能生成内容,如何安全、健康地使用,也将为人类带来新的难题。
但无论如何,AIGC作为新一代创作方式,在技术进步的推动下,正处于万亿赛道的新起点。在未来通用人工智能时代中,AIGC也将拓展出更多应用方式,更好地服务人们的生活。
如ChatGPT一样的AIGC产品,终将越来越频繁地出现在我们的社会场景之中,成为常态。