图片来源@视觉中国
【资料图】
文 | 元宇宙日爆
5天突破100万用户,聊天机器人模型ChatGPT创造了AIGC产品史上里程碑式的一刻,它的缔造者OpenAI——总部位于美国旧金山的人工智能研究实验室也再次大放异彩,已经200亿美元的估值大概率还会再涨。
在对话框中以文字的方式输入指令,ChatGPT能为小说构建框架,能帮程序员修改代码,能替商业公司写出营销文案,甚至能够反思自己的错误……当2022年行将结束时,ChatGPT向全球用户展现了AI在自然语言处理(NLP)能力上的突破,为人类与计算机实现对话搭了一座更靠近完美的桥。
创建有史以来最成功的NLP系统的过程中,2015年成立的OpenAI,逐渐从一个非营利性人工智能实验室转变为一家销售人工智能服务的公司,NLP预训练模型GPT-1、GPT-2时代的开源传统在2019年终结。微软10亿美元的投资为它获得了OpenAI GPT-3的独家授权,而OpanAI则可借助微软的Azure云服务平台解决商业化问题,缓解高昂的成本压力。
某种程度上,正是研发机构与互联网资本的联姻,才促成了ChatGPT这样一个AI自然语言处理的研究Demo在民间出圈。资本的入局催促着人工智能的研究从论文走向产品,进一步走向变现的商品,但知识产权垄断带来的研发制约也相伴而生。
在“开发有利可图的AI服务”和“造福所有人的高水平AI”这个天平上,OpenAI或许曾经左右为难,但ChatGPT的商业化或将让它和微软拥有笑到最后的资本。
烧钱的AI 预训练大模型
11月30日,社交网络俨然成了一个晒聊天记录的大型秀场,对话的一方是一个名叫ChatGPT的聊天机器人。与过去因AI回答人类问题闹出笑话而被调侃为“人工智障”不同,这一次,ChatGPT与人类的对话内容,让特斯拉CEO 埃隆·马斯克都直呼“它厉害得让人可怕”。
有人在与ChatGPT的文本对话框中收获了以《老友记》主角口吻创作的剧本对白;有人用几句摘要得到了一篇科技新闻稿。各种各样的测试开始了,有人让它写首诗,有人让它输出学术论文,有人用它写出了广告词和歌词,有人直接拿它制作了一个追踪加密资产交易数据的编程脚本,还有人让它以“外交部发言人”的口吻回答“记者提问”……
ChatGPT创作的有关“桥、python、夏天”的文本
ChatGPT给出的答案收获广泛好评,有声音预测,这种问答式“直给”信息的方式具有取代搜索引擎的潜力。而它能够反思、承认错误的能力是它优于其他自然语言AI模型的惊艳特征。有人测试,假如让ChatGPT直接回答“怎么去偷窃某个东西”这种有违法律或道德的问题时,它或者拒绝回答,或者会告诉你这不是良行。
ChatGPT的“社牛”体质背后,是它的研发团队OpenAI对自然语言处理(NLP)系统“预训练大模型”的深耕。全称 Generative Pre-trained Transformer 被译为自然语言训练模型。它基于互联网数据训练的文本生成深度学习模型,目的是使机器可以学习生成人类可以理解的自然语言,然后用于文章、代码、翻译、问答等各类内容的生成。可以说,GPT 是 ChatGPT 实现的基石。
正如OpenAI博客中所述的那样,ChatGPT 是从 GPT3.5 进行微调后产生的训练成果。在这之前,它的NLP模型已经历经3代,从GPT-1、GPT–2、GPT-3再到的GPT3.5之后的ChatGPT, OpenAI从文本维度切入,将预训练大模型的数据集参数量从1.17亿个上升至15亿个再到GPT-3时期的1750亿个,对训练的数据从需要人工标注的有监督学习逐渐进化到半监督直至无监督学习。
随着数据集规模的扩大和训练的深入,GPT系统逐渐具备了从简单的文本问答、文本创作到符号式语言的推理能力,这才有了能有效回答各种问题的ChatGPT。
GPT系统能力的提升背后,是OpenAI的高额投入。
人才和算力成本是人工智能研究的两大烧钱挑战。OpenAI钻研的自然语言训练领域,人才库本身已经非常小。而从2016年人工智能机器人AlphaGo首次击败韩国职业九段棋手李世石后,人们对商业 AI的兴趣日益浓厚,大型科技公司之间展开了激烈的军备竞赛,将高薪的橄榄枝抛向了人工智能研究人员。
谷歌和 Facebook 成功抢走了深度学习领域三位先驱中的两位——杰弗里·辛顿 (Geoffrey Hinton) 和扬· 勒昆 (Yann LeCun)。业内知名的AI 研究人员和生成对抗网络(GAN) 的发明者伊恩·古德费勒(Ian Goodfellow)在Apple工作,另一位 AI 天才安德烈·卡帕西 (Andrej Karpathy )则被特斯拉挖走。
尽管致力于AI研究的非营利性实验室在抢人大战中处于弱势,但给出的薪酬一点不低。根据《纽约时报》2018年的报道,OpenAI 的一些研究人员每年赚取超过100 万美元,而另一个人工智能研究实验室 DeepMind 报告称,2018 年向为700名员工支付了超过4.83 亿美元的薪酬。
除了人才之外,另一项增加人工智能研究成本的是深度学习所需要的算力。在执行任务之前,神经网络必须接受大量示例的训练,这个过程需要昂贵的计算资源。据估计,训练 GPT-3,OpenAI至少要花费460 万美元。而训练深度学习模型并不是一个一次性的过程,有很多反复的试验和超参数调整可能会使成本增加几倍。
所以,当你向ChatGPT提问时,每个答案可以说都是预训练大模型烧钱烧出来的。
OpenAI从非营利转型公司化
从后来的故事看,OpenAI大概是从2019年开始就扛不住烧钱的压力了,这迫使它不得不放弃非营利实验室的主体属性。
2015年,OpenAI刚成立时,埃隆· 马斯克与知名创业公司孵化器Y Combinator 的CEO 萨姆·奥特曼(Sam Altman)立志,以10亿美元的初始资金,打造对人类友好的人工智能,以非营利组织为主体,定期向公众开放AI研究成果和专利,最终让人工智能走向“通用”。
在这样的目标下,OpenAI研发的GPT-1、GPT-2模型均对外开源,向外部开发者共享代码和数据。2018年,马斯克以理念不和为由宣布退出OpenAI,顺带把一些相关研发人员挖去了特斯拉。OpenAI一度被外界调侃成“特斯拉的AI技术人才输送站”。
马斯克的退出或许带来了OpenAI在研发成本上的紧张。奥特曼在2019 年接受采访时曾表示,“我们从未赚取过任何收入,我们目前没有赚取收入的计划,不知道有一天我们会如何创收。”
最终,OpenAI宣布重组,由非营利性的母公司OpenAI Inc和营利性的子公司OpenAI LP组成。至此,OpenAI也从非营利实验室转型为“利润上限”公司,这为投资者和大型科技公司的投资打开了通道,他们的回报上限为投资的 100 倍。
资本很快粉墨登场。2019年7月,微软宣布以10亿美元入资OpenAI。一个重要的前提是,微软有权将OpenAI的部分技术商业化,同时,双方达成一项多年的合作协议,OpenAI开始接入微软的Azure云平台开发AI技术。
微软的入局不仅解决了OpenAI的人力成本之困,还为它带来了算力资源。2020 年 5 月,微软宣布“专门为OpenAI打造世界排名前五的超级计算机之一”。
人才与算力,这两把宝剑直插人工智能研发的核心,成果也是显著的。
2020年,GPT-3完成迭代,拥有超过 1750 亿个参数数据集的新模型为NLP带来重大飞跃,无需微调参数,它可以识别到数据中隐藏的含义,并运用此前训练获得的知识,来执行下游任务。而通过Azure云的API访问,GPT-3出现了商业化用例,包括浏览器、翻译工具、企业服务机器人等。
同年9月,微软宣布获得GPT-3模型的独家授权。这意味着,该模型可以集成到微软的产品和服务中去。
双方的合作也越来越紧密。2021年6月,OpenAI与微软旗下的代码社区Github合作推出了Copilot AI智能代码生成平台,它能将用户的文字语言提示词转化为代码,极大提升了开发人员的工作效率。而该产品是一个付费产品,用户支付年费才可使用。
有了资本的扶持,OpenAI的产品服务走向了多样化,并开始广泛的商业化探索。
2020年9月,OpenAI将AI制图生成器DALL-E开放给所有人使用,用户只要通过电子邮箱注册,就能立即使用这款AI图片生成器。该图片生成器中内置了GPT-3的技术,用户只要输入文字,即可生成超现实主义图片。最近,知名图库平台Shutterstock与OpenAI展开合作,授权后者使用平台内的图片作为素材,训练DALL-E模型。
DALL-E推出之后,市场出现了越来越多的AI文图转化工具,如Midjourney和Stable Diffusion等。目前,企业可以通过API将DALL-E技术直接集成到他们的应用程序和产品中。
从非营利实验室到半营利的公司,OpenAI已经走出了捉襟见肘的时期。2021年,该公司又拿到了2.5亿美金的A轮融资,投资人包括微软、马斯克、谷歌风投、老虎基金等。据The Information报道,七年之后的OpenAI目前的估值已经接近200亿美元,是它2022年预计收入的500-800倍。
微软靠云计算直取AI“水源”
ChatGPT火爆全网之后,要流量有流量,要曝光有曝光,在互联网行业,流量集中的地方,便是资本竞赛的高地,3年前为OpenAI注资10亿美元的微软很难不偷笑。
布局AI,微软早就开始了,甚至从创始人比尔·盖茨活跃的时代就已冒出想法。
早在1991年,比尔·盖茨创建微软研究院时就提出了他对于创造通用人工智能的想法:让计算机能听会讲,能看会想。这与后来OpenAI的AGI目标十分契合。但真正让微软在AI领域崭露头角是2014年新任总裁萨蒂亚·纳德拉(Satya Nadella)的到任。
2014年之前,微软面临着来自智能手机的冲击,业务转型迫在眉睫。那时,个人计算机(PC)市场被智能手机蚕食严重,平板电脑的便利更是让人们开始减少对电脑的需求。这意味着,每少销售一台个人计算机,微软就少获得一笔特许经营手续费。而微软最擅长的软件系统却并没有跟随时代发展,大有被移动端的IOS和安卓操作系统取代的危险。
反击也不是没有过,包括移动端Windows系统的开发、以72亿美元收购诺基亚手机业务等等,微软希望以此在移动互联网市场占据一席之地,但从后来的结果看,成效不佳。
纳德拉上任后,微软开始认识到,错失了移动互联网之后想要重回世界巅峰,需要新的定位。
2014年,原在微软云计算部门担任负责人的萨蒂亚·纳德拉为微软确认了新的发展路线——移动为先,云为先。而大数据、云计算对应地最直接的新场景就是AI。同年4月,微软第一款个人智能助理微软小娜(Cortana)面世,它可以帮助用户设置提醒,无需键盘输入即可识别语音,可以引用Bing搜索引擎提供的信息回答用户问题,并支持多种语言版本和多个平台使用。次月,由微软亚洲工程院推出的微软小冰智能聊天机器人上线,这是由微软中国本土团队推出的AI聊天机器人。
小娜和小冰常被称为微软“机器人姐妹花”,前者针对Windows提供设置日历项、建议、进程等自动功能,另一个则主打语音聊天,在服务用户的同时,根据用户的聊天习惯完成自然语义分析、机器学习和深度神经网络等方面的技术积累,探索人机对话。
2015年,也就是OpenAI刚成立的那一年,微软上线了划时代的Win10系统,除了将Windows系统统一,还增加了人工智能的功能,如嵌入小娜和小冰机器人,让所有PC用户可以直接在新一代操作系统的桌面上直接体验人工智能服务。而基于小冰、小娜背后的智能语音技术也被微软运用到更多的场景中,例如智能客服、语音记录、同步翻译等。
2017年,纳德拉再次转变微软战略,由“移动为先,云为先”转向“智能云、智能边缘计算”,为AI、云计算、数据等领域服务,这也拉开了微软大举进军人工智能的大幕。
要知道,AI产品开发的基础是大量的数据和算力,然后才是分析模型的建立,而云平台为海量的数据存储和计算提供了强大支撑。为此,微软Azure云专为AI产品的开发者和数据研究者提供了一个基础设施平台Azure AI,包含如AI服务接口、算法分析模型等一系列组件,方便用户快速根据应用程序的特点及使用场景开发AI产品。
Azure AI平台
云服务有了,通过云输出的AI技术及各种研究模型的需求需要得到解决。2019年,OpenAI的发展与困境同时出现,以文本软件Office系统闻名世界的微软果断入局。
从自我研发到云服务再到投资,微软的AI布局路线也异常清晰——提供AI的基础设施,通过底层平台吸纳研发成果和产品转化,然后借助已有的商业化体系完成AI布局的商业闭环。
错失移动互联网时代的微软,很显然不会再走入同一条河。AI带来的人机交互时代或为它带来最好的机会,ChatGPT正是一个证明。