红杉资本:生成式人工智能:创造一个全新的世界
快速一览
本文深入分析了生成式人工智能的兴起及其对各个行业的潜在影响。与传统的分析型人工智能不同,生成式人工智能使机器能够创建新事物,而不仅仅是分析现有数据。本文重点介绍了生成式人工智能的潜在好处,包括在社交媒体、游戏、广告、产品设计和法律等广泛行业中更快、更便宜、更好的创造。
此外,本文还确定了生成式人工智能所面临的挑战和风险,包括版权、信任和安全以及成本等问题。尽管存在这些挑战,本文认为,生成式人工智能的潜在价值创造巨大,有可能产生数万亿美元的经济价值,并使数十亿工人更具效率和创造力。
最后,本文呼吁初创企业探索生成式人工智能所呈现的机遇,并建议我们正处于技术平台转型的初期阶段。本文的作者已经在这个领域进行了一些投资,并鼓励创业者与他们联系,以讨论他们的想法。总的来说,本文提供了有关生成式人工智能潜力的全面概述,并呼吁企业家探索这个新兴领域。
原文链接:Generative AI: A Creative New World
Generative AI: A Creative New World
人类善于分析事物。机器甚至更好。机器可以分析一组数据并找到其中的模式,用于多种用例,无论是诈骗或垃圾邮件检测,预测送货时间还是预测下一个要展示的TikTok视频。它们正在变得越来越聪明。这被称为“分析型AI”或传统的AI。
但是人类不仅善于分析事物,我们还善于创造。我们写诗,设计产品,制作游戏和编写代码。直到最近,机器无法在创造性工作方面与人类竞争,它们被限制于分析和机械认知劳动。但是机器刚刚开始擅长创造有意义和美丽的事物。这个新类别被称为“生成型AI”,这意味着机器正在生成新的东西,而不是分析已经存在的东西。
生成型AI正在成为不仅更快、更便宜,而且在某些情况下比人类手工创造的更好。每个需要人类创造原创作品的行业——从社交媒体到游戏、从广告到建筑、从编码到平面设计、从产品设计到法律、从市场营销到销售——都将被重新发明。某些功能可能会完全被生成型AI取代,而其他功能则更有可能从人与机器之间的紧密迭代创意周期中蓬勃发展。但是,生成型AI应该能够在广泛的终端市场上实现更好、更快和更便宜的创作。梦想是,生成型AI可以将创建和知识工作的边际成本降至零,产生巨大的劳动生产率和经济价值——以及相应的市值。
生成型AI涉及的领域——知识工作和创意工作——涵盖数十亿工人。生成型AI可以使这些工人至少提高10%的效率和/或创造力:他们不仅变得更快、更高效,而且比以前更有能力。因此,生成型AI有潜力产生数万亿美元的经济价值。
Why Now?
生成式AI与更广泛的AI一样,存在着“为什么现在”的问题:更好的模型、更多的数据、更强的计算能力。这个领域的变化速度比我们能够捕捉到的还快,但回顾一下最近的历史,可以更好地理解当前的时刻。
第一阶段:小模型统治时期(2015年之前):五年前,小模型被认为是理解语言的“最先进”技术。这些小模型在分析任务方面表现出色,并被用于预测交货时间和欺诈分类等工作。然而,它们对于通用生成式任务来说不够表达。生成人类水平的写作或代码仍然是一个遥远的梦想。
第二阶段:规模竞赛(2015年至今):谷歌研究部门的一篇里程碑式论文 (Attention is All You Need )描述了一种新的神经网络架构,称为transformer,可以生成质量更高的语言模型,并且更易于并行化和训练时间显著减少。这些模型是少样本学习者,可以相对容易地定制到特定领域。
随着模型变得越来越大,它们开始提供人类水平甚至超人类水平的结果。在2015年至2020年期间,用于训练这些模型的计算量增加了6个数量级,并且它们的结果超过了手写、语音和图像识别、阅读理解和语言理解的人类表现基准。OpenAI的GPT-3表现出色:该模型的性能跃升了GPT-2,并在从代码生成到讽刺性笑话编写的任务上提供了令人垂涎的Twitter演示。
尽管所有基础研究取得了进展,但这些模型并不普及。它们体积庞大,运行困难(需要GPU协同),不易获得(仅限不可用或封闭Beta版),且作为云服务使用昂贵。尽管存在这些限制,最早的生成式AI应用程序开始进入竞争。
第三波:更好、更快、更便宜(2022+):计算变得更便宜。新技术,如扩散模型,将训练和运行推断所需的成本缩小。研究社区继续开发更好的算法和更大的模型。开发者的访问范围从封闭Beta扩展到公开Beta,或在某些情况下,开源。
对于一直被禁止访问LLMs的开发者来说,现在他们可以探索和应用开发的大门已经敞开。应用程序开始蓬勃发展。
第四阶段:杀手级应用崛起(现在):随着平台层的巩固,模型不断变得更好、更快、更便宜,并且模型访问趋势向免费和开源,应用层正处于创造力爆发的时期。
就像移动应用通过GPS、相机和随时随地的连接等新功能释放了新类型的应用程序一样,我们期望这些大型模型将推动一波新的生成式AI应用程序的出现。就像移动的拐点在十年前为一些杀手级应用程序创造了市场机会一样,我们期望杀手级应用程序将为生成式AI应用程序带来崛起。比赛开始了。
正如模型越来越大,它们开始提供人类水平,然后超人水平的结果。 就像移动设备通过GPS、摄像头和随时随地的连接新能力推出了新类型的应用程序一样,我们期望这些大型模型将激发新一轮生成式AI应用程序的浪潮。
Market Landscape
以下是一个图表,描述了将驱动每个类别的平台层以及可能构建在其上的应用程序类型。
模型
- 文本是最先进的领域。但是,自然语言很难正确理解,质量很重要。如今,模型在通用的短/中篇写作方面表现相当不错(但即使如此,它们通常用于迭代或初稿)。随着模型的不断改进,我们应该期望看到更高质量的输出、更长的内容和更好的垂直专业调整。
- 代码生成可能会在短期内对开发人员生产率产生重大影响,GitHub CoPilot已经证明了这一点。它也会使非开发人员更容易地创造性地使用代码。
- 图像是一个相对较新的现象,但它们已经走红了:在Twitter上分享生成的图像比文本更有趣!我们正在看到具有不同审美风格的图像模型的出现,并且有不同的技术来编辑和修改生成的图像。
- 语音合成已经存在一段时间了(你好Siri!),但消费者和企业应用程序刚刚开始变得更好。对于像电影和播客这样的高端应用程序,单次人类质量的语音要求相当高,不要听起来像机械声。但就像图像一样,今天的模型为进一步的细化或实用应用程序的最终输出提供了起点。
- 视频和3D模型正在快速发展。人们对这些模型释放巨大的创造性市场,如电影、游戏、VR、建筑和物理产品设计感到兴奋。研究机构正在发布基础3D和视频模型。
- 其他领域:许多领域都在进行基本模型研究和开发,从音频和音乐到生物学和化学(生成蛋白质和分子,有人吗?)。
下面的图表说明了我们可以预期看到基本模型进展及其相关应用的时间表。2025年及以后只是一个猜测。
应用以下是我们非常期待的一些应用程序。我们没有在此页面上捕捉到所有的应用程序,我们对创始人和开发人员想出的有创意的应用程序感到着迷。
- 文案写作:由于燃料销售和营销策略以及客户支持的个性化网站和电子邮件内容的不断增长需求,语言模型是完美的应用程序。这些团队的简短和风格化措辞以及时间和成本压力的结合应该会推动对自动化和增强解决方案的需求。
- 垂直特定写作助手:大多数写作助手今天都是水平的;我们认为有机会为特定的终端市场构建更好的生成应用程序,从法律合同写作到编剧。在这里的产品差异化在于模型的微调和特定工作流程的UX模式。
- 代码生成:当前的应用程序可以让开发人员快速提高生产效率:GitHub Copilot现在在安装了它的项目中生成了近40%的代码。但更大的机会可能是为消费者开放编码的访问权限。学习提示可能会成为最终的高级编程语言。
- 艺术生成:整个艺术史和流行文化的世界现在都编码在这些大型模型中,使任何人都可以随意探索以前需要花费一生才能掌握的主题和风格。
- 游戏:梦想是使用自然语言创建可调整复杂场景或模型;这个最终状态可能还有很长的路要走,但近期还有更多可行的选择,例如生成纹理和天空盒艺术。
- 媒体/广告:想象一下自动化代理工作和动态优化广告文案和创意的潜力,以适应消费者的需求。在这里,多模式生成的机会很大,可以将销售信息与互补的视觉元素匹配。
- 设计:原型数字和实物产品是一项劳动密集型和迭代的过程。从粗略的草图和提示中生成高保真度渲染已经成为现实。随着三维模型变得可用,生成设计过程将延伸到制造和生产——从文本到对象。您的下一个iPhone应用程序或运动鞋可能是由机器设计的。
- 社交媒体和数字社区:有没有使用生成工具表达自己的新方式?新的应用程序,如Midjourney,正在创建新的社交体验,因为消费者学会在公共场合创作。
生成型AI应用程序的解剖
生成型AI应用程序将是什么样子?以下是一些预测。
智能和模型微调
生成型AI应用程序是建立在大型模型,如GPT-3或稳定扩散之上的。随着这些应用程序获取更多的用户数据,它们可以微调其模型,以:1)提高其特定问题空间的模型质量/性能;2)降低模型大小/成本。
我们可以将生成型AI应用程序视为UI层和“小脑”层,位于大型通用模型作为“大脑”的顶层。
形式因素
今天,生成型AI应用程序主要存在于现有软件生态系统的插件中。代码完成发生在您的IDE中;图像生成发生在Figma或Photoshop中;甚至Discord机器人也是将生成型AI注入数字/社交社区的容器。
还有一些独立的生成型AI网络应用程序,例如Jasper和Copy.ai用于撰写文案,Runway用于视频编辑,以及Mem用于笔记。
插件可能是将自己的应用程序引导入市的有效楔子,也可能是解决用户数据和模型质量鸡蛋问题的明智方式(您需要分发以获得足够的使用量以改善模型;您需要良好的模型来吸引用户)。我们已经看到这种分发策略在其他市场类别中取得了成功,如消费/社交。
交互范式
今天,大多数生成型AI演示都是“一蹴而就”的:您提供输入,机器吐出输出,您可以保留它或丢弃它并重试。越来越多的模型变得更加迭代,您可以使用输出来修改、精细、升级和生成变体。
今天,生成型AI输出被用作原型或初稿。应用程序非常擅长吐出多种不同的想法,以启动创造性过程(例如,徽标或建筑设计的不同选项),它们非常擅长建议需要由用户微调以达到最终状态的初稿(例如,博客文章或代码自动完成)。随着模型变得更加智能,部分基于用户数据,我们应该期望这些草稿变得越来越好,最终达到可以用作最终产品的水平。
持续的类别领导
最好的生成型AI公司可以通过在用户参与/数据和模型性能之间的飞轮上无情地执行来产生可持续的竞争优势。要赢得胜利,团队必须通过1)具有卓越的用户参与度→2)将更多的用户参与转化为更好的模型性能(提示改进,模型微调,用户选择为标记的训练数据)→3)使用出色的模型性能来驱动更多的用户增长和参与。他们可能会进入特定的问题空间(例如,代码、设计、游戏),而不是试图成为每个人的万能工具。他们可能首先深入整合到应用程序中,以获得杠杆和分发,然后尝试用AI本地工作流程替换现有应用程序。建立这些应用程序需要时间以正确地积累用户和数据,但我们相信最好的应用程序将是耐久的,并有机会变得巨大。
障碍与风险
尽管生成式人工智能有着潜在的优势,但在商业模式和技术方面仍有许多问题需要解决,例如版权、信任与安全和成本等重要问题远未得到解决。
眼界放宽
生成式人工智能仍处于非常早期的阶段,平台层刚刚开始发展,应用领域也仅仅起步。
需要明确的是,我们不需要大型语言模型来写托尔斯泰的小说,以充分利用生成式人工智能。这些模型今天已足够好,可以撰写博客文章的初稿,生成标志和产品界面的原型。在近中期内将产生大量价值创造。
第一波生成式人工智能应用类似于iPhone首次推出时的移动应用程序景观,有点花哨和单薄,缺乏明确的竞争差异化和商业模式。然而,其中一些应用程序提供了有趣的预示,展示了未来可能的情景。当你看到机器能够生成复杂的功能代码或精美的图像时,很难想象未来机器不会在我们的工作和创造中发挥基本作用。
如果我们允许自己展望数十年后,那么很容易想象生成式人工智能会深深嵌入我们的工作、创造和娱乐方式中:自动撰写备忘录;3D 打印任何你能想象的东西;从文本进入像皮克斯电影那样的世界;像 Roblox 那样的游戏体验能够像我们梦想那样快速生成丰富的世界。虽然这些体验今天看起来像是科幻,但进展速度非常高——我们已经在数年内从狭窄的语言模型发展到了代码自动完成,如果我们继续按照这种速度变化并遵循“大型模型摩尔定律”,那么这些遥不可及的情景可能会成为可能。
呼叫创业公司
我们正在经历一次技术平台转移的开始。我们已经在这个领域做出了一些投资,我们非常支持在这个领域建立雄心勃勃的创业公司。
如果您是创始人,并想要见面,请发送电子邮件至 sonya@sequoiacap.com 和 grady@sequoiacap.com。
我们迫不及待地想听听您的故事。
PS:这篇文章是与GPT-3共同写作的。GPT-3没有完全吐出整篇文章,但它负责解决写作障碍,生成完整的句子和段落,以及对生成式人工智能的不同用例进行头脑风暴。与GPT-3一起撰写本文是人机共创互动的美好滋味,这可能会成为新的常态。我们还使用Midjourney生成了本文的插图,这非常有趣!