“今天，所有 VC 的会上都在谈 Sora”

巴比特

2024-02-19 17:30

来源链接

订阅此专栏

收藏此文章

图片来源：由无界 AI 生成

仿佛梦回 2023。去年年初，ChatGPT 引发了普通人澎湃的讨论热情，此后海内外在 AI 大模型投资上展开了军备竞赛。

龙年刚一开年，OpenAI 又打开了新局面。这次火的是文生视频。2 月 16 日凌晨，OpenAI 发布了文生视频大模型 Sora。Sora 能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。

这类应用早就有了，但 Sora 的呈现仍然惊艳，视频中的主体稳定可控，可实现多角度切换，时长方面也突破，最长能生成 60 秒视频。

不愧是 OpenAI。尽管 Sora 仍处于开发早期阶段，但它的推出已经标志着生成式 AI 迎来一个里程碑。

资本端同时传来新消息。在完成最新交易后，OpenAI 的估值已飙升至 800 亿美元以上。这笔交易来自于 Thrive Capital 精心策划的要约收购。

尽管 OpenAI 和 Thrive Capital 对此皆不予置评，但小红书博主“Shannon”昨天发的帖子很有情绪的代表性，“明天所有 fund 开会的议题都有 OpenAI 的 Sora”。

只不过，和去年相比，投资人的心态变了。不是人人都有机会投中 OpenAI，但 OpenAI 的能力边界却实实在在影响着一批创业公司和背后的投资人。

“水到渠成”和“令人发指”

首先需要明确，“文生视频大模型”并不是一条全新的赛道。在 OpenAI 登场之前，头部大模型研发商几乎都拥有自己的文生视频大模型，例如 Google 的 Lumiere 以及 Stability AI 的 SVD（Stable Video Diffusion），甚至已经诞生了垂直于多媒体内容创作大模型的独角兽，例如视频生成大模型 Gen-2 的开发商 Runway，在 2023 年 6 月底完成由 Google、Nvidia、Salesforce 参与的 C 轮融资后，估值超过 15 亿美元。

更重要的是，上述已有的“视频大模型”，隐隐有了生产力工具的影子。

以 Runway 为例，与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同，Runway 的三名创始人 Valenzuela、Alejandro Matamala 和 Anastasis Germanidis 来自于纽约大学艺术学院，他们共同看到了“人工智能在创造性方面的潜力”，于是决定共商大计，开发一套服务于电影制作人、摄影师的工具。

这层基因打底，相比科技公司的“车库文化”，Runway 的发展轨迹更像“横店影视城奋斗史”：先开发了一系列细分到不能再细分的专业创作者辅助工具，针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求；随后参与到图像生成大模型 Stable Diffusion 的开发过程中，积累 AIGC 在静态图像生成方面的技能点，并获得了参与《瞬息全宇宙》等大片制作的机会——这些影片在宣发中曾经有过详细描述，出品人们感叹他们的加入让后期团队“保持了一个超乎常规的小规模”状态，影视同行们惊叹很多许多复杂的特效制作（比如《瞬息全宇宙》里那两块对话的石头），工期已经从“好几天”缩短到了“几分钟”。

等到 2023 年 2 月，Runway 发布第一代产品 Gen-1，普通用户已经能通过 iOS 设备进行免费体验，范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能，还包含了“文本转视频”，从而使得 Gen-1 成为了首批投入商用的文生视频大模型；2023 年 6 月，他们发布了第二代产品 Gen-2，训练量上升到了 2.4 亿张图像和 640 万段视频剪辑。

2023 年 8 月，爆火 B 站、全网播放量超过千万、获得郭帆点赞的 AIGC 作品《流浪地球 3 预告片》正是基于 Gen-2 制作。根据作者@数字生命卡兹克在个人社媒上的分享，整段视频的制作大体分为两部分——由 MidJourney 生成分镜图，由 Gen-2 扩散为 4 秒的视频片段——最终获得素材图 693 张、备用剪辑片段 185 条，耗时 5 天。半年之后，@数字生命卡兹克再次通过“MJ V6 画分镜 -Runway 跑视频”制作了一段 3 分钟的故事短片《The Last Goodbye》，投稿参赛 Runway Studios（Runway 专门为企业级客户提供定制化服务的部门）所组织的第二届 AI 电影节 Gen48。

换句话说，实际上至少在一年以前，“文生视频大模型”就已经拥有足够的关注度，其目前用户规模也被远远低估。

Runway 的联合创始人 Valenzuela 在 C 轮融资后透露，除了像 New Balance 这样的世界 500 强客户，他们还拥有“数百万个人创作者”。

除此而外，Sora 所展现出来的“精准的物理世界还原能力”，也并不是 OpenAI 独自探索的 AI 领域。马斯克就在 Sora 发布的两天半后，也就是 2 月 18 日，在科技播客栏目“DrKnowItAll”里留言，“这种精准还原现实世界物理规律的虚拟世界生成能力，特斯拉已经差不多快掌握一年了……只不过因为素材来自车载摄像头，所以视频看上去没那么有趣”。

OpenAI 在同期发布的技术论文《Video generation models as world simulators》也明确 Sora 更像是“数据驱动的物理引擎”，通过大模型的持续扩散来“高性能地模拟物理世界或者数字世界中的人、动物、其他物体”，因此仍然拥有“同行们都会面临”的局限性，例如“很难准确模拟复杂场景的物理原理，并且无法理解因果关系，比如 Sora 生产一段人咬饼干的片段，饼干可能不会出现咬痕”。

真正带来压迫感的，或许是 Sora 不可思议的进化速度。

从技术层面看，无论是“拥有精准物理规则的真实世界”“支持 60 秒视频生成”还是“单视频多机位”都可以被形容为水到渠成，然而正如上面所提到的——如今看起来傻傻的、只支持生成“4 秒视频生成”并且“掉帧明显到像幻灯片”的 Gen-2 其实是 2023 年 6 月发布的产品，距离 Sora 的发布日不过 8 个月。

2023 年 11 月，Meta 发布的视频生成大模型 Emu Video 看起来在 Gen-2 上更进一步，能够支持 512×512、每秒 16 帧的“精细化创作”，但 3 个月之后的 Sora 已经能够做到生成任意分辨率和长宽比的视频，并且根据上面提到的开发者技术论文，Sora 还能够执行一系列图像和视频编辑任务，从创建循环视频到即时向前或向后延伸视频，再到更改现有视频背景等。

而如果要死磕这种不可思议的进化速度，除了“神秘的外星文明”，最现实的解释恐怕只有“海量烧钱”。

作为 Runway 半个领路人的 Stability AI 近两年周期性地遭遇“现金流压力”，一会儿传闻高层正在积极探索出售公司，一会儿又流传着早期投资者 Coatue Management 的内部信，直指“Stability AI 的财务状况令人担忧”，建议 CEO Emad Mostaque 原地辞职。最揪心的传闻是，为了让亚马逊相信自己不会拖欠高达 7500 万的云服务费用，身为前对冲基金经理的 Emad Mostaque 选择以个人财产作为担保。

然而从融资的角度看，Stability AI 做到了赛道的天花板，其在 2022 年 10 月完成超过 1 亿美元的融资后，估值早早来到了独角兽级别。Emad Mostaque 在去年 7 月的一次采访中忍不住直发狂暴言论，他说：“Bard AI 只是因为在宣传片中提供了不准确的信息，就造成了每天超过 1000 亿美元的损失……人工智能作为基础设施所需的投资总额可能为 1 万亿美元，这会是人类有史以来最大的泡沫”。

知乎上，一位叫做“像素炼金师”的创业者坦承了他在目睹 Sora 发布后的心路历程：“我有些害怕科技巨头的产品像隆隆火车一样驶过，而我做的东西如同路边的野草一样，在这个技术进步就像跑马灯一样的时代里，留不下一丝痕迹。”

估值 800 亿和领头羊的边界

无论怎样，OpenAI 再次印证了 AI“巨无霸”的地位。看似无远弗届的能力，支撑其估值在不到 10 个月的时间里增长了两倍。CB Insights 的数据显示，OpenAI 目前是世界上最有价值的科技初创企业之一，仅次于字节跳动和 SpaceX。

拓展模型能力的同时，OpenAI 还在推进多元化的战略。尤其是在半导体领域，奥特曼正与潜在投资者、半导体制造商和能源供应商等各种利益相关者接触。他甚至在考虑成立一家独立于 OpenAI 的新公司，进入 AI 芯片行业。

这笔交易也揭示了，奥特曼之于 OpenAI，仍然是不可或缺的角色。原本在去年 11 月，OpenAI 便将敲定最新的融资交易，但当时奥特曼遭遇了解雇风波。交易有没有受到影响不知道，总之结果是，770 名员工中的 700 多人最终签署了请愿书，要求他复职。

细看这轮融资，不是发行新股，而是准许 OpenAI 员工对外出售所持股份。这对于 OpenAI 来说并不新鲜。2023 年，Thrive Capital、红杉资本、Andreessen Horowitz 和 K2 Global 等风险投资巨头也采取了类似的做法，参与 OpenAI 的要约收购，当时该公司的估值已经达到 290 亿美元。

那么，OpenAI 的边界在哪里？

这个问题不仅事关 OpenAI 的估值，也关乎大大小小生成式 AI 创业公司的前景。

原本在视频生成这个赛道上，海外已经有几家创业公司卡位。最知名的莫过于前文所述的 Runway。另一个领头羊是 Pika，创立于去年 4 月，11 月宣布完成了总计 5500 万美金的 A 轮及天使轮融资，估值达 2.5 亿美元。Pika 由郭文景和孟晨琳共同创立，两人都曾是斯坦福大学人工智能实验室的博士生，履历亮眼。郭文景还被誉为“华裔天才少女”。

OpenAI 会冲击这些公司吗？别急，Sora 公开后，有海外博主已经对几家公司的产品做了对比。他给 Sora、Pika、Runway 和 Stable Video 四个模型输入了相同的 prompt。结论是，Sora 在生成时长、连贯性等方面都有显著的优势。

必须要说，这几家做文生视频的公司都开发了自己的大模型，而非纯粹的基于别人的大模型来开发应用场景的那类公司。但即使有技术护城河，要抵挡 OpenAI 的冲击也没那么容易。

当然，这并不是说，纯做应用的公司完全没有前途了，背后也许涉及到一个发展阶段的问题。

去年，红杉资本的两位合伙人再次发表文章，复盘一年前自己对市场的看法。他们指出，其中一个预测错误是，垂直分离尚未发生。“我们仍然相信应用层公司和基础模型提供商之间会有分离，模型公司专注于规模和研究，应用层公司专注于产品和 UI。但在实际上，这种分离还没有干净利落地发生。最初面向用户的应用中，最成功的那些都是垂直整合的公司。”

国内也是类似的局面

有投资人告诉我，他们关注的一家 AIGC 公司也在开发基于特定产业数据的独有的模型，而不是仅仅调用别人的 API。“不然很难指望他们在应用层面做出真正差异化的东西。”

回头看，过去一年，OpenAI 的每一次技术突破，都会拓展资本对它的想象空间，但同时也堵上一部分创业公司的前进之路。

“AGI 去年已经把软件行业毒死了。现在公众只是在目睹毒发的过程。”有创业者在转发一则 Sora 的消息时，在朋友圈评论道。

所以，AI 投资难，尤其是应用层。“重点还是界定清楚，什么东西能在大模型的演进过程中受益，什么东西又在大模型演进过程中被瓦解。”一位 AI 投资人曾模糊地告诉我。但 OpenAI 的超能力使得这个关键问题没那么容易预判。

再看大模型。《北京最火独角兽翻 6 倍了》一文写过，智谱 AI 去年一年的估值翻了已经翻了 6 倍多，已经有投资人给出 200 亿估值。我最近也听说，百川智能和 MiniMAX，最近都传出新一轮融资已到位的消息。OpenAI 出新招，这些公司不可能不焦虑。好在弹药尚且充足。Sora 的诞生，无疑又将引发新一轮追赶。

借着 Sora 火热，AI 的相关概念必将再炒一波，尤其是英伟达这类充当卖水人，又可以大赚一笔了。但对于一级市场的创业者和投资人而言，我只能说，暂时，继续卷罢。

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦 AIGC 领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~

AI 新智界园区开放合作啦！

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

推荐专栏