大厂和创企,谁能跑出中国Sora?

发布时间:2024-11-25 14:22:01 来源: sp20241125

  中国新闻周刊记者 王诗涵

  发于2024.3.18总第1132期《中国新闻周刊》杂志

  Sora横空出世的当夜,AI圈集体失眠。有人认为这是“降维打击”,也有人乐坏了。

  “我们特别开心。过去的一年,我们始终坚信视频生成是件大事,认为它会对整个世界产生巨大冲击和影响,但是没有多少人信我们,我们花费了很多唇舌去教育市场。”爱诗科技创始人、CEO王长虎对《中国新闻周刊》说。

  距离OpenAI发布Sora已近一个月,中国玩家当前表现如何?据不完全统计,至少已有15家中国大厂和创业公司陆续推出了AI视频工具,其中有诸多产品已面向全球市场发行。

  涉及Sora核心技术的相关论文,早在2022年就已发布。Sora出现前,视频生成领域投资环境的冷遇已久;Sora出现后,创业者们在验证技术信仰的同时,也将面临更残酷的市场竞争。与此同时,AI创投圈对大模型的观点争论仍在持续,兴奋与谨慎的心态始终交织。

  但显然,AI视频的融资风口期已经到来了。3月11日,爱诗科技宣布完成亿级人民币A1轮融资,由达晨财智领投;同时国内版文生视频产品“爱诗视频大模型”上线内测。

  “作为最前沿的探索者,要尝试很多技术路线,Sora的出现减少了我们的试错成本。”王长虎说道。

  在受访者看来,当规模定律成为行业的公开秘密,文生视频大模型的竞赛也变成了“明牌游戏”,在未来,是否能持续具备足够的资源,将成为牌桌上的重要筹码。接下来留给中国企业的最大未知数在于:中国的大厂和创新企业,谁能跑出中国Sora?谁最有希望成为这条赛道上的头部企业?

  创业者们的技术信仰被验证了

  在众多创业者眼里,继ChatGPT后,Sora再次开启了人类通往AGI(通用人工智能)道路的一扇门。

  “AI本质上是创造另一个生命和文明,人类正处于创造它的前夜。Sora意味着人类可能刚找到它的眼睛,尝试着把它拼上去。”创业者Max向《中国新闻周刊》解释,具备自我意识的AGI需要多模态,目前,相较于语言模型的读写能力,AI在“眼睛(图像视频)”和“耳朵(音频)”两方面的发展相对滞后。

  北京时间2月16日凌晨,OpenAI发布文生视频大模型Sora,样片显示出Sora在基本视频生成、多模态生成、视频编辑、世界模拟等能力项上的超越式成果,也验证了时空编码(spacetime patches)和DiT模型(Diffusion与Transformer模型结合)技术路线的成功。

  带来“降维打击”的Sora,树立了文生视频大模型领域的技术标杆,引发市场关注的同时,也将加速视频生成赛道的技术发展与产品进度。对于创业团队来说,则意味着此前苦苦坚持的技术信仰得以验证。

  “此前,用户数量的快速增长已经让我们感知到了判断的正确,Sora再添了一把火,更加验证了我们一开始的信仰。”王长虎感叹。

  Sora发布的同一晚,谷歌也发布了多模态AI大模型Gemini,可实现100万token(词元)上下文能力。“我当时很激动。两个消息一起出来,说明规模定律还在起作用。我们不知道大模型明年还会跳到什么样,但只要继续成长,对投资人都是一种利好,我们手里项目的能力会更强,可以做更多的事情。”峰瑞资本投资合伙人陈石回忆道。

  规模定律是属于OpenAI的“暴力美学”。从语言模型到多模态模型,OpenAI相信scale(规模)的力量,认为遵循“大模型、大数据、大算力”的法则,模型性能会持续提升,根据特定算法,则产生智能“涌现”的能力。

  在过去,在AI领域,创业的门槛和难度高于其他赛道:海内外的无数创业者不懈地在这一领域堆叠技术与灵感,寻找技术理想与商业可能的交汇点,他们随时可能向世界突然丢下一颗炸弹,再度引爆一场颠覆性的科技革命。

  而当下,这些“炸弹”来得更密集和猛烈了。

  “这轮AI行情有个突出的特点,就是‘天底下没有秘密’。”陈石表示,从GPT-3、GPT-3.5到GPT-4以及Sora,产品发布不久后,其原理和算法很快就被大致猜中或主动公开,最后都归因于规模定律,而这并不具备强大壁垒,前提是有钱买GPU卡,也需要人才、数据和工程方面的积累。

  此前,海内外大厂与创企已经跑出诸多AI视频大模型产品。海外团队方面,有Runway的Gen-1和2、Pika Labs的Pika、Stability AI的Stable Video Diffusion、Meta的Emu Video、李飞飞团队和谷歌合作的W.A.L.T等。国内创企方面,则有爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI等;国内大厂则有阿里、百度、腾讯、字节等入局。

  可预见的是,接下来这场“明牌游戏”里,AI视频大模型的竞争也将愈加“残酷”。“大家都意识到需要更多的资源,留在牌桌上的价码越来越高。在前一阶段未能及时拿到融资的团队,未必就有机会留下了。”王长虎说。

  陈石认为,当前,做大模型的公司需要重新思考定位:倘若继续探索基础引擎,需要在跟随技术路线的同时找到与Sora不同的切入点;倘若转向垂类模型或商业应用场景,则需要构建自己的技术壁垒或业务壁垒。

  “投不投大模型?”

  “去年成立团队的时候,整个投资环境对视频生成没有太大信心。我们把嘴皮子磨破后发现,想说服投资人很不容易,很少的投资人认可并投入了我们。Sora出来之后,我们也有遗憾,如果在过去一年拿到了更多的资源,也许Sora会是我们自己做出来的。”王长虎坦言。

  “投不投大模型?”或是2023年甚至2022年以来投资人们一直在思考的问题。而投资观点的分野,并未在Sora出现后发生改变。近日,腾讯新闻《潜望》发布的两篇人物访谈引起了AI创投圈的普遍共鸣,月之暗面创始人、CEO杨植麟和金沙江创投主管合伙人朱啸虎的观点,分别被认为是“技术信仰派”和“市场信仰派”的代表。

  多家大模型初创企业公布自去年第二季度以来完成的融资信息。2023年4月,HiDream.ai智象未来完成种子轮融资,于12月完成由科大讯飞领投的天使轮融资。5月,Morph Studio完成数百万美元种子轮融资,由BV百度风投单独投资。6月,右脑科技完成数千万元天使轮融资,由光速光合领投,奇绩创坛等跟投。

  新一轮融资已在今年加速。爱诗科技于去年8月完成数千万元人民币天使轮融资;今年3月11日,完成亿级人民币A1轮融资,由达晨财智领投。生数科技分别于去年6月和8月完成天使轮和天使+轮融资;今年3月12日,再完成新一轮数亿元融资,由启明创投领投,达泰资本、智谱AI、BV百度风投等继续跟投。

  “在一年前本次AI浪潮涌现之时,我们就相信AI视频生成将成为新的巨大机会,断定它将对内容生产和消费的全部相关行业产生颠覆性的影响,中国也将涌现出具备奠基意义的AI产业企业。”光源资本创始人、CEO郑烜乐说。该机构参与了爱诗科技的早期孵化。

  “当投资界不认为这是大事或能短期做成的时候,我们有自己信仰和坚信的东西。一年前倘若被不同的声音所左右,我们做不出来PixVerse,也无法走到现在。”王长虎认为,“创业需要有长期的视角。创业者要做的,是非共识而正确的事。”

  但投资人有自己看问题的视角。由于每只基金的投向受到资金来源、项目退出和收益要求、现实情况等因素影响,投资人有各自的立场:大手笔投向大模型的仍是少数,大多数投资人对模型层项目的态度相对谨慎,更倾向于寻找已经找到或看到落地场景的应用端项目。“做通用大模型的企业在商业化上可能是很难找到合理路径的,这一点连OpenAI自己都没有解决。”创业者Max说道。

  为此,创企都在寻找自己的路径。以爱诗科技为例,公司在未来计划分两步走:在第一阶段面向创作者,提供优质视频生成服务,更好地理解创作者动机,同时直接面向用户,接受用户反馈进行迭代;在第二阶段则面向消费者,在提供工具的基础上,打通创作和消费全流程,提供AI原生的可消费内容。

  事实上,Sora类的底层通用大模型与应用层的垂类模型或应用之间的根本区别在于,前者是“0~1”,需要跨越科技进步的早期高门槛,专注核心技术的突破;后者则是“1~10”,是在通用大模型的基础上找到具体的应用,更注重商业场景的认知与建设。

  “去年我们看了很多文生图、文生视频、文生3D的项目,但通用大模型我们都没有投。多模态的输入输出,看起来不一定是创业公司能做的,因为这是大模型公司的必经之路。”峰瑞资本投资合伙人陈石回忆道。

  Morning Trail Investment 合伙人周欣华则认为,大模型竞争激烈,用户黏性低,垄断可能性低而成本太高,还是重复造轮子,可能刚造出来就被迭代了。“巨头扔出王炸、创企一夜团灭的情况并非第一次,往往会对创业项目和投资人带来致命打击。”她认为,Sora横空出世,显得Pika就很鸡肋;而谷歌的Gemini 1.5、Meta杨立昆的V-JEPA架构、Stability AI的Stable Diffusion 3,也是当前潜在的Sora围剿势力。

  “重复造轮子”后被迭代的高风险,是投资人对模型端的普遍担忧。“最大的悲哀可能是,我们造轮子造出的闭源模型比不过别人的开源模型。”陈石补充说道。

  “要想在底层投资上走到最后,确实需要庞大的资金、人才和资源,资源则包括算力、数据和场景,所以硅谷大厂都在投大模型公司。在当前国内的资本环境下,互联网大厂或市场化VC基金都不一定能有做散财童子的底气,很难在商业模式不清晰、投资成功概率不高的情况下把大模型投资进行到底。”周欣华说。

  从大环境看,资本谨慎的趋势已久。CVSource投中数据显示,截至2024年2月,中国VC/PE市场投资规模总达67.74亿美元,同比下降28.83%;近3个月的投资案例数量和规模整体均呈现下跌趋势。

  不过,在创投寒冬中,AI领域的投资规模在细分领域中仍最为突出,在2月高达11.06亿美元。“Sora的话题度引爆了关注,文生视频的团队普遍受到热捧,但整体来讲其他AI项目融资的难度可能还是和以前差不多。”创业者Max表示。

  对于普通创业者来说,提高自身造血能力,存活下来是当前的首要目标。“先在不确定性中找到一些商业上的确定性,可以再去追求产品长远的价值。在变动期,先上车是最重要的事情。”目前正在做AI视频创业项目的Fimmo分享道。

  上述投资人都更倾向于看好商业模式清晰、落地场景明确的应用层项目。陈石表示,团队投资的应用项目同商业实践结合紧密,并具有自己的业务纵深。

  “但是,当前很多应用层的项目用AI炫技的成分居多,可能触及了用户的痒点,却不是痛点。”周欣华指出,在无法一步到位的情况下,一些过渡状态可能存在机会。她总结了当前应用层项目的几大优势方向:其一,商业场景用AI嵌入工作流,用AI参与过程,从而更容易落地项目;其二,善用大模型在用户交互方面、小模型在私密性和垂直领域Know-how把握方面的优势,将大、小模型结合的垂类应用项目;其三,利用AI的能力,使出海拓展更加高效可行的项目。

  “应用层项目还有一点利好在于,头部的大模型还在追求AGI的星辰大海,暂时不会花过多时间去做过多的商业场景定制。”陈石分析,“因此,应用层创业者还是要找到自己的生态位,要跟大语言模型保持‘安全距离’,不要迎面撞向它的必经之路,要找到自己技术或业务的纵深。”

  大厂“低调”布局

  “这个事情还是挺烧钱的,大厂抬升了大模型项目的估值,他们最终可以找到人去买单,我们如果投了,找谁来买单,这是最大的问题。”投资人李童表示。

  模型竞赛的主力军,必然是拥有算力、资金、数据和人力优势的大厂。业内人士普遍认为,底层投资需要庞大的资金量和资源,而大厂有实力也有责任重视这场竞赛。 

  去年以来,中国大厂已然动作频频,在推进语言模型的同时布局视频生成模型业务。尤其在岁末年初,步伐加速显著。2024年1月17日,腾讯AI Lab再推出VideoCrafter2,实现文生视频和图生视频。1月19日,百度推出视频生成模型UnivG,支持文字和图像组合输入,针对高自由度和低自由度两种任务分别采用不同的生成方式,项目由百度文心一格总架构师肖欣延领衔。阿里巴巴通义实验室则开发了开源视频生成模型和代码系列 VGen。2023年11月,阿里在论文中宣布开源图生视频模型 I2VGen-XL;12月,推出文生视频开源大模型ModelScopeT2V,模型和代码完全开源。

  字节跳动也紧跟步伐。今年1月,字节跳动发布文生视频大模型MagicVideo-V2。2月20日左右,字节低调推出视频模型产品Boximator,可通过文本控制生成视频中人物或物体的动作,但字节方面很快回应称,“Boximator目前还无法作为完善的产品落地,距离国外领先的视频生成模型还有很大差距”。

  2月7日,抖音集团CEO张楠辞任,表示未来将聚焦剪映业务押注生成式AI。2月23日,字节在海外版剪映Capcut推出了有独立主页的AI视频生成功能,短暂释出后下线。而近日,剪映旗下AI创作平台Dreamina的视频生成功能也已开放内测邀请。

  此外,上市公司所推出的产品还包括万兴科技的万兴“天幕”大模型、美图的MiracleVision的奇想智能大模型等等。

  当规模定律成为行业共识,大厂的重视程度,以及在算力、模型、数据上的资源投入和堆叠能力,成为了衡量成功可能性的重要因素。

  基于此,部分AI创业者看好字节跳动。据财联社报道,截至去年9月,字节已建立超过一万张英伟达Ampere架构GPU集群,目前正在建设Hopper架构的集群。“字节是国内为数不多有‘万卡集群’算力资源优势的公司。”创业者Max认为,字节的视频数据量在世界范围内处于领先地位,也是相对年轻的大厂,看好其对战略布局的敏感度。“有剪映及其海外版的加持,字节在短视频和个人生产力工具上有优势地位,至少它不会是国内大厂中做得最差的。”创业者Fimmo补充。

  不同于在互联网时代找准生态位、创造出现象级应用的辉煌,字节在大模型时代仍然处于追随者的位置。1月底,字节跳动CEO梁汝波在全员会的发言中多次提到“危机感”,“字节跳动目前的业务有非常大的惯性,哪怕团队不额外努力,公司仍然可以依赖惯性滑行很长一段时间,但这是很危险的。”他说。

  陈石认为,轻易地作出判断有些“想当然”。尽管当前每家大厂都很重视,“出牌”策略也不尽相同,但毕竟先是一个做“复制”的过程,最终可能都会趋同,“中国的大厂可能本质区别不大,主要的差距和限制是能买到多少张GPU卡”。据他预测,在2024年末或2025年初,或就能见证大厂对Sora的复现。

  但他也同时强调,大厂“必须要跟,要超越”。“有决心、有实力的大厂需要足够重视。头部的公司首先要具备闭源的能力,不能依赖于开源,在这一基础上把生态堆起来。可以在这个位置等一等,当未来的算力成本越来越低的时候,继续挑战往上走,这样的情况就比较理想。”陈石说。

  关于生成式AI,手机大厂的思路则与互联网大厂有所不同。“作为智能终端厂商,我们不能将互联网应用服务厂商的事情作为自己的方向,而是要用AI重构操作系统。未来在手机上可以有各种各样大模型出现,手机提供算力接口,帮助更多的‘Sora’高效运行。”荣耀CEO赵明对《中国新闻周刊》表示。

  中国Sora花落谁家?

  那么,倘若中国大厂和创企都“铆足了劲”追平或超越Sora,谁能抢先为之?

  “中国的大模型现阶段还处于跟随状态,且参与者众多,未来的分化与进展并不好预测。不过,初创公司仍然会稍微难一些,大模型不需要大家都做,但大厂或国央企、政府的意志还是要有的。”陈石表示。

  在李童看来,除了在资金、算力、数据等方面的资源优势,“大厂也投资了很多大模型和算力公司,本身也是为所有下游应用服务的,符合其整体战略布局,它赚的是整个行业链的钱”。

  “未来在AIGC视频生成领域的算法层、平台层和算力层中,大厂适合进行全产业链布局,初创企业适合介入应用层或中间层某一细分领域,央国企则适合从基础设施开始布局。”甲子光年智库观点认为。

  因此,初创公司并非没有机会。李童认为,“在创意方面,所有人都是在同一个起跑线上竞争。”王长虎则表示,“大厂具备资源、数据、流量方面的优势,使得创业公司一定要想着创新,寻求差异化,这是创业公司寻求成功的重要方面。”从AI产品榜统计的2月数据看,PixVerse的用户访问量规模已经与国内头部的AI语言大模型和应用工具在相同量级上竞争。“这正得益于我们一年前的判断和认知所带来的先发优势,在大家做大语言模型的时候差异化选择了视频模型,提前积累了技术。” 

  “创企和大厂之间,也绝不是非此即彼的关系。”王长虎认为,OpenAI和微软的合作就是“共赢”的典型代表,创企和大厂应在合作共赢中做出差异化发展。“不仅能在存量市场中看到这种可能,当所有用户都能玩起视频生成的时候,还将有巨大的增量市场。”

  放眼全球,中国视频生成大模型的未来几何?陈石提出了“模型跟随+应用生态”的设想。他认为,目前中国企业在AI领域的机会主要在应用层,“中国是数字经济时代应用的优秀生,很多应用的实用程度、开发能力、易用性都是全球第一。”在他看来,未来大力发展AI应用,最终利用在应用生态上的优势反向进行技术突破,是属于中国的AI技术解法之一。

  身在局中,在王长虎看来,相比于语言和图片生成领域,面向全球,中国在视频生成大模型上跟海外是没有差距的。一方面,诞生于视频生成领域早期的团队,已接住了全球化的机会;另一方面,中国公司在UGC时代创造了世界级的视频应用,意味着中国团队将有更加丰富的产品经验和场景认知,而这些优势都能反哺视频生成技术的发展本身。

  当前,Sora尚未面向大众测试,用户实际体验是否能与官方发布的视频效果保持一致,这一点仍然未知。AI视频大模型究竟走到了GPT-2还是GPT-3时刻,还有待世界共同见证Sora的正式面世。

  “我们可以大胆想象,当视频生成技术发展成熟,秒级实时的视频生成、视频编辑、视频交互成为现实,所有视频创作者的生产模式、所有人对视频内容的消费模式都将有翻天覆地的变化。”王长虎预测道。

  (文中李童、Max、Fimmo为化名)

  《中国新闻周刊》2024年第10期

  声明:刊用《中国新闻周刊》稿件务经书面授权 【编辑:李润泽】