行业动态

m6在线登陆·半年打造出国产 AI 生成利器字节前视觉技术负

发布时间：2024-05-19 08:27:04 来源：M6官网注册作者：M6米乐手机登录APP入口

　　在此之前，毕业于中科大的王长虎有着13年的微软研究院工作经历。2017年加入字节跳动，在职期间组建了字节AI Lab视觉技术团队，担任集团视觉技术负责人，参与抖音和TikTok等产品从0到1的发展、搭建字节跳动视觉算法平台和业务中台、主导字节跳动视觉大模型从0到1的建设。

　　23年之前，他虽然也考虑过创业，但时机尚不成熟，生成式AI技术的进步还不足以对社会产生颠覆性影响，直到Stable Diffusion、ChatGPT的出现，王长虎就意识到新的AI时代到来了—— 因为C端的用户数说明了一切，ChatGPT两个月就达到一亿月活，超过了TikTok的记录。「这次创业是受时代和内心的双重感召，此刻就是最佳的时机。」

　　在2023年上半年国内市场疯狂卷大语言模型的背景下，王长虎坚信无论是过去、现在、未来，视频都是最重要的内容，AI视频生成如果能够做好，一定会从根本上改变人们创作和消费视频的范式，是个真正的大机会。因此，王长虎绕开了NLP大模型这个最火的创业领域，做自己熟悉、感兴趣的视觉大模型。

　　4月，王长虎找到现在的合伙人、之前在光源资本TMT/AI方向负责人谢旭璋，并拿到超过五千万的天使轮融资，随即宣布成立了新公司「爱诗科技」（AIsphere）。6月，数名核心人员就位，明确了做视频生成的方向，7月便开始训练大模型。

　　接下来半年的时间里，爱诗科技处于从0到1的攻坚期，并没有什么大动作，很少出现在公众的视野中。

　　直到2024年初，在海外一款名为PixVerse的AI视频生成产品短时间内获得海外用户的高度评价，并有许多优秀海外创作者自发使用PixVerse创作出了高质量、高热度的“”。

　　AI影视探索者闲人一坤用PixVerse制作《山海奇镜》，自1月初发布后在全网达到近百万的播放量。

　　AI科技评论获悉：PixVerse是AIsphere（爱诗科技）旗下的海外AI视频生成产品，现已在国外社区上线，国内产品也即将上线。

　　在他看来，尽管生成式AI时代已经到来，但新时育的机会不仅是眼前所能见到和可预期的，技术端和用户端的共同探索将会带来更大的机会和颠覆性改变。

　　Runway推出了动态笔刷新功能Motion Brush，用户只需在图片上轻轻一划，即可将其转化为动态视频；

　　Stability AI发布了Stable Video Diffusion视频模型，创作者可根据需要调整迭代步数、重绘幅度等各种参数，以协助创作者精确掌控画面生成过程；

　　其中，最出圈的非Pika莫属。Pika 1.0官方宣传视频中，诸多用户用「惊艳」来形容其效果，更有“AI生成视频的ChatGPT时刻即将达来”的说法。

　　事实也是如此，AI视频生成最大的劣势，是画面的丰富度不够——在生成的视频中，更多只能呈现嘴部或局部动作，很难整体动起来，这也是各家产品尝试解决的问题。

　　从结果上看，爱诗科技生成的视频不仅扎克伯格的形象更加精准，动作也相对协调，并且可以人物走起来，画面的延伸程度较高。

　　王长虎表示，爱诗科技希望未来能够做到在15秒时长内的视频中呈现更多的信息量，而非只是让画面主体轻微晃动3秒、5秒，让视频承载更多有意义的信息，并符合用户的期待才是核心的。

　　这也意味着，面对用户五花八门的prompt，只有保持较高的鲁棒性、稳定输出精准画面，才算是成功。基于这样的优先级，自然而然会影响爱诗背后数据采集、模型训练、特定功能路线的选择。

　　爱诗科技从7月开始训练模型，经过三四个月的打磨，产品效果已经不输同为「模型+应用」模式的视频生成产品Runway和Pika。

　　回顾过去，从PGC发展为UGC的过程中，诞生了抖音、快手等现象级的产品。而今走在从UGC跨越到AIGC的路上，势必也会带来大量的机会。

　　王长虎认为，UGC到AIGC，变的是U和AI，最主要的视觉难题不尽相同，但系统性地解决视觉问题所需要的核心技术能力却一脉相承。

　　以抖音为代表的短视频产品举例，其成功离不开一系列视觉技术能力：对于短视频特效精准稳定的高效生成、对海量视觉数据的精确清洗和标注、对视频的低延迟抽帧和安全检查、对关键内容近乎完美的准确识别等。

　　这一系列技术支撑了短视频成为UGC时代的核心媒介，并且成为解决AIGC时代视觉生成上准确性、一致性、丰富度等难题的重要基石。

　　而这些，正是爱诗科技的优势之一——拥有上一时代全球顶尖视觉技术能力的操盘经验，沉淀下了硬核的技术能力，工程化能力也足够强。「这也是我们对于AI视频生成这件事的信心来源。」王长虎说到。

　　在抖音、TikTok这种数据量极大、用户量极高的产品上，所遇到的每一个问题都是「世界级」难题。过去和视频相关的数据、算法、工程等方方面面问题，爱诗的团队都遇到过，并且成功攻克，而这些经验能力可以在一定程度上直接复用。

　　现在来看，要想做一个好的AI视频生成产品，需要下面有一个基座的、动态的大模型，数据是其中重要的方面之一，但数据采集并不会构成真正的壁垒，如何做好数据的清洗、筛选等数据处理能力更加重要。

　　并且，在资源有限的前提下，并不是所有数据都可以用。在强数据处理能力的加持下，爱诗科技会通过AI能力自动找到最优质的那一部分内容，这部分可能只有竞品模型1/ 10的体量。如此一来，就有机会用更少的成本、更少的资源，更快地做出更好的模型。

　　同时，爱诗科技的核心团队曾经用AI解决了抖音和TikTok这些国民级产品的内容安全问题，因此也能很大程度增强视频生成的安全性。不管是用户恶意引导生成的违规数据，还是大模型初期被灌进的脏乱差数据，爱诗科技有能力在海量数据里面把这些内容识别出来，降低对模型质量的干扰程度。

　　除此之外，爱诗也关注视频生成的可控性问题，探索如何把运动的世界更好地建模，实现对运动中的和物体更精准的控制等。

　　另一方面，初创科技企业算力有限，把有限的资源用到极致，提高效能以减少训练和推理的时间，就尤为关键——这正是是爱诗团队从过去的经验中打磨出的经验和优势。

　　王长虎告诉AI科技评论，在字节，面对像春节发红包这样一个时间点，流量可能是平常的数十倍甚至上百倍，需要在不添加额外资源的情况下确保服务器的稳定、不能影响用户的体验，这就需要极强的推理效率和工程架构能力。

　　在字节期间，王长虎带领的团队支撑了抖音TikTok等数十个产品和场景的视频AI能力。模型训练和推理需要巨大的GPU资源，更重要的是如何用好这些算力，这其中包括模型增效、模型压缩等技术都是至关重要的。哪怕1%效率的提升，可能意味着节省数百块GPU。因此，所有技术都需要做到极致。

　　映射在现在做视频生成模型的事情上，这种能力能帮助爱诗团队用更少的资源做出更多的事。比如原来一个视频生成可能要一分钟，具备这一能力后就可以用更少的时间完成，这意味着它占用GPU的时间更短，如此一来，同样的算力可以生成更多的视频。

　　「视频生成并不是像文生图那样堆资源和算力就行，在特定的时间内，不仅关乎你的资源有多少，也考验资源受限下如何更好地建模、更好地解决问题。」王长虎认为。

　　不同于LLM已经相对明确的发展路径，AI视频生成还停留在技术突破的阶段。面对诸多的技术挑战、更高的用户期待，王长虎表示这也是令爱诗团队兴奋的一个点，解决未来一个阶段的问题，视觉大模型会有更大、更快的爬坡阶段。

　　王长虎：我们开始做这件事情的时候，整个市场还是很冷的，很多人会觉得视频生成太遥远。但由于我们这个团队一直在做视频，所以我们对视频生成有一个自己的认知——未来AI生成视频会有一个快速的发展和爆发期。

　　过去这半年的发展其实是符合我们预期的，这几个月，越来越多的目光关注到我们，越来越多的同行参与进来，这印证了我们之前的判断。

　　王长虎：首先，过去几年我们是伴随抖音TikTok这些国民级短视频成长起来的，我们对视频有深刻认知，视频在过去、现在和未来，都是最重要的一类内容，会带来巨大的机会。可能过去几年，并没有产生很多图片类的国民级产品，但是视频类产品更多，也是耳熟能详的。视频承载的内容更丰富，会带来更多的产品想象力，所以我认为做视频是更大的机会。

　　其次，NLP大模型，有chatGPT在前，文生图大模型，有midjourney在前，所以NLP大模型、文生图，国内更多是跟随。而视频领域，我们看UGC时代，最有影响力的视频产品就是抖音和TikTok，是中国人做出来的，是领先全球的。因此，视频生成领域，国内当然有机会比国外做的更好，抖音/TT背后的视频AI技术，很多都是我带着我的团队做出来的，因此我们有天然的优势。并且，与NLP大模型和文生图大模型不同，视频生成还在发展初期，我们有做成全球最好的视频生成模型的机会。

　　王长虎：从根本上来讲，建设视频大模型，数据、算法和工程能力缺一不可，都有很多问题是需要解决。而我们在建设抖音和TikTok的视频AI能力的时候，各种各样的问题都遇到过和解决过，踩过无数的坑，解决过无数的世界难题，我们这个团队具备这些能力。

　　而很多问题，我们的同行过去不一定遇到过，要解决问题可能还有不同的解决方案，有很多试错成本，探索也会有时间成本，而在当前这个阶段，时间是最重要的。

　　处理过抖音和TikTok这些全球范围内最大的短视频平台的多种问题后，我们具备了多种能力，像多模态之间的对齐、更有效的视频表征、多模态的表征，如何对视频的时空进行建模、如何在有限资源情况下把算法做到极致等。这些就是过去我们一直在做的事情。

　　做视觉大模型，本身就不是一个单点，一个算法，一个paper就能搞定的，它是一个系统工程。我们团队的核心的成员，处理过全球最大短视频产品的每天数以亿计的视频数据，用视频AI解决过抖音TikTok背后无数难题，解决过这些国民级产品背后成百上千个服务、数万个GPU的工程问题。而这些能力很多都是做AI视频生成大模型的基础。

　　王长虎：创业和在大公司做事是不一样的，最大的不同，是创业公司初期资源特别有限，没有那么多试错机会。而在字节，我们有机会从0到1把事情做成，踩过很多坑，积累了很多经验和能力，这些经验和能力对于初创公司至关重要。

　　我们认为现在做的事情其实是一件更大的事情。我个人经历过好多时代，从零几年那个时候的搜索时代，到之后的深度学习的时代，后来进到字节之后的UGC时代。UGC时代用户生产内容的效率比PGC的效率更高，涉及的范围也更广，也带来了更大的商业化机会，抖音、快手等短视频平台应运而生。

　　现在的不同之处在于，我们做的是AI，它生产内容的效率会更高。可以预见，AI生成视频很快就会进入快车道，当生成视频的质量足够好、效率足够高，那肯定会再开启一个新的时代，那这个时代就有巨大的机会。现在很多性的产品过去都是人们所想象不到的，放在AI视频这个赛道上也是同样的。

　　对我们来说，这个时代会更加考验我们的创造力，不管是模型层面的，还是产品、应用层面的。AI时代的这些人，也要像AI一样更快的进化，团队中的每一个成员都在快速地成长。

　　王长虎：做AI视频生成，就像在做一个AI摄像机，但它不需要摄像头这种硬件，不需要再去动画工作室里面去创作，而是用AI直接生成视频内容。越来越多的人去做这样一个AI摄像机，我觉得这是好事，可以快速能推动这个技术的成熟。其实更重要的是，一旦AI摄像机做成熟之后，背后带来的新的、更大的机会。

　　回过头去看移动互联网时。

m6在线登陆

上一篇：推动智能视觉摇橹船科技加快发展新质生产力下一篇：富瀚微2022年年度董事会经营评述