行业动态

m6在线登陆·外媒实测Sora10秒大翻车!阿里AI新作让“

发布时间:2024-05-19 08:58:31 来源:M6官网注册 作者:M6米乐手机登录APP入口

  Rachel Metz 实测后发现, 在Sora 生成的一个 10 秒钟的视频中,出现了物理理解不足、内容生成不一致、细节处理不到位等多个问题。除了这些,生成速度慢也是被 Rachel Metz 刻意提到的问题。

  但是,Sora 的出现确实引发了文生视频领域一系列连锁反应,例如 Lightricks 推出了生成式 AI 电影制作平台 LTX Studio,阿里也推出了 Emote Portrait Alive 这款基于人像和声音生成的应用。

  不得不说,Sora 发布引发了人们对其可能改变电影制作方式的恐惧和兴奋,但这些反应看起来还为时过早。

  翻译后的大意是:一只色彩斑斓的鹦鹉飞过葱郁的哥斯达黎加丛林,落在树枝上,与一群猴子一起吃着水果。此时正值黄金时段,阳光从树叶和猴子的白毛上闪过。(35 毫米胶片)

  乍一看还不错,但是仔细看可以发现:当鹦鹉飞过猴子时,它的翅膀变形了;要求是一只鹦鹉,但却出现了好几只鹦鹉;其中一只猴子的尾巴在结尾处似乎变成了鹦鹉的尾巴。

  当鹦鹉飞过猴子时,它的翅膀发生了变形,这表明Sora在模拟飞行动力学方面可能存在缺陷,无法完全理解并准确地模拟现实世界的物理原理。

  只要求生成一只鹦鹉,但Sora生成了多只鹦鹉,这可能反映了模型在理解和执行文本指令方面的不准确性。

  猴子尾巴在视频结尾处似乎变成了鹦鹉的尾巴。这类问题可能涉及到模型在处理复杂场景和细节时的局限性。

  不过OpenAI 研究科学家 Bill Peebles 说:你可以在该片段的不同阶段发现一些奇怪的动作。但事实上,Sora 能够为这种复杂程度的场景建模,说明视频生成能力有了明显的飞跃。

  除了这些,Rachel Metz 提到:与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 生成每个视频显然需要更多的时间和计算能力。OpenAI 不会准确说出 Sora 处理每个请求所需的时间,但绝对不是瞬间完成,在等待Sora运行的过程中,绝对可以去吃点零食。

  另外,OpenAI 发言人 Natalie Summers 表示,OpenAI 并没有发布 Sora 的固定时间表,因为该公司希望首先确保能够充分降低与选举相关的安全风险。这意味着刨除技术因素,Sora大概率在美国大选之后发布。

  今天,Lightricks 宣布推出生成式AI电影制作平台LTX Studio。Lightricks 是一家位于以色列的高科技公司,专注于计算机图形学、图像处理、机器学习和人工智能等领域。

  使用Lightricks 新推出的LTX Studio,用户只需要输入文本,就能生成超过25秒的微电影视频。

  不过,LTX Studio提供了可视化的专业视频控制台,允许用户对镜头切换、角色、场景一致性、摄像机、灯光等进行精准控制。

  这使得LTX Studio在视频生成领域具有较高的可控制性和细节优化能力,与市场上其他视频生成式AI相比,如OpenAI的Sora,LTX Studio提供了更多的创作自由度和专业级别的视频编辑功能。

  阿里巴巴集团智能计算研究院开发一个名为EMO(Emote Portrait Alive)的先进AI框架,这个框架是一个音频驱动的视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

  在初始阶段,称为帧编码,ReferenceNet被用来从参考图像和动作帧中提取特征。随后,在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩码与多帧噪声结合,以控制面部图像的生成。

  这些机制对于保持角色身份和调节角色动作至关重要。此外,还利用时间模块来操纵时间维度,并调整动作速度。

  最后,EMO的论文已经发布在arXiv上,并且伴随着这一论文的发布,EMO项目也宣布了开源。but,阿里却在GitHub放个空仓库。于是画风是这样的。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  《政府工作报告》起草组负责人:城乡居民基础养老金月最低标准提高20元,是近年来上调力度较大的一次

  全国代表、山西省昔阳县大寨镇大寨村党总支郭凤莲——为人民群众提供更加优质高效的司法服务

  看电视时孩子不小心坐到孕晚期妈妈肚子,急忙挂急诊检查吸氧气,家里有大宝的孕妈妈一定要多加注意


m6在线登陆
亮照