字节版 Sora:AI 视频生成的新突破

字节版 Sora:AI 视频生成的新突破

文章图片

字节版 Sora:AI 视频生成的新突破

文章图片

【字节版 Sora:AI 视频生成的新突破】字节版 Sora:AI 视频生成的新突破

文章图片

字节版 Sora:AI 视频生成的新突破
一、惊艳亮相
字节跳动旗下火山引擎在深圳举办的 AI 创新巡展 , 如同在科技领域投下了一颗震撼弹 。 两款视频生成大模型 PixelDance 和 Seaweed 的推出 , 瞬间吸引了各界的目光 。

PixelDance 基于 DiT 架构 , 拥有高效的 DiT 融合计算单元 , 能够实现复杂的多主体运动交互和多镜头内容一致性 。 它能理解并执行复杂的文本提示 , 实现多个主体间的交互和时序性多拍动作指令 , 还具备强大的动态效果和炫酷的运镜能力 , 一键生成具有故事性的多镜头短片不在话下 。 其支持多种风格和比例 , 如 3D 动画、2D 动画、国画、黑白等风格 , 以及 1:1、3:4、4:3、16:9、9:16、21:9 等视频比例 , 为创作者提供了广阔的创作空间 。

Seaweed 则基于 Transformer 结构 , 利用时空压缩技术进行训练 , 原生支持多分辨率输出 。 默认生成 720p、24fps、5 秒视频 , 可延长至 20 - 30 秒 。 它生成的视频逼真度高 , 细节丰富 , 动态流畅 , 色彩光影专业 , 广泛应用于电商、文旅、教育、影视等领域 , 大幅降低视频制作门槛 , 提升内容创作效率 。

这两款模型的推出 , 标志着字节跳动在视频生成领域迈出了坚实的一步 。 不仅为创作者带来了全新的工具 , 也为各个行业的视频制作带来了更多的可能性 。 它们的出现 , 必将推动视频创作领域的创新与发展 , 引领行业走向新的高度 。
二、强大功能
(一)解锁多动作与多主体目前市面上大部分视频生成模型 , 只能完成简单指令或单一动作 。 而字节跳动的这两款模型却能突破这一局限 。 它们可以遵从复杂的 Prompt , 精准理解语义关系 , 从而捕捉多动作序列和主体互动 。 例如 , 输入 “梵高站在自己的画作前 , 捂嘴大笑起来 , 脸上的褶子都清晰可见;随即又秒变严肃 , 手缓缓落下 , 捋捋自己的小胡子” 这样复杂的描述 , 模型能生成整套动作行云流水、表情自然逼真的视频 。 再如 “两名宇航员行走在夜晚繁华的街道上” , 画面中的两名航天员走路姿势正常 , 与真人无异 , 身后的人群和两侧的建筑也都栩栩如生 。 这表明模型在多动作和多主体的生成方面具有强大的能力 , 能够为创作者提供更加丰富的创作素材 。
(二)动作灵活与运镜酷炫豆包视频模型的镜头语言多样 , 变焦、环绕、平摇、缩放、目标跟随等超多镜头语言都能灵活运用 。 这使得视频细节更加丰满 , 表情也更加丰富 。 例如 , 在 “一个推进镜头 , 沿着树木成行的郊区住宅街道拍摄 , 白天 , 天空晴朗湛蓝 , 色彩饱和 , 对比度高” 的 Prompt 下 , 随着镜头缓慢推进 , 干净的街道、树木掩映的成排小别墅以及优秀的光影效果都能完美呈现 。 而且 , 模型还成功攻克了多镜头切换时难以保持一致性的困扰 , 可在 10 秒内讲述一个起承转合的故事 。 比如睡美人的故事 , 涉及多个镜头的切换 , 但主体、风格、氛围和逻辑仍能保持一致性 。 这种强大的运镜能力和一致性控制 , 为视频创作带来了更多的可能性 。
(三)审美高级与风格多变豆包新模型采用深度优化的 Transformer 结构 , 大幅提升了视频生成的泛化能力 。 它支持黑白、3D 动画、2D 动画、国画、厚涂等多种风格 。 比如 , 一只戴着墨镜的北极熊在海里游泳 , 水面上泛起微波 , 甚至还折射出了北极熊的影子;身穿灰色时尚卫衣的猫咪 , 迈着 “六亲不认” 的步伐 , 走在星光闪耀的 T 台上 。 这些不同风格的视频展示了模型的高级审美和强大的风格适应能力 , 能够满足不同创作者的需求 , 为视频创作带来更多的创意和惊喜 。
三、优势亮点
(一)技术创新字节跳动的豆包视频生成模型基于 DiT 架构 , 通过高效的 DiT 融合计算单元 , 让视频在大动态与运镜中自由切换 , 拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力 。 全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题 , 在镜头切换时可同时保持主体、风格、氛围的一致性 。 这一技术创新为视频创作带来了前所未有的体验 。
此前经过剪映、即梦 AI 等业务场景打磨 , 豆包视频生成模型已经具备专业级光影布局和色彩调和 。 例如 , 在一些生成的视频中 , 人物的光影效果自然逼真 , 色彩搭配和谐 , 仿佛专业摄影师拍摄的作品 。 这种专业级的光影布局和色彩调和 , 使得视频更加生动、吸引人 。
(二)性能强大豆包大模型性能强大 , 默认支持 800K 的初始 TPM , 相比业内多家大模型最高仅支持 300K 甚至 100K 的 TPM , 具有明显优势 。 例如某科研机构的文献翻译场景 , TPM 峰值为 360K , 某汽车智能座舱的 TPM 峰值为 420K , 某 AI 教育公司的 TPM 峰值更是达到 630K , 而豆包大模型能够轻松承载这样的企业生产环境流量 , 还可根据需求灵活扩容 。
这次 , 豆包大模型不仅新增视频生成模型 , 还发布了豆包音乐模型和同声传译模型 , 已全面覆盖语言、语音、图像、视频等全模态 , 可以满足不同行业和领域的业务场景需求 。 比如在音乐创作方面 , 用户输入 Prompt 就可以得到一段歌词 , 然后在 10 余种不同风格的音乐和情绪表达中选择进一步创作出歌曲 , 再基于豆包语音能力 , 生成可以媲美真人演唱效果的声音 , 还能实现气口、真假音转换技巧的模拟 。 在同声传译方面 , 豆包同声传译模型可以做到边说边译 , 且在办公、法律、教育等场景接近甚至超越人类同传水平 , 还能支持跨语言同音色翻译 。
(三)生态丰富火山引擎成立了多个大模型生态联盟 , 为模型发展提供了广阔空间 。 今年 5 月 , 火山引擎与 OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟 。 同在 5 月 , 火山引擎联合中国电动汽车百人会与一汽、吉利、长城、广汽、捷途、智己等 20 余家厂商 , 宣布成立汽车大模型生态联盟 。 8 月 , 汽车大模型生态联盟迎来第二批成员单位加入 , 包括领克汽车、吉利银河、几何汽车、上汽荣威、上汽名爵、雄狮科技、大圣科技等厂商 。 还有今年 8 月 , 火山引擎携手多点 DMALL 成立零售大模型生态联盟 , 联盟首批成员包括物美集团、抖音电商、抖音生活服务、百胜、麦当劳、中国飞鹤、海底捞、居然之家、南 7 - 11、重庆百货、百果园、波司登、天虹、三得利、绝味、名创优品、NielsenIQ、电通等 。
这些大模型生态联盟涵盖了多个行业和领域 , 为豆包大模型的应用提供了丰富的场景和机会 。 通过与各行业的合作 , 豆包大模型能够不断优化和改进 , 为用户提供更加优质的服务和体验 。
四、未来展望
字节版 Sora 的出现无疑为 AI 视频生成领域带来了新的活力与希望 , 但同时也面临着诸多挑战 。 然而 , 其潜力巨大 , 未来发展前景广阔 。
从技术层面来看 , 虽然目前两款视频生成大模型已经取得了显著的突破 , 但 AI 视频生成技术仍有很大的发展空间 。 例如 , 如何进一步提高视频的画质和保真度 , 如何生成更长、更复杂的视频内容 , 以及如何更好地处理视频中的逻辑和叙事等问题 , 都需要不断地探索和创新 。 随着技术的不断进步 , 字节版 Sora 有望在这些方面持续演进 , 为创作者提供更加优质的视频生成服务 。
在应用场景方面 , 字节版 Sora 的潜力巨大 。 除了目前已经广泛应用的电商营销、动画教育、城市文旅和微剧本等领域 , 未来还可以拓展到更多的行业和领域 。 例如 , 在影视制作领域 , AI 视频生成技术可以大大降低制作成本 , 提高制作效率 , 为观众带来更多精彩的影视作品 。 在广告营销领域 , 个性化的视频广告可以更好地吸引消费者的注意力 , 提高广告效果 。 在教育领域 , AI 生成的视频可以为学生提供更加生动、直观的学习体验 。
此外 , 随着人工智能技术的不断发展 , AI 视频生成技术也将与其他技术相结合 , 创造出更多的可能性 。 例如 , 与虚拟现实(VR)和增强现实(AR)技术相结合 , 可以为用户带来更加沉浸式的体验;与区块链技术相结合 , 可以更好地保护视频的版权和知识产权 。
总之 , 字节版 Sora 虽面临挑战 , 但潜力巨大 。 在未来的发展中 , 它将在 AI 视频生成领域持续演进 , 不断创新 , 为创作者带来更多的惊喜和启发 , 为各个行业的发展注入新的动力 。

    推荐阅读