Seedance 2.0：字节跳动「杀死比赛」的AI视频模型

2026年2月，字节跳动向内部发了一份飞书文档，标题只有几个字：「Seedance 2.0 正式上线！Kill the game。」

没有铺天盖地的预热，没有发布会。就这么一份飞书文档，同时在线阅读人数从下午两点一直维持在300人以上，直到凌晨四点。AI视频圈，就此炸锅。

「Seedance 2.0 是我26年来最大的震撼，我觉得它碾压 Sora 2。」

它到底是什么

Seedance 2.0 是字节跳动旗下即梦AI（Dreamina）推出的新一代视频生成模型，于2026年2月7日开始内测，2月12日正式发布，随后接入豆包、即梦Web端、小云雀等字节系产品。

用一句话概括它的定位：给一段文字或一张图片，生成带有原生音轨的电影级多镜头视频。

这听起来和市面上其他AI视频工具差不多——但实际用过的人都说，不一样。

Elo 1,269

全球视频模型排行榜首

60s

单次最长生成时长

最多参考文件并发输入

视频输出分辨率

四个让行业震动的核心能力

多镜头叙事

只需描述故事，模型自己决定怎么拍——多个关联镜头、角度切换、运镜一气呵成，角色和风格在所有镜头中保持一致。

音画同步生成

不是先生成视频再配音，而是画面与声音在单次生成中同步输出。嘴型对、情绪对、音效和场景切换完全咬合。

12路多模态输入

同时接受9张图片、3段视频、3段音频加文字描述。指定人物、运镜风格、音效参考，模型全部理解并融合输出。

工业级可用率

行业平均"抽卡成功率"不到20%，Seedance 2.0在复杂运动场景下的可用率达到业界SOTA，从「抽卡」变「稳定出货」。

架构上做了什么

Seedance 2.0 的标志性创新是双分支扩散变换器（Dual-Branch Diffusion Transformer，DB-DiT）架构。简单说，传统方案是先生成静音视频再叠加音轨，两步走；DB-DiT 在单次前向传播中同步输出画面与声音，从根本上解决了音画时序错位问题。

结果就是你看到的：角色说话时嘴型是对的，背景音乐的情绪和画面情绪是匹配的，这不是"配音"，而是音视频真正的共生。

行业怎么看

在 Artificial Analysis Video Arena 的综合评测中，Seedance 2.0 以 Elo 1,269 分登顶，超越 Google Veo 3、OpenAI Sora 2 和 Runway Gen-4.5。《黑神话：悟空》制作人冯骥在使用后直言：「地表最强，没有之一。」并认为它的出现标志着「AIGC的童年时代，结束了」。

有位海外导演 Charles Curran 用 Seedance 2.0 为一部从未面世的真人电影制作了一版预告片，仅用20分钟、花费60美元完成，感叹「这玩意儿说不定真能搞砸好莱坞」。

在哪里用，多少钱

目前已接入：即梦 App / Web（会员可用）、豆包 App（2月12日接入）、火山引擎 API（4月2日开放企业公测）。

API 定价：含视频输入 28元/百万tokens，不含视频输入 46元/百万tokens。生成一段15秒视频约消耗30万tokens，也就是大约8-14元一段。

争议：能力越强，风险越大

版权风波：迪士尼、派拉蒙、华纳等七大影业联合发函，指控字节跳动未经授权使用其IP训练模型。一段AI生成的「汤姆·克鲁斯与布拉德·皮特打斗」视频在全网引发广泛传播，成为争议焦点。

与此同时，知名博主影视飓风 Tim 发现，仅上传自己的人脸照片，Seedance 2.0 便能生成与他声音高度相似的音频——没有上传任何声音样本。这引发了关于「人脸即声音」隐私风险的广泛讨论。

字节跳动的应对算是迅速：平台暂停了真人人脸素材的上传功能，在即梦和豆包中引入活体认证机制，用户需要录制本人形象和声音才能制作数字分身。3月15日，部分全球发布被暂停。

争议还在持续，但这场讨论本身也说明了一件事：Seedance 2.0 的能力，已经触达了行业真正在意的那条线。

影视飓风 Tim 在测评结尾说：「假如2026年年初视频生成模型已经是这个水平了，那传统影视流程距离被AI海啸冲走，已经彻底进入倒计时了。」

AI视频生成的第一阶段竞赛，可能真的结束了。下一个问题是：当工具已经足够强大，创作者的稀缺性究竟在哪里？

也许答案从来没变过——是你脑子里那个还没被讲出来的故事，和你看世界的那个独一无二的视角。