豆包这玩意谁研究的呢，这视频模型真有点攒劲。_镜头_画面感

有一说一，哥们是真不知道这个月什么情况。

这些个厂商们就像扎堆看了同一本黄历一样，都赶着这个月搞事情。

12 号好几家连着开发布会咱就不多说了，上周又是参加了一堆大会，看了各种大模型纷纷上新，给哥们都逛累了。

结果到了今天，您猜怎么着，字节又官宣了他家的新 AI ，也就是他家豆包这次支持可以视频生成了，而且效果极其强横。

也就是说，憋了这么久，这个月底出场的字节开始上菜了，而且一来就是硬菜。

口说无凭，直接来给大家看效果：

比如这个官方演示的 “ 红尘做伴活的潇潇洒洒 ” 场景，这视频里多人、复杂表情的表现力可以说相当自然了，虽然是马丁老爷子的老粉丝，我也只能说这段权游味是相当重。

也就是这玩意只有 10 秒而且慢的一匹，不然真就给它骗过去当成影视片段了。

还有这段，骑火箭的男人冲向世界最高城礼堂引发大爆炸，这段分镜，前后镜头的画风一致性都很连贯；中间那个男人紧闭双眼紧张赴死的镜头也特灵魂，画面感拉满了。。。

不过这玩意你要光看官方视频吧，好像感受不到它特别牛的地方，有时候这些AI的宣传资料就跟方便面外包装一样，看上去是一回事，拆开以后又是另一回事。

而且视频生成这个上面， p 图微调的事也不是没有过，还有的视频大模型光放宣传片，到现在也不让大家上手用，跟扇贝似的都玩成期货了。

所以尽管看完这些演示视频以后，我们觉得豆包可能真有两下子，但到底货对不对板，咱还是得上手试一试才知道。

这不，那边发布会一结束，世超第一时间就薅来了这个 PixelDance （像素跳动）模型的内测，先安排上咱们 AI 测评的传统保留项目，有请我司老员工火锅给大伙儿亮个相。

喂给模型一张火锅的照片，再输入提示词 “ 狗狗站起，叼起身边的娃娃离开画面 ” 。

按照我们以往用火锅测评一些视频模型的经验，不出 2 秒，锅哥的身体和脸就会开始变形，之前甚至还有过把火锅变成拉布拉多的案例。。

但你猜怎么着？

这次 10s 的视频，几乎没有出现太多画面抖动、掉帧和闪烁变形的情况。

火锅起身的动作一气呵成，仔细看它把兔子玩偶拽过来的瞬间，玩偶耳朵的抖动，脚往下踩的时候垫子上的凹陷，这些细节大伙儿品品，火锅来了都得直呼：稳啊老哥！

如果不是后面几秒火锅的毛发纹理露出了破绽，这视频能打个 9 分吧。

接着，我们又试了让不少视频生成模型屡战屡败的光影效果。

提示词 “ 摩托车飞速行驶在道路上，街景迅速后退 ”

街景变化流畅，光线的明暗变化也没啥违和感，特别是大楼灯光和地板上的倒影都一一对应上了。

非要挑毛病的话，就是从对向开过来的车，画面没太控制好。

再整个经典的吃播，这回的提示词是 “ 正对镜头的男人张嘴吃下筷子上的食物 ” 。描述相对比较精确，基本就是让模型指哪打哪。

而 PixelDance 模型也确实没让我们失望，拿筷子的动作很熟练，食物是真吃进了嘴里，面部也没有因为咀嚼的动作而变形。即使提示词里没有 cue 到后面的一群人，但模型还是让大伙儿都动了起来。

就是吧，这嚼东西的动作是不是有点忒刻意了。。。

其实测到这里，我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些，咱还是多试几次。

来看这张世超随手拍下的晚霞，提示词是 “ 远处的天空，飞来一条黑色的龙，距离镜头越来越近 ” ，稍微复杂了那么一丢丢。

后面的天空、一排房子、往镜头飞来的黑龙，要素基本齐全，镜头还会慢慢仰拍跟随。

不过原本照片左下角应该是桥边的栅栏，不知道是不是因为太黑，导致模型没识别出来，小小变形了一下。

还有这个编辑部同事下班整点小麦果汁的视频，最让世超震惊的，就是杯子里 8+1 的效果。

因为碰杯导致的晃动、还有手部动作让液体往右边倾斜，好家伙，哥们好像真找到一个理解物理规律的模型了。。

而且手臂的屈伸、关节的活动，似乎也是符合人体生理构造的。

不过瑕疵也不是没有，比如手里的酒喝着喝着，突然就喂到了隔壁同事嘴里，桌面的杯垫不知道咋回事就变成一张纸了。

相信看到这，大伙儿心里对豆包这个 PixelDance 模型已经有了基本的评判。

虽说还达不到炸裂的程度，但也肯定算得上是第一梯队了，而且 PixelDance 模型在画面稳定性、一致性上，也确实堪称独步。

不过对世超来说，其实并不是非常出乎意料。

主要其实不仅是我们，很多人对豆包在视频能力上的预期都挺高的。

虽然慢了一丢丢，但背靠视频行业出身的抖音，再加上对基础大模型的投入，豆包想依靠这些优势来追迎头赶上，实际也是符合大家认知的。

换句话说，豆包做出这个本身就意料之中，更别说人家掏出来的东西还明显是第一档。

不过嘛，字节在这个时候掏出豆包视频模型，其实挺及时的，刚好踩在视频大模型发展的节点上。

光是今年， 6 月份即梦 AI 就在 AIGC 短剧《三星堆：未来启示录》中亮相了， 7 月 13 日快手也上线了 AIGC 短剧《山海奇镜》；

而在影视圈， AI 制作的声量也被喊的越来越响，前有 AI 还原 27 岁成龙的《传说》，后有暑期档的漫改电影《异人之下》，这也意味着视频生成大模型和影视行业某种意义上算双向奔赴。

东吴证券测算，国内 AI 视频潜在的行业空间可能达到 5800 亿元人民币以上，而在全 AI 模式下，影视剧的制作成本相较于传统模式，成本能降低超过 95% 。

但这种趋势也会带来新的问题，比如模型训练需要的素材得更真实，那这些视频素材可能会有版权和隐私安全的问题。

另一方面，影视级视频生成模型也需要 AI 厂商本身有影视相关的经验，比如这次的豆包，就综合了剪映等专业剪辑和调色软件的经验，来做出更接近影视的光影、色彩效果。

其他视频生成模型如果要在这方面继续进步，可能也需要和影视行业联系更加紧密才行。

总之，豆包这波交出的卷子值得一个高分，但对于视频模型来说这还远远不是终点，期待国产大模型接下来的表现。

顺便， Sora 怎么还不出来吱个声啊？再不给用黄花菜都要凉了。

撰文：纳西 & 西西

编辑：江江 & 大饼 & 面线

美编：焕妍

图片、资料来源：知危，澎拜新闻，新华网，东吴证券等，图源网络返回搜狐，查看更多

责任编辑：

差评XPIN

豆包这玩意谁研究的呢，这视频模型真有点攒劲。