在科技日新月异的今天,字节跳动旗下的即梦AI又一次引领了数字化转型的潮流。近日,该团队在官方社交媒体上放出了令人瞩目的新功能——多模态视频生成模型OmniHuman的发布预告片。该技术一经推出,便引发了广泛的关注,仿佛一粒种子,满心期待着能够开出璀璨的花朵。
按照视频中的演示,用户只需提供一张图片和一段音频,居然就能生成一个生动的AI短视频。这无疑在短视频制作领域投下了一枚重磅炸弹,极大地提升了制作效率与质量。那么,背后的技术究竟是怎样一回事呢?
OmniHuman是字节自主研发的闭源模型,它的强大之处在于能够支持肖像、半身以及全身等尺寸的图片输入,同时还能根据音频自如生成与之匹配的动作,无论是演讲、唱歌、还是乐器演奏,都能轻松驾驭。不仅如此,对于常见的手势崩坏问题,OmniHuman也做出了显著改善,给用户带来了更自然的体验。
更令人惊喜的是,OmniHuman不仅可以处理真人图片,对于动漫和3D卡通风格的非真实图片也显得游刃有余。在技术主页上所展示的生成效果,令人浮想联翩,已然达到了相当高的自然度。
当然,在技术飞跃的同时,字节跳动团队也意识到这一科技的潜在风险,为了避免被不法利用,OmniHuman并不对外公开下载。此外,为了确保生成视频的安全性,该团队还打算设置严格的审核机制,并在输出视频上添加水印,以此提醒用户理性使用。
即梦AI相关负责人表示,尽管OmniHuman目前具备了良好的表现,但在生成影视级别的视频方面还需进一步探索,他期待着这一技术能帮助视频创作者展现出更丰富的想象力。
这一里程碑式的技术进步,不仅在推动视频创作的便捷化,同时也为广大内容创作者打开了新的视野与可能性。对于即梦AI而言,未来的路充满了希望,殷切期待这颗数字人模型能为短视频行业引入更多的创意与活力!返回搜狐,查看更多