(AI 自动配乐)(AI 自动配乐)大桥未久ed2k
机器之心报谈
作家:杨文
咱们用17个Prompt,实测了一把字节的两大视频生成模子。
字节憋了个大招。
9 月 24 日,字节向上旗下的火山引擎在深圳办了一场 AI 立异巡展,连气儿发布了两款视频生成大模子,矜重宣告进犯 AI 视频生成。
这两款模子,一个名为 PixelDance(以下简称 P 模子),一个名为 Seaweed(以下简称 S 模子),不仅在审好意思、动幅上进步了一个 level,还破解了多主体互动和一致性贫瘠。
话未几说,先整几个视频让大众感受下:
一位年青女生微簇眉头,不悦地戴上一副墨镜,这时,男主角入画,牢牢抱住了她。
这段 10 秒的镜头中,东谈主物面部心思变化当然,莫得任何虚化崩坏。
再如,一只金毛小狗在草地上追赶泡泡。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
以及一个 3D 格调的可儿小女孩正在舞蹈。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
看来,字节此次是把攒了许久的绝活儿,一股脑全倒出来了。
现在,新款豆包视频生成模子正在即梦 AI 内测版小范围测试,改日将慢慢通达给整个效户。
咱们也在第一时辰拿到内测经历,接下来,就送上崭新出炉的一手实测。
解锁多算作、多主体
现在,市面上大部分视频生成模子,只可完成简便提示唐突单一算作。而此次,豆包视频生成模子一顿升级,不仅不错顺从复杂 Prompt,还能捕捉多算作序列和主体互动。
举例,梵高站在我方的画作前,捂嘴大笑起来,脸上的褶子皆看法可见;偶然又秒变严肃,手逐步落下,捋捋我方的小胡子。
整套算作挥洒自如,心思当然传神。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
再比如,咱们输入 Prompt:两名宇航员行走在夜晚富贵的街谈上。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
两名身穿宇航服的航天员,一前一后散步在富贵街谈上,死后东谈主来东谈主往,两侧的开荒亮起了秀美的灯光和店招。
大家皆知,AI 最容易犯的颠倒之一,即是傍边腿不分,唐突惊现四条腿。
而在豆包视频模子中,二东谈主走路姿势平时大桥未久ed2k,确切与真东谈主无异,莫得迷糊、诬陷,也莫得出现千般诡异画面。
咱们还输入了一段描绘词贼多的 Prompt:一只蜗牛在雨后的丛林大地上逐步爬行,它死后留住一条闪闪发光的粘液轨迹。蜗牛的触角严慎地转移着,它的壳的每一段皆有紧密的纹理。一个录像机追踪着蜗牛的耐心旅程。镜头至极接近,以至于蜗牛壳和体魄上的水点看法可见,大地的细节也展现得至极明晰。
豆包模子生成的视频中,蜗牛柔嫩的躯体耐心向后蠕动,触角也随之摇晃。硬硬的壳上有着紧密的纹理,上头还沾着轻细的水珠。
由于是特写镜头,丛林的布景当然虚化,而雨后大地的水洼则看法可见。
Prompt:很多水母在水下流动,它们的体魄透明,在深海中发着光。
画面中出现了万里长征的透明水母,它们轻轻展开伞盖,再牢牢松开,触手也在水中目田舞动。
Prompt:写实,一个小女孩吹诞辰烛炬,然后笑了。
镜头中,一个头戴寿星帽的小女孩,张着嘴巴吹烛炬,脸上夸耀含笑。同期,死后的亲一又团,或饱读掌、或拍照。该视频中的东谈主物不仅多元,动幅也很大。
算作无邪,运镜酷炫
此次豆包视频模子还有一大特质 —— 镜头千般。
变焦、环绕、平摇、缩放、主张随从等超多镜头讲话,它皆能无邪适度视角,况且视频细节更丰润,心思更丰富。
Prompt:一个鼓励镜头,沿着树木成行的郊区住宅街谈拍摄,白昼,天外辉煌蔚蓝,色调富饶,对比度高。
跟着镜头耐心鼓励,干净的街谈、树木掩映的成排小别墅映入眼帘,画面中还展示了优秀的光影闭幕。
Prompt: 北极光在北极天外中舞动,星星闪耀,白雪遮掩的景不雅的延时照相。
天外舞动的极光,在雪地上映射出相应的神采。豆包模子生成的这段延时照相,确切和记载片拍摄的如出一辙。
咱们还试了下图生视频,上传图片后,输入 Prompt:金鱼游动,水中冒着气泡。
别看这个 Prompt 简便, 豆包模子的「脑回路」却复杂得很。不仅无缺顺从笔墨提示,还学会了摇镜头。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
画面一运转,水缸中的金鱼运转游动,并伴跟着无数气泡。随后,镜头一拉,现出女孩全身,她在水中逐步转过身,发丝和宽松的衣摆在水中的漂流感,以及头顶夸耀水面的情状,豆包模子均捕捉到位。
此外,豆包视频模子还取舍全新缠绵的扩散模子磨练门径,告捷攻克了多镜头切换时难以保持一致性的困扰,可 10 秒论说一个继往开来的故事。
比如,用它生成一段睡好意思东谈主的故事。
女同av视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
睡好意思东谈主躺在床上堕入千里睡,窗外的小鸟叽叽喳喳也吵不醒她,这时一位王子俯下身吻了睡好意思东谈主,试图叫醒她。
在这个 prompt 中,波及多个镜头的切换,但主体、格调、氛围和逻辑仍能保持一致性。
审好意思高等,格调多变
豆包新模子取舍深度优化的 Transformer 结构,大幅进步了视频生成的泛化才调,口角、3D 动画、2D 动画、国画、厚涂等多种格调,它通通相沿。
比如,一只戴着墨镜颇具喜感的北极熊,蹬着四只爪子在海里畅游,水面上泛起微波,以致还折射出了北极熊的影子。
(Prompt: 戴着墨镜的北极熊在海里游水。)
再来个动画格调的。
身穿灰色先锋卫衣的猫咪,迈着「六亲不认」的款式,走在星光闪耀的 T 台上。
其中,猫咪眨巴着眼睛,毛发和一稔褶皱处治得也至极传神,胸前的两根衣带也能跟着款式而舞动。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
(Prompt:一只拟东谈主小猫正在 T 台上走秀。)
呆萌二哈并立潮范儿,头戴棒球帽,手端咖啡杯,仰开头,展开嘴,就将其一饮而尽,随后,P 模子发扬念念象力,让二哈顺遂将咖啡杯抛弃在两侧的椅子上,整套算作挥洒自如,极度解析当然。
视频赓续:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
(Prompt:二哈正在喝咖啡。)
阳光明媚,树影斑驳,两只拟东谈主化的企鹅,戴着 Fashion 的墨镜,恬逸地坐在沙滩椅上晒着日光浴,时往往来唠上两句磕儿。
(Prompt:动画格调,两只拟东谈主化的企鹅,戴着墨镜,坐在沙滩椅上晒太阳。)
两只卡哇伊的毛绒小怪物,沾沾自喜地跳着舞,画风有种迪士尼的嗅觉。
豆包视频模子关于细节的主理亦然至极到位,比如小怪物振荡体魄时,头上的毛发也会随之起舞等。
(Prompt:两只毛茸茸的袖珍可儿怪物,正在舞蹈,3D 渲染,Octane,柔柔的照明,梦境般的散景闭幕,电影感。)
皮卡丘振荡着尾巴,和哆啦 A 梦玩亲亲,细节头绪丰富,光影跟着主体通顺而变化,大幅进步画面视觉审好意思。
(Prompt:皮卡丘和哆啦A梦本旨肠跳着,然后拥抱在沿路。)
不仅如斯,咱们还不错拿它制作告白大片。
举例,先通过即梦的文生图功能,搞出一张香水的商品图。
然后再通过图生视频功能,输入 Prompt:蓝色的烟雾逐步起飞。
闭幕如下:
大众以为豆包视频生成模子水平咋样呢?来驳斥区聊聊吧大桥未久ed2k。