作者:赵广立 来源:中国科学报 发布时间:2024/6/23 21:19:23
选择字号:
快手“可灵”大模型发布图生视频功能

 

6月21日,快手的视频生成大模型“可灵”再进化,正式推出图生视频功能,支持用任意静态图像生成5s视频,并且可搭配不同的文本内容,实现丰富的视觉叙事。

上传经典油画《蒙娜丽莎》,可灵能够让蒙娜丽莎戴上墨镜,并赋予她灵动的眼神交流,让名画中的人物活灵活现——这正是可灵图生视频功能的生动实践。

给自己戴上墨镜的“蒙娜丽莎”。  快手 供图

此前,“可灵”在文生视频方面已经展现出了创造逼真运动场景、精确模拟物理特性的能力,以及将复杂概念巧妙融合的“技艺”,其输出堪比电影级画质,并允许用户自由调节视频的纵横比。而这些特性,如今都被融入到了图生视频模型。用户只需上传一张图片,即能基于对图像的解析变静为动,赋予其5秒的鲜活生命力。

得益于其基础模型架构中的3D时空联合注意力机制,可灵在构建复杂时空运动方面也展现了实力。这使得模型在转换静态图像为动态视频时,能够细腻、准确地实现大幅度运动场景。例如,上传一张牧羊犬追球的静止照片,模型就能生成一段牧羊犬奔跑追逐的视频。同时,可灵图生视频模型还融入了提示词融合技术,深化了对图像语义与用户指令的理解整合。这意味着,模型能够根据用户提供的不同文本指令变换视频中的动态表现。

可灵大模型还新推出了视频续写功能,用户只需一键操作,即可在已生成视频的基础上延续生成约5秒内容,该功能同时适用于文生视频和图生视频。通过连续多次续写,能够最长生产约3分钟的连贯视频。

在近日于美国举行的计算机视觉和模式识别大会(CVPR2024)上,快手发布了可灵大模型的图生视频和视频续写等功能,引起积极反响。据了解,今年快手共有8篇论文入选CVPR2024,彰显了其在该领域的研究功底。



 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
“研0”科研入门需要作哪些准备? 中国科学家首次发现“无摩擦的冰”
冰表面长啥样?原子级分辨图像揭晓答案 北方中纬高频雷达网发布首批科学探测结果
>>更多
 
一周新闻排行
 
编辑部推荐博文