作者:赵广立 来源:中国科学报 发布时间:2024/3/18 13:02:01
选择字号:
一键点、万物动,图生视频大模型来了

 

基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

在图生视频大模型的帮助下,图生视频就是这么简单。3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click”。它的操作之简单,普通人一看就会,可谓是“一键点、万物动”。

“Follow-Your-Click”效果示例,上图中右侧小图均为动图。  图源:GitHub


在此前已有的图生视频大模型中,视频的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,过程较为复杂。另外,从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图像上的某一个区域,精准度和灵活性上有所欠缺。 

为了解决这些问题,腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click,带来更加便捷的交互,也让图片“一键点,万物动”成为现实。

图像到视频生成的技术在电影内容制作、增强现实、游戏制作以及广告等多个行业的AIGC应用上有着广泛前景,是2024年最热门的AI技术之一。

据了解,联合项目组中的腾讯混元大模型团队,目前正持续研究和探索多模态技术,拥有行业领先的视频生成能力。此前,腾讯混元大模型作为技术合作伙伴,支持打造原创视频《江山如此多娇》,生成中国大美河山的精美视频片段,展示出了较强的内容理解、逻辑推理和画面生成能力。

相关论文信息:https://arxiv.org/abs/2403.08268

Github:https://github.com/mayuelala/FollowYourClick

访问地址:Follow-Your-Click

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
“双星计划”:开启中国空间科学新纪元 河西走廊内陆河出山径流研究揭示新趋势
金星缺水的原因,找到了? 科学家描绘低质量系外行星大气逃逸新图象
>>更多
 
一周新闻排行
 
编辑部推荐博文