“AI文案大师”让朋友圈更有“范”—新闻

作者：郑金武来源：中国科学报发布时间：2021/5/1 20:26:58

选择字号：小中大

“AI文案大师”让朋友圈更有“范”

绚烂花草、壮美山水、亲朋欢聚——“五一”小长假，又一波手机摄影大赛霸屏大家的微信“朋友圈”。

可发朋友圈的最后一步，却常常让人挠头：想不到给美图配什么文字。几句简单的话，写了删、删了写，反反复复实在痛苦。

福音来了！4月30日，北京智源人工智能研究院（简称“智源研究院”）悟道文澜团队发布“AI 文案大师”小程序，可以帮你解决这个难题。只要上传拍摄的图片，悟道文澜“AI文案大师”就可以自动匹配生成相应的文案。

“AI 文案大师”的演示实例中，上传一张食物的图片，就会生成“我不是为了把伙食费吃回来吧”；上传一张阳光下鲜花的照片，就会生成“向阳的花，努力生长，总会绽放；心有所爱，有所期待；剩下的就是努力扎根，努力生长，静待花开！”

“AI 文案大师”演示的“图文匹配”实例

据介绍，“AI 文案大师”小程序可以实现“输入一张图片，输出一句文案”的功能。在这个过程中，“图片”“文本”两种数据分别对应于“视觉”和“语言”两种模态。

在机器学习领域，将这种输入输出数据分别属于不同模态的任务称为“跨模态”任务。例如，可以训练模型根据输入图片中提取出的视觉信息，自由地生成相应的描述性自然语言文本，这样的任务称为“图像描述（Image Captioning）”。此外，还可以把图片作为输入，提取其视觉特征，并在现有的文本库中检索最符合图片特征的文字描述，这样的任务称为“图文检索”或“图文匹配”。

据介绍，“AI 文案大师”不仅需要针对输入图像输出一句文案，还要求文案或文采飞扬、或幽默调侃、或清新文艺、或能表达一定的哲理思考。为了解决当前“图像描述”模型在输出文本的多样性、文学性、逻辑性等方面的欠缺，智源研究院悟道文澜团队将该任务视为一个“图文匹配”任务，在事先收集到的“金句”库中检索出最能够描述图像特征的优质文案。

智源研究院悟道文澜团队相关负责人表示，“视觉-语言”多模态预训练有助于我们提取到两种模态数据中的关键信息，从而实现更高质量的图文匹配。为了实现满足“AI文案大师”系统要求的图文匹配质量，需要提升神经网络的表征能力。

得益于近年来自监督学习在提取数据内在关键知识方面的进展，智源研究院悟道文澜团队采用先进的跨模态对比学习（自监督学习算法中的一种）算法 CMCL，利用某一个“图文对”中的图像模态或文本模态来构建该“图文对”的负样本，并设计了一种基于队列的词典来扩大负样本数目，从而得到更好的数据表征。

未来，智源研究院悟道文澜团队还将继续发布各种基于大规模中文多模态预训练模型的研究成果和有趣应用。

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！吴宪院士提出与拓展蛋白变性理论空与不空温柔以待的日子 “香农信息与语义无关”与“人机信息与语义有关”的核心逻辑更多>>