随着互联网技术对抗环境日益复杂化,各大网络平台用户上传并展示的音视频等内容,都面临恶意攻击的风险。为此,中国科学技术大学、浙江大学、华中科技大学、阿里安全图灵实验室等展开联合攻关,研发内容安全、文本反垃圾、AI模型鲁棒性、营商环境治理4项新一代安全架构核心AI安全技术。近日,相关成果被国际会议ICASSP2021收录。
随着短视频等大众传播平台的发展,黑灰产业极易死灰复燃。尽管AI安全技术能有效解决数据量大的风险,但对数据量极少或新增的风险,现有的AI模型往往难以胜任。
“累积此类别的数据供现有AI模型训练需要一定时间,而小样本方法恰好能填补‘变异—模型未更新’的真空期。”阿里安全图灵实验室高级算法工程师雍秦认为,小样本方法在真空期中覆盖新风险、维护清朗的网络空间环境方面具有巨大潜力。
他介绍,此前发表的小样本方法大都集中于优化小样本元学习阶段,该研究主要集中研究小样本方法中的预训练问题,为此研究团队提出了一种简单有效的方法,使用自监督方法预训练一个更深的网络,使其具有更好的鲁棒性和泛化性。
此外,文本垃圾也是令网友头疼的问题。恶意用户可通过对文本中的违规内容进行变形变异,从而达到绕开模型识别检测的目的。由于文本对抗门槛和成本低,文本内容风控场景中的对抗异常激烈,对抗给智能风控体系带来了巨大挑战。
为应对挑战,解决对抗场景中风控模型性能衰减的问题,浙江大学与阿里安全图灵实验室提出了基于对抗关系图的文本对抗防御技术。与现有技术相比,该技术的内容风控系统建模与场景无关,只需训练一次即可应用到各个场景,基于对抗关系图,就可以解决更复杂的多跳变异问题,如微(wei)-威(wei)-崴(wai)。目前,该防御构架已应用到手机淘宝、旺旺反垃圾场景,并取得了较好的应用效果。
针对对抗样本检测泛化性的问题,中国科学技术大学和阿里的研究者提出了基于图像域和梯度域的双流对抗样本检测网络,图像域用于识别扰动大而广的对抗样本,梯度域则用于识别扰动比较小而稀疏的对抗样本。
随着防御技术不断变强,攻击形态越来越多样。在真实应用场景中,阿里安全图灵实验室也发现了一些没有限制情况下的攻击形态,这类攻击很难应对。阿里安全图灵实验室高级安全专家越丰介绍,目前希望能从攻防两端以及产学研集合的方式来应对这种威胁。
现今电商平台的各种模态商品数据迅速增长,如何从中快速且准确地找出用户需要的商品是一个艰巨挑战。基于内容的文本到商品图像的跨模态检索就是缓解这个挑战的关键技术之一。
传统的跨模态检索方法建立在单层次的特征表示和单粒度的相似度度量上,难以有效地解决商品图像检索的问题。同时,文本到商品图像的跨模态检索任务更复杂,比如单是商品图像中的一类“服饰”已经表现出巨大的差异性,服饰可以穿在模特身上,也可以单独摆放,还可折叠起来展示,服饰图像背景往往也很复杂。不止如此,商品图像包含其他很多丰富的种类,并且一幅图像内往往呈现出多种物体,琳琅满目,难辨差异。
浙江大学硕士生马哲介绍,这次研究在文本—商品图像跨模态检索的场景下,提出了HSL网络和两种不同粒度的相似性度量方式,可显著提升商品图像检索的性能,并能适应复杂的商品内容检索。
阿里安全图灵实验室资深算法专家华棠强调,这种新研究不仅致力于提升用户搜索体验,也会用在平台内容治理上,谨防黑灰产利用看似合规的商品图片宣传“禁限售”类商品。
“我们希望通过新一代安全架构核心AI技术来守护网络内容安全,净化网络环境,也通过AI来保护数字资产的知识产权,优化营商环境。同时也致力于通过AI来防范黑灰产的对抗行为,尽最大努力为商家和用户打造更好的互联网平台。”华棠说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。