机器学习：网络攻防新利器—新闻

作者：赵广立来源：科学网 www.sciencenet.cn 发布时间：2017/7/12 22:45:06

选择字号：小中大

机器学习：网络攻防新利器

亚信网络安全产业技术研究院副院长童宁做《机器学习驱动网络安全发展》的分享

在人工智能时代，各行各业最怕听到的是“取代”：人工智能被认为将一步步取代法官、取代速记员，取代建筑工人和出租车司机……不过，目前在许多行业，人工智能仍然只能扮演配角，网络安全就是其中之一。

“就安全领域来讲，我们把人工智能当成一种帮助安全专家更有效地工作的一个工具。在可见的未来，还是需要领域专家和网络安全专家来主导。”7月6日~7日，在成都召开的C3安全峰会上，亚信安全通用安全产品中心总经理、亚信网络安全产业技术研究院副院长童宁在接受《中国科学报》记者专访时表示，机器学习的确提供了强有力的帮助，但在当前网络攻防态势下，机器学习也难以“一肩挑”。

不过，随着对机器学习这件工具开发、利用得逐渐深入，网络安全正在进入网络攻防的新阶段。

充分条件和必要条件

机器学习技术应用于网络安全早已有之。童宁指出，早在1986年，美国斯坦福研究中心就提出用数据统计来检测网络非法入侵。“利用机器学习算法对垃圾邮件进行分类，也已是20年前的事情。”

童宁介绍说，随着移动互联网的发展，大量的设备产生了各式各样的日志文件。特别是在2000年以后，在日志管理和分析方面，机器学习算法有了长足的发展。比如IBM等大型互联网企业就在这些方面使用了大量的机器学习算法，包括关联分析等。

“2000年以来，机器学习所带来的变革——比如利用机器学习算法对用户的异常行为进行分析等开始普及起来。”童宁说。

趋势科技资深数据科学家张佳彦从技术发展和经济原因两方面，向《中国科学报》记者展示了机器学习介入网络安全的“充分条件”和“必要条件”。

“从2006年开始，网络病毒开始急剧增加，直到2012年达到第一个高峰期。而2012年开始进入第二个循环，更多的新病毒大量出现。” 张佳彦援引一组数据提出：“以2007年的数字为例，每年有约600万个新病毒出现，也就是每天出现1.6万个病毒。在这种情况下仅靠网络安全专家分析和阻挡是不够的，这就为机器学习的出现提供了充分条件。”

然而事实是，2006~2012年间，一些机器学习技术已经被用来尝试助阵网络安防，但直到2013年机器学习技术才逐渐被安全专家所讨论和强调。这背后的原因是什么？张佳彦认为其中牵涉不只是技术问题，还有经济原因。

原来，2006~2012年这期间，病毒的制造者已经从单一黑客演化到有组织的黑客犯罪系统，目标就是为了窃取受感染电脑的资讯进行贩卖。此时病毒的变种已经非常繁多，网络安全公司已开始使用机器学习对抗病毒。

然而，在这期间，用户还不能接受机器学习的手段——这一阶段的许多病毒都有潜伏期，由于没有立即性危害，许多用户虽已中毒但并不知情。而相比其他解决方案（如1：N病毒码），误判率更高的机器学习算法显然给用户带来了困扰。

“这个时候即使已经用了机器学习方案，但大家也不愿大张旗鼓地说。” 张佳彦告诉记者。

“剧情”在2012年后出现急转。到了勒索软件为代表的“网络威胁时代”，紧跟着此后不易追踪的比特币等的出现，勒索病毒所造成的立即性损失（的重要性）已经超过了机器误判带来的困扰，“这为机器学习参与网络攻防提供了必要条件。” 张佳彦表示。

有监督学习和无监督学习

对于机器学习来讲，最主要的两个概念分别是“有监督学习”和“无监督学习”。百度安全首席架构师武广柱解释说：“有监督学习就是人们‘告诉’机器‘哪些数据是属于哪一类的’，然后进行数据训练；反之，无监督学习就是不‘告诉’机器，直接由人们对最终输出的结果进行定义。”

“有监督的学习一开始就有人为的因素在里面，如果训练结果不尽人意，工程师可以进行算法调整，直至它的结果达到人们的要求以后，再投入生产使用。”童宁介绍说。

一个有监督学习常用的例子是，从房地产中介商处拿到一些房屋原始数据：年代、面积、位置、成交价等，交给机器去“学习”。产生的模型就可以对后来的购房者提供参考：比如输入其预算多少钱，得出该客户能够在什么区位买到什么样的房子。

童宁表示，有监督学习的这种能力可以用于网络攻防中对恶意程序、垃圾邮件的识别和对勒索病毒的防治，特别是在需要多维度识别的情况下，能够大幅提高识别速度和效率。

无监督学习所用的方法与有监督学习有些不同。“机器直接根据数据自身的特征进行自动分类，但机器并不知晓所分类、聚合的特征是什么。人们再行标注具体属性。”童宁说，无监督学习“聚类”的优势，可以轻易挑出“少数派”，帮人们监控到一些人所不易察觉的异常行为。

“通过这有监督和无监督学习的两个例子，可以发现机器学习关键是，首先必须要有持续性的、高质量的数据。因为整个的网络环境一直在变，机器需要学习的内容也要随之而变。”童宁半开玩笑说，“机器跟我们人类一样，需要‘活到老，学到老’，从而保证它的学习能力。”

更重要的一点是，无论有监督学习还是无监督学习，对特征的抽取和概括总结，都是由网络安全专家和领域专家所区别出来的，因此，“必须要有解决问题的领域专家”。

“我们的客户常常问：是不是有数据专家、网络安全专家就够了？答案是否定的。必须要有领域内的专家，否则抽取的特征很难去把握。”童宁指出，只有三种元素（持续高质量的安全数据、领域专家-网络安全专家、机器学习数据专家）协作，机器学习在网络安全方面的应用才能获得更好的效果。

张佳彦也提出，在传统机器学习所必不可缺的三大要素——数据、特征、算法之中，“最花时间的”就是网络安全专家如何产生有效的特征：“这需要非常有经验的专家，还要经过反复不断的测试，才能得到良好的结果。”

机器学习不是“万灵丹”

不过，在张佳彦看来，除了对安全专家的依赖，机器学习还存在一个软肋：误判率。

“对我来说机器学习就像‘原子弹’，它的威力无穷，但如果用得不好会伤敌一千，自损八百。”张佳彦指出：“训练出来的模型某种程度上有不可避免的误判率，所以我认为机器学习的重点，不仅在于可以把误判率降低多少，更在于承认它一定有误判率的存在。”

他认为，如何将误判率对用户造成的伤害和困扰降到最低，是当前机器学习更重要的议题。

“机器学习在垃圾邮件分类、恶意程序查杀方面，已经比较成熟了。有时分错一些邮件相对来讲还可以接受，但一旦查杀错‘恶意程序’，后果就严重了。”童宁作为一线安全专家深知，机器学习即便再强大也不能对其押上所有赌注。

“我们强调机器学习技术也是强调它多维识别很强，但我们并没有放弃第一代的黑白名单、第二代的行为监控等技术，机器学习技术再强大也只是辅助工具，这些手段综合起来利用效果才更好。”童宁告诉《中国科学报》记者，“网络攻防是永恒的主题，我们唯一能做的就是拿出各种武器，跟黑客战斗到底。”

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
封面文章 \| 柴达木盆地钾盐成矿特征与找矿方向说说学位论文盲审钙钛矿"抗衰老"新策略—引入仿生谷胱甘肽构建可再生氧化还原系统 20世纪以来的计时革命追忆恩师谢鸣教授——学术至臻、大医精诚创新不是目的，创新是“救问题”的方式更多>>