作者:任芳言 来源: 中国科学报 发布时间:2021-1-5
选择字号:
中科院虚拟经济与数据中心主任石勇:
数据挖掘好比“大海捞针”

 

■本报见习记者 任芳言

做数据挖掘的人,会和医学期刊扯上什么关系?

2020年4月,一项关于新冠疫情变化与复工复产的研究登上了《柳叶刀》子刊EClinical Medicine。该研究将不同年龄人群划为7类,刻画了他们在家庭、学校、工作场合等情景下的接触模式,并据此分析出新冠病毒如何传播,用数量方法给出了疫情期间复工复产的多种模型。

领衔这项研究的作者之一,是中国科学院虚拟经济与数据科学研究中心(下称中心)主任石勇。在他看来,“数据模型是有生命力的。数据挖掘的结果是粗糙知识,进一步过滤叫智能知识,智能知识的发现比数据挖掘的结果更重要”。

迅速出成果的秘诀

石勇认为,传统传染病模型预测相对固定,将之与大数据结合、演算,就能发现病毒传播的端倪,并据此预测潜在风险。2020年2月7日完成武汉的城市模型后,团队又选取了北京、深圳等5个城市,根据各个城市经济发展的预期值进行实证分析,模拟出不同城市疫情防控强度与复工复产方案间的利弊关系。

结果显示,利用不同模型,决策者可根据当地防控工作和复工计划预测出相应疾病传播风险,得到城市长期经济发展的基本判断,为疫情防控与科学决策提供了有力支撑。

回看这项研究,石勇等人之所以能在疫情早期迅速发布相关研究模型,有赖于长期与合作伙伴保持的密切联络。

“我们可以把很多学科在短时间内集合到一起。”石勇表示。他所在的中心作为交叉学科单位,招生范围包括计算机、管理、数学、生物医学等专业,“只要把这些学生匹配起来,可以发挥很大的科研能动性”。

沉淀自己 也沉淀数据

团队研究生张林姿告诉《中国科学报》,由于疫情,在无法与国内合作者面对面交流的情况下,石勇每天会专门留出几小时用于交流工作、推动进展。

“据说牛顿就是在瘟疫封闭期间发现了万有引力,所以不要焦虑,这是很好的沉淀自己的时间。”石勇对学生如是说。

那段日子里,石勇也在思考中心的过去和下一个十年。2004年正式成立以来,中心一直在为国家宏观经济发展提供决策依据。

2010年,全国个人信用评分系统问世,该项工作由石勇团队与中国人民银行征信局和征信中心联合完成,这项系统对中国人的日常商业银行经济活动产生了重大影响。最近,石勇正带领团队与中国金融期货交易所合作,对太字节级别体量的交易数据进行分析,预测金融期货的变化及可能产生的影响。

这些年来,石勇一直强调异构数据、非结构化数据的概念。当下,让大量“有噪声”的随机数据沉淀下来,实现数据挖掘最优化,仍然是他的工作目标:“当针掉到海里,你要知道针可能掉到哪里去。”

“只有高质量的数据才能产生更好的结果。”石勇再次强调。因为在这方面的工作,他成为首届成思危基金会优秀科研成果奖获得者。

人与算法皆纯粹

石勇的团队每周举行一次讨论,大家围桌而坐,讨论与数据挖掘有关的国际最前沿研究。团队成员李彪告诉《中国科学报》,讨论班的目的很简单:让大家一直跟着领域的前沿走。因为讨论班的学术氛围太好,以至于已经毕业甚至毕业多年的学生也愿意专门抽出时间参加。

这样的氛围与石勇本人的行事风格不无关联。在李彪等年轻后辈的眼中,石勇始终是一位简单、纯粹的学者。已过耳顺之年的他仍在不断学习,对新鲜事物保持关注,但他永远衣着朴素——深蓝色的夹克和登山鞋穿了多年,公文包磨破了却想不起来换。

“做科研不为搞多大名堂、创造多大利益。”李彪表示,这样的言传身教影响了每一位加入团队的后辈。石勇尊重每个人的想法,“但你必须踏踏实实地去做”。李彪说。

为了让学生更早接触数据科学,石勇面向中国科学院大学的研究生开设了《多元统计分析与机器学习》这门课程,介绍数据科学研究中用到的各种方法。

曾任课程助教的李彪还记得,这堂从不点名的课有40多人选修,但每次都有60多人坐在教室,直到课程结束。“一学期上完,每个人都相当于完成了一个小规模的机器学习项目。”李彪说。

在石勇看来,算法“都是人写出来的”,“一点都不神秘”。高精度的算法只有配上准确的数据,得到的结果才会更理想。他坚信,“把大数据弄清楚,可以把各个方面的工作往前推进”。

《中国科学报》 (2021-01-05 第4版 综合)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
中国超重元素研究加速器装置刷新纪录 彩色油菜花又添7色!总花色达70种
考研复试,导师心仪这样的学生! 地球刚刚经历最热2月
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文