一些科学家为检测生物恐怖威胁而设立的100万美元奖金展开竞争。
图片来源: ALEX WONG/GETTY IMAGES
尽管美国国防部高达100万美元的DNA分析奖项最终花落谁家仍须拭目以待,但一些顶尖的竞争者说他们认为比赛不公平。美国国防威胁降低局(DTRA) 的“算法挑战”赛分派给挑战者这样的任务:找到一种更快更准确的方法来识别原始DNA中的物种和基因,以发现潜在的生物恐怖威胁。这被预想为处理关键生物信息学问题的一种便捷手段。这场比赛难度极大,103名竞争者中只有3位达到最终的要求。9月,比赛的获胜者将被揭晓,参与者在等待的同时也发出质疑:比赛的基本规则不清楚,评分系统不公正,不太可能产生令人信服的结果。
英国帝国理工学院的生物信息学博士David Ainsworth说:“他们组织竞赛的方式和打分的方式糟透了。”Ainsworth的队伍仍在比赛中继续接受挑战。美国马里兰州巴尔的摩市约翰斯·霍普金斯大学的生物信息学家Steven Salzberg说:“我认为最佳算法不一定能获胜。”Salzberg并未参与比赛,但他的一名博士生及其实验室的一名生物信息技术工程师险些被淘汰。
组织者承认比赛很艰难,并表示很清楚在哪里设置障碍是最棘手的。项目经理Christian Whitchurch说:“你不想让比赛过于高不可攀以至于没人能胜出,但也不想让比赛变得轻而易举以至于200人并列第一名。”但是他很有信心地认为,这场比赛将催生出一个很有价值的项目。Whitchurch表示,独立审查小组一直在协助发展这一挑战并将批准最后的结果。
DTRA作为一个五角大楼的机构,承担着广泛的安全任务,并提出了这次挑战:研发一个能在1小时内检测出具有潜在危险的生物及其DNA样本中个体基因的项目——相对于目前的能力,这是一个巨大的进步。
为了开展这个比赛,DTRA选择一家名为“创新中心”(InnoCentive)的公司举办网络竞赛。这是迄今为止DTRA提供的最大金额的奖项,和该机构平常的行事作风相比,这是一次巨大的转变。Whitchurch说,任何在网上注册的人即可报名成功,DTRA能利用来自不同领域的科学家的知识,且无须经过投标和签订合同的烦琐过程。
对于参与者来说,加入竞争需要投入很多的时间,承担极大的风险,但与此同时,这种竞争方式也打破了授权程序的传统壁垒。德国图宾根大学生物信息学家Daniel Huson说:“能力分为两种,一种是拥有实际解决问题的能力,另一种是拥有写出一份漂亮的提案从而获得资金的能力,这是完全不同的两种能力。”Huson的团队也参与了竞争。受百万美元奖金的吸引,大约有2700人报名参选,103位竞争者提交了作品,其中既有个人也有团体。Huson与他的同事放下了手头上的所有工作,每天花费17个小时专门应对该项目。
竞争者会收到9组数据集,每一组都含有未知来源的基因密码。他们将结果提交到一个自动评分系统上,该系统会给出一份详细的评估数据。评估过程会为每一个提交的程序打分,从中选出最终的胜出者,只有准确值达到一定程度(9组数据集都要达到)的程序才能符合评估要求,参与评估。
为了检验运算方法的实际效果,在整个过程中,竞争者可以将结果提交给评分系统打分,但是一些人反映评分结果让他们感到困惑。马里兰大学的计算机科学博士生Derrick Wood并未获得评估资格,他抱怨自动评分系统并未因为他给其他情况加入应变信息而加分,却因为他没有为已确认的有机体的明确类型命名而扣分。Ainsworth同样灰心丧气,他说:“我们花费整整一个月的时间设计运算方法,不是为了让评分系统给我们打一个分数,而是为了证明我们已经做的很好。”
在前4个月内,没有一个竞争者符合要求,DTRA将原本定于5月31日的截止日期延长,并且放宽了一些要求。然而,竞争者仍然难以达到要求,该机构又不得不将截止日期再次延长到7月14日。Whitchurch说:“我承认我感到很紧张,因为只剩下一个月的时间了,而且到目前为止还没有人能够达到要求。”
在距离截止日期不到一个星期的时候,竞争者被鼓励相互合作以提高他们的得分。Ainsworth不得不在最后关头与另一位独立竞争者联合,他说,在最后的24小时内,许多团队非常焦急,相互不断发送邮件。新组建的团队可以有效地利用不同运算方法得出数据,取长补短,最终使得分达到评估要求。计算机生物学家Robert Edgar是一位自费竞争者(他没有达到评估所需的分数),他说:“这纯粹是为了分数而人为地利用自动评分系统的弊端。”
3位合格者已经上传了他们所有的编码,静待评估。最终的胜出者必须同时具备快速的运算速度与精准性,不仅仅是9组原始数据集,还将有一个全新的DNA样本加入到最终的测试中。Whitchurch说,如果没有小组达到要求,将从一些落选者中重新挑选。在选出胜出者之后,组织者还计划发布一份评选过程的详细说明。 Ainsworth与他的同伴在提交前修改了他们的运算法则,但是他们对能否处理全部9组原始数据集没有信心。评估的结果将在9月份公布,到时候一切便将揭晓。他说:“对于能否通过,我权当做是买彩票了。”(段歆涔)
《中国科学报》 (2013-08-08 第3版 国际)