梁晗课题组报道大规模肿瘤药物蛋白扰动效应筛选数据集—论文

作者：梁晗等来源：《癌细胞》发布时间：2020/11/7 14:57:37

选择字号：小中大

梁晗课题组报道大规模肿瘤药物蛋白扰动效应筛选数据集

对由进化所规定的种群、个体及细胞层级的基因型（genotype）与表现型（phenotype）之间的关联的解析是分子生物学研究的核心课题。就方法论而言，基因扰动实验（perturbation）和基因型——表现型特征统计分析是两条具有统治地位的路径，它们能够分别揭示出具有因果关系的（causal）或者具有相关性的（correlative）调控者——靶标逻辑。考虑到基因型与表现型二者的搜索空间均十分庞大，基因扰动实验往往局限在单一调控者或特定靶标的范围之内。

相反，统计关联分析的极佳延展性在多组学数据快速积累的背景下成为了大规模阐释基因型——表现型连接的常用手段，经典案例包括全基因组关联分析（GWAS）、表达数量性状基因座分析（eQTL）、等位基因特异性表达分析（ASE）和基因共表达网络分析（co-expression network）等。不过，统计关联分析范式易受上位作用（epistatic effect）等因素的影响，从而遗漏具有直接逻辑关联的基因型——表现型配对。

近年来，随着CRISPR基因编辑技术、单细胞测序技术及高通量图像处理技术等的兴起，对基因型进行大规模扰动并快速捕捉多维度表现型信息成为了可能。其中，癌症研究领域是扰动生物学（perturbation biology）研究范式的最大受益者之一。具体而言，实验者通过扰动基因的序列、表达、定位、或修饰等，继而测量作为反应的RNA、蛋白表达或细胞状态等特征，最终发现疾病、基因和治疗之间的关系。

由美国Broad研究所领衔的癌症依赖性图谱计划（Cancer Dependency Map）筛选了上千种癌细胞系中全基因组范围单基因敲除对细胞增殖效应的影响，而L1000计划（前身为Connectivity Map）数据库中则有超过百万的小分子化合物、基因过表达，或基因敲低等扰动处理后得到的癌细胞系基因表达谱。

不过，现存的各类大规模基因或化合物筛选数据集均缺少以蛋白表达水平为核心的响应指标，这主要是由于蛋白质大规模定量仍较为困难，因而将诸如定量蛋白质组学技术（quantitative proteomics）等应用至大规模扰动生物学研究中并非一条可行的路径。考虑到蛋白质是细胞功能的主要载体和大部分抗肿瘤药物的直接作用靶标，其表达水平和修饰状态对外界刺激作出的响应是反映细胞状态转变的关键指标，亦是抗肿瘤机制的重要线索。因此，如何将对蛋白水平的监测纳入大规模癌症扰动生物学研究，是亟待解决的课题。

2020年11月6日，美国MD安德森癌症中心梁晗课题组和俄勒冈健康与科学大学Gordon Mills课题组合作在Cancer Cell杂志上发表了题为Large-scale characterization of drug responses of clinically relevant proteins in cancer cell lines的论文。

该研究首次报道了以蛋白表达水平作为扰动指标的大规模抗肿瘤药物效应筛选数据集。这项工作由课题组成员赵维博士、李军博士和陈玫如博士等合作完成。

与定量蛋白组学技术相比，反向蛋白微阵列技术（reverse phase protein microarray, RPPA）具有样本通量高、灵敏度高、样本需求低、成本低等优势，因而适合于应用至对特定功能蛋白群的大规模表达水平检测。基于这一技术，MD安德森癌症中心的研究人员此前已经对癌症基因组图谱（TCGA）中的来自32种癌症类型的超过八千个病人样本和癌细胞系百科全书计划（CCLE）中的超过六百种细胞系中的数百个癌症相关蛋白进行了精确定量。

在该项研究中，作者以RPPA测定的210个癌症相关蛋白质的表达水平作为指标，系统性地描绘了约170种临床前或已经应用于临床的药物对近320种癌细胞系的细胞状态扰动效应。在经过严格的基于内部重复组对比的质量验证后，作者得到了超过15000个扰动实验图谱。在其后与外部公开数据（如CCLE定量蛋白质组和L1000等）的对比中，这一数据集亦表现出良好的跨平台可重复性。值得一提的是，该数据集中还包括了对于同一药物与癌细胞系配对的不同梯度和时间进程下的效应测定，因而产生了超越单剂量、单时间点的多维度数据类型和由此衍生的丰富生物学意义。

基于这一数据集，作者主要探讨了由癌细胞系敏感性数据库GDSC等所提供的癌细胞抗药强度与其自身蛋白表达谱特征之间的关联。一个关键的发现是，尽管与以往多项研究所揭示的结论相同，癌细胞在未经处理时的静态蛋白表达数据可以较好地用于预测其对于靶向特定信号通路的药物的反应性，但当在预测模型中加入经药物处理后的动态蛋白表达数据时，准确性能够得到显著提高。这一结果从癌细胞——药物互作角度展现了扰动生物学技术相较于统计关联分析在连接基因型（癌细胞蛋白表达谱）和表现型（抗药性）上的优势。

该数据集的高维度和统一化特征使得建立一个根据药物作用效应和蛋白功能分类形成的药物——蛋白大尺度互作网络成为可能。对这一网络进行分析，作者发现已知具有类似生物靶标的药物往往被归类在一起，而表达水平被同一药物显著扰动的蛋白质群之间则具有显著更多的已知互作连接。另外，当把这一药物——蛋白互作网络与癌细胞抗药性数据联合分析时，作者能够通过对应信号通路的反向扰动作用预测出可能具有潜在结合效应的抗癌药物组合。有趣的是，其中多个组合已经存在于既往的特定研究或者临床试验中，因此展现了对大规模药物蛋白扰动效应的测定在指导临床药物运用方面的巨大潜力。

总之，该数据集首次在大规模癌症药物效应筛选中实现了以蛋白表达为测量基准，弥补了由于蛋白表达信息缺乏所导致的对药物抗肿瘤机制进行阐释和效应预测的重大缺陷。另外，考虑到绝大多数常用癌细胞系已经具有统一化、高质量的多组学数据，包括RNA、蛋白质、DNA甲基化、miRNA、基因突变、药物敏感性等，该研究所提供的蛋白扰动数据将能够经由多模态整合分析发挥超出本身数据含量指数级的价值，为阐明癌细胞的药物反应在各个分子层级的潜在影响因素的交叉作用提供绝佳的机会。（来源：科学网伊凯）

相关论文信息：https://doi.org/10.1016/j.ccell.2020.10.008