|
|
FCS 专栏文章推荐 代码与数据集(Code & Data),天津大学杜朴风牵头组织 |
|
期刊:Frontiers of Computer Science
微信链接:点击此处阅读微信文章
为响应开放科学发展,积极将互联网上广泛存在的共享数据集、网络数据库、独立软件或程序库包,以短文形式通过期刊向广大学者介绍其构建思路、开发过程和使用指南,Frontiers of Computer Science(FCS)特开设代码与数据集专栏(Code & Data)。该专栏由天津大学杜朴风牵头组织,开设至今已发表10余篇文章,现整理成目录,欢迎赏鉴!
专栏继续征稿中,详情请扫描下方二维码了解,期待更多学者来分享团队沉淀的可共享的代码和数据集。

01
Genome-wide primer scan (GPS): a python package for a flexible, reliable and large-scale primer design toolkit
全基因组引物扫描(GPS):一个用于灵活、可靠和大规模引物设计的Python工具包

长按识别二维码,阅读文章详情
文章简介
定量PCR(qPCR)广泛用于病原体检测,但现有的物种特异性引物设计软件通常需要手动选择基因,这对许多研究人员来说是一个挑战。为解决这个问题,我们开发了一个创新的流程,可以自动在整个基因组中搜索最佳qPCR引物,无需预先选择特定基因。我们的工具能够高效处理大量基因组——在我们的测试案例中超过1,800个——并通过允许用户设置包含和排除的物种列表来确保引物的特异性。这种方法不仅简化了设计过程,还提高了区分密切相关病原体的准确性。我们通过实验验证了设计的引物的特异性,证明了我们的方法在实际应用中的有效性。
02
PathActMarker: an R package for inferring pathway activity of complex diseases
PathActMarker: 一个推断复杂疾病通路活性的R包

长按识别二维码,阅读文章详情
文章简介
复杂疾病的发生与发展与关键生物通路的失调密切相关,推断通路活性以识别与复杂疾病相关的通路生物标志物在精准医疗中具有重要价值。PathActMarker软件包用于复杂疾病的通路活性推断,对不同类型的输入数据提供了多种预处理方式,用户可选择多种方法将高维基因表达数据转换为具有生物解释性的低维通路活性矩阵,并对不同方法性能进行广泛评估。同时,该软件包提供了基于统计和机器学习的特征选择方法,用于筛选重要通路作为生物标志物,并对通路标志物进行生物可解释性分析。
03
PDB-assistant: an integrated Web tool for analyzing and editing PDBs
PDB-assistant:蛋白质三维结构文件的在线分析工具箱

长按识别二维码,阅读文章详情
文章简介
蛋白质结构数据的快速增长使其成为宝贵的资源和学术研究的焦点。然而,大量的三维结构数据给研究人员在处理和分析方面带来了重大挑战。现有的用于处理蛋白质三维结构文件的计算工具尚未充分满足研究界的迫切需求。研究者从数据库获取或者通过预测生成的蛋白质结构文件通常需要进一步的编辑和分析:例如修复缺失的原子、重新编号残基、替换特定残基、组装复合物或将结构比对到特定靶标,研究者往往找不到满足特定需求的结构处理工具或者是需要同时使用多种工具才能实现目标。
为了应对结构数据处理的挑战,我们开发了PDB-assistant,一款集成了10种功能的网络服务器,专门用于编辑和分析蛋白质三维结构数据。这包括用于结构比对、断链检测、序列提取的3种分析工具,和用于残基替换、能量最小化、缺失原子修复、复合物组装、链分离、残基重编号和氢原子添加的7种编辑工具。通过这一平台,研究人员无需进行复杂的代码或命令行的操作,可以更加方便、高效地处理蛋白质结构数据,帮助深入分析蛋白质的功能和特性。
04
Mutation-drug sensitivity data resource (MDSDR):a comprehensive resource for studying and addressing drug resistance
突变-药物敏感性数据资源(MDSDR):用于研究和解决药物耐药性问题的综合资源

长按识别二维码,阅读文章详情
文章简介
以往的研究通过生物物理实验和临床试验来研究药物耐药性。然而,现有的数据库常常缺乏全面的数据,包括临床注释、基因-蛋白质比对、疾病信息以及详细的药物属性。
为了应对这些挑战,我们推出了突变-药物敏感性数据资源(MDSDR),这是一个整合了来自七个不同来源数据的新型数据库。MDSDR提供了一个用于搜索和分析药物耐药性数据的统一平台。它包含了蛋白质-配体亲和力变化的实验数据、关于突变的临床记录、基因和蛋白质比对、疾病信息以及全面的药物注释。MDSDR旨在增强研究和临床工作中对药物耐药性的研究和应对能力。该数据库可在psymukb.net/mdsdr网站免费访问。(注:根据文章摘要翻译)
05
ncRNA2MetS v2.0: a manually curated database for metabolic syndrome-associated ncRNAs
ncRNA2MetSv2.0:与代谢综合征相关的 ncRNAs 手工整理数据库

长按识别二维码,阅读文章详情
文章简介
本文首先检索PubMed数据库获得已发表的可能与研究目标相关的学术论文。其次,经过人工筛选获得真正研究与代谢综合征相关的非编码RNA的论文。再次,通过详细阅读文章,从中提取与代谢综合征及其特征疾病相关的非编码RNA信息。最后,构建数据库并开发网站,为用户提供数据访问服务。
06
MEGI: a comprehensive annotation dataset of mobile elements for genomic island detection
MEGI:基因组岛检测中的移动元件综合注释数据集

长按识别二维码,阅读文章详情
文章简介
本文选择了四个标准基因组岛数据集,从GenBank数据库下载每个基因组数据,并从ISFinder、ICEfinder、INTEGRALL、GyDB和PHAST等数据库获取其移动元件。
MEGI包含153个基因组的1103个基因组岛的移动元件。MEGI数据集使Centroid和SIGI-HMM方法的召回率提高了20%以上。
07
RetinaDA: a diverse dataset for domain adaptation in retinal vessel segmentation
RetinaDA:一个用于视网膜血管分割领域自适应的多样化数据集

长按识别二维码,阅读文章详情
文章简介
为了评估深度学习模型的鲁棒性和适应性,我们构建了一个包含领域差异的视网膜血管分割数据集,称为RetinaDA。RetinaDA整合了来自不同成像设备、协议和临床环境的眼底图像,使模型能够学习到在不同领域具有泛化能力的鲁棒特征,从而提升其在多种临床场景中进行视网膜血管分割的性能。(注:根据文章摘要翻译)
08
scLT-kit: a versatile toolkit for automated processing and analysis of single-cell lineage tracing data
scLT-kit:自动化处理和分析单细胞谱系追踪数据的多功能软件包

长按识别二维码,阅读文章详情
文章简介
本文开发了scLT-kit软件包,实现了系统、全面、自动化地处理和分析单细胞谱系追踪数据。首先,在scLT-statistics模块,它能够对DNA条形码的标记率、克隆大小等数据特征进行全面评估;同时,在scLT-analysis模块,它比较了克隆内和克隆间细胞状态异质性,刻画了前后时间点间细胞的谱系关系及主要命运,并量化了数据集中细胞命运的随机性与相似性,解析了具有不同命运流向的细胞间的分子特征差异。这些分析为从单细胞谱系追踪数据中理解单细胞动态规律和特征提供了一个全面、直观的视角,其鲁棒性和有效性在多个发育分化、肿瘤用药响应的真实数据上得到检验,并评估了正常发育过程和外界扰动响应过程间动态演变规律的差异。
09
TripletDGC: assessing critical cell types of disease genes by integrating single-cell genomics and human genetics
TripletDGC:通过整合单细胞基因组学和人类遗传学,评估疾病基因的关键细胞类型

长按识别二维码,阅读文章详情
文章简介
文章旨在提出通过整合单细胞RNA测序数据和遗传数据构建致病基因-疾病-细胞类型的三元数据集,捕捉致病基因对细胞状态的准确影响,为进一步解释疾病机理提供了帮助。
10
Facilitating single-cell chromatin accessibility research with a user-friendly database
通过一个用户友好的数据库促进单细胞染色质可及性研究

长按识别二维码,阅读文章详情
文章简介
本文全面收集了来自公共研究的80个数据集,并创建了一个用户友好且注释完善的单细胞染色质可及性(scCAS)数据库,名为scCASdb,该数据库将数据集标准化为h5ad格式。具体来说,使用h5ad格式能够整合各种原始数据格式,并且与Python的Scanpy包完全兼容[7],这有助于开发用于scCAS数据分析的机器学习方法。此外,鉴于大多数先进的大型语言模型(LLMs)都是基于Python的,并且需要大量数据进行训练,使用h5ad格式存储scCAS数据对于在scCAS数据分析中开发LLMs极为有利。总之,我们的数据库scCASdb通过系统地收集来自各种公共研究的80个scCAS数据集,并将这些注释完善的数据集标准化为用户友好的h5ad格式,旨在提高数据集的可访问性和可用性,从而促进细胞异质性研究的高效开展。(注:根据文章摘要翻译)
11
BG²VN: benchmark graph generator for vital node recognition
关键节点识别的基准图生成器

长按识别二维码,阅读文章详情
文章简介
本文提出了一个包含已知关键节点的基准网络生成算法,用于评价关键节点挖掘算法。该基准网络生成算法允许根据用户需求对图的异质性和聚合方式进行调整,从而进一步提升其灵活性和适用性。
BG²VN基于二维高斯分布。通过限制二维高斯分布样本之间的距离、设置两点之间边生成的概率、限制边生成的约束条件等方法来生成含有指定数量关键节点的邻接矩阵。
文章生成了多个仿真网络以评估12种代表性的关键节点挖掘方法。我们固定了图的规模(k=10和N=900),同时改变不同高斯分布之间的距离,由mean,、std_dev、interval和p来决定,以影响聚集和异质性,从而改变图的性质。
12
BestMan: a modular mobile manipulator platform for embodied AI with unified simulation-hardware APIs
BestMan:一种用于具身人工智能的模块化移动操作平台,具备统一的仿真-硬件API

长按识别二维码,阅读文章详情
文章简介
文章基于PyBullet仿真器开发了BestMan平台,主要贡献如下:
1. 集成多级技能链以应对多级技术复杂性:我们提供了一个涵盖多个层面的集成仿真平台,包括感知、任务规划、运动规划和控制。通过提供技能链,我们简化了这些层面之间的协调,从而降低了不同组件集成的难度,并提高了整体开发效率。
2.高度模块化设计以实现可扩展性和算法集成:我们设计了具有标准化接口的技能模块,支持任意内部算法组合,确保关键组件的模块化。这使得用户可以轻松替换或扩展算法,降低开发复杂性。
3.统一接口用于仿真和真实设备以解决接口异构性:我们为仿真和真实设备实现了统一的API接口。在技能模块中,接口在命名和功能上保持一致,仅在底层实现上有所不同。这使得在仿真中开发和测试的算法能够高效地迁移到真实设备上,从而解决了仿真与现实之间的差异问题,减少了适应和重新实现的工作量。
4.解耦软件与硬件以应对硬件多样性:我们将移动操作平台分解为模块化组件,包括移动底座、机械臂和夹具,允许硬件的灵活组合和替换。这种模块化简化了对不同硬件配置的适应性,并减少了开发工作量。(注:根据文章摘要翻译)
13
PyABV: a framework for enhancing PyRTL with assertion-based verification
PyABV:一个用于通过断言基础验证增强 PyRTL 的框架

长按识别二维码,阅读文章详情
文章简介
在过去的几十年中,硬件敏捷设计方法(HADM)应运而生,它通过新型硬件构造语言(HCLs)来提升设计生产力。然而,与设计能力的敏捷性相比,HCLs在验证能力方面,例如基于断言的验证(ABV),相对较弱。
为了增强HCLs的现代验证技术,我们设计了PyABV——一个将ABV集成到PyRTL的框架。借助PyABV,可以在PyRTL中建模SystemVerilog断言(SVA),并且将前硅和后硅运行时验证能力集成到PyRTL中。据我们所知,PyABV是首次在HCLs中实现全面的SVA机制。
期刊简介
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。

中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。