用于处理 GFA1 和 GFA2 格式数据的库
项目描述
Gfapy
图形片段组装 (GFA) 是用于表示序列图的格式,包括组装图、变异图和拼接图。已经定义了两个版本的 GFA(GFA1 和 GFA2),并且一些序列分析程序已经采用这些格式作为交换格式,从而可以轻松组合不同的序列分析工具。
该库实现了https://github.com/GFA-spec/GFA-spec/blob/master/GFA-spec.md中描述的 GFA1 和 GFA2 规范。它允许从 GFA 格式的文件或从头开始创建 Gfa 对象,以枚举图形元素(段、链接、包含、路径和标题行),遍历图形(通过遍历所有传出或传入的链接段),搜索元素(例如,哪些链接连接两个段)和操作图(例如,消除链接或段或复制段,将读取计数均匀地分布在副本上)。
用户可以通过定义自己的自定义标签和记录类型轻松扩展 GFA 格式。在 Gfapy 中,很容易编写扩展模块,允许定义自定义记录类型和数据类型,用于自定义字段的解析和验证。自定义线可以使用引用相互连接,也可以连接到标准记录类型的线。
要求
Gfapy 是为 Python 3 编写的,并使用 Python 3.7 版本进行了测试。它不需要任何额外的 Python 包或其他软件。
安装
Gfapy 作为 Python 包分发,可以使用 Python 包管理器 pip 以及 conda(在 Bioconda 频道中)安装。它也可以在一些 Linux 发行版(Debian、Ubuntu)中作为一个包使用。
以下命令从 Python 包索引安装当前稳定版本:
pip install gfapy
如果您想从 Github 安装当前的开发版本,请使用以下命令:
pip install -e git+https://github.com/ggonnella/gfapy.git#egg=gfapy
或者,可以使用 conda 安装 gfapy。Gfapy 包含在 Bioconda ( https://bioconda.github.io/ ) 频道中:
conda install -c bioconda gfapy
用法
如果您如上所述安装了 gfapy,则可以使用传统的 Python 语法将其导入脚本中:
>>> import gfapy
文档
文档(包括 Gfapy 简介、用户手册和 API 文档)托管在 ReadTheDocs 服务器上,网址为http://gfapy.readthedocs.io/en/latest/,可以从网址下载 PDF 格式 https://github.com/ggonnella/gfapy/blob/master/manual/gfapy-manual.pdf。
参考
Giorgio Gonnella 和 Stefan Kurtz “GfaPy:用于在 Python 中处理序列图的灵活且可扩展的软件库”,生物信息学 (2017) btx398 https://doi.org/10.1093/bioinformatics/btx398
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。