Skip to main content

一种将酵母变体映射到蛋白质修饰和功能区域的自动化方法

项目描述

# yMap - 酵母基因型到表型图(2016 年发布)

yMap 是一种基于 python 的快速和强大的自动化方法,用于将大型酵母变异数据映射到

- 蛋白质翻译后修饰

- 蛋白质结构域,

- 蛋白质 - 核苷酸结合结构域,

- 蛋白质结构区域,

- 蛋白质活性和结合位点

- 蛋白质网络可视化。


yMap 中的翻译后修改是从不同的存储库(如 UniProt)和
带有注释 PTM(如 PTMcode 2.0 和 PTMfunc)的源收集的,有关更多详细信息,请参见下文。


在用户友好的三个步骤中,它会生成一个“最终报告”文件来报告所有与上述蛋白质功能区域重叠或落入 的非同义 突变。
最终报告补充了另外两个文件;丰富和可视化 id 文件

#Dependencies

yMap 依赖于:

python 2.6.x

python 3.x

Orange bioinformatics (http://pythonhosted.org/Orange-Bioinformatics/#installation)

#Video demo
https://www.youtube.com/ watch?v=pcmkuWvLRzI

#Installation

pip install ymap

#Usage

step1: $ ydata #下载正确执行ymap所需的所有数据

步骤2:将“突变文件”复制并粘贴到当前目录

步骤3:$ yproteins #如果起始文件包含蛋白质级别的突变
(参见example_mutation_file/mutation.txt)。

step3: $ ygenes #if 起始文件包含带有遗传坐标的染色体级别的突变(参见 example_mutation_file/mutated_proteins.txt)。

step4: $ yweb # 在 BioGrid db 上生成基于 html 的突变蛋白质可视化。
(注意:当被问到时,用户需要指定“path/to/biog.txt”作为输入)


*从源代码运行:

将路径更改为包含 ymap.py 的目录

$python ymap.py -d ydata (step1)

$pyhton ymap.py -p yproteins (step3)

$pyhton ymap.py -g ygenes (step3)

$pyhton ymap.py -w yweb (step4)

#Contents:
不同的介绍数据 类型(在 yMap 中生成/提供) 所有
方法简介
结果(结果数据
简介 )文件包含蛋白质通用名称和突变残基位置 (请遵循示例数据中输入文件的确切命名约定,以正确执行 ymap;参见示例数据)) ———输出———(ymap 所需的预分析数据执行)












(i) 从 UniProt 下载并存储在当前目录中的原始文件。通过执行步骤 2。


1 - uniprot_mod_raw.txt # 原始格式的 Uniprot 数据


2 -yeastID.txt # 包含文件的酵母 id


3 - PTMs.txt # 包含酵母蛋白、PTM 位置和 PTM 类型


4 - PTM_id_file.txt # 2 和 3 的组合文件。


5 - domain.txt # 酵母蛋白,域开始、结束和名称


6 - id_domain.txt # 2 和 5 的组合文件。


7 - bact.txt # 包含蛋白质 id,以及结合和活性位点
位置

8 - sites_id.txt # 组合文件 2 和 7。


9 - uniprot_bioGrid.txt # 包含所有具有 BioGrid id


(iB) 的酵母蛋白 PTMcode 和 PTMfunc

(PTMfunc) 的预下载文件

3DID_aceksites_interfaceRes_sc.txt

3DID_phosphosites_interfaceRes_sc.txt

3DID_ubisites_interfaceRessc_sc.txt

SC_psites_interactions_sc.txt

SC_ubi_interactions_sc.txt

SC_acet_interactions.txt

(PTMcode)

schotspot.txt

sc_btw_proteins.txt

sc_within_proteins.txt



(ii) 通过执行来自 UniProt 和其他资源的处理数据

从原始 UniProt 文件中产生的许多文件用于进一步分析:

PTMs.txt
包含翻译后修饰

PTM_id_file.txt
PTMs.txt 包含所有蛋白质 ID

PDB.txt
包含来自 UniProt

核苷酸 .txt 的 PDB 结构数据
包含 DNA-蛋白质结合基序

back.txt
包含蛋白质活性和结合位置

d_id_map.txt
包含具有所有 ids 的蛋白质域 id_domain.txt 来自 frmt.txt 的 gff 数据以及来自 UniProt 的所有 ids

domain.txt 域 数据 frmt.txt 格式化 gff用于进一步处理的文件 sites_id.xt 具有所有 id 的活性/结合位点 unipro_bioGrid.txt 包含所有酵母 蛋白 的 BioGrid id #结果






















(在 ymap-results 文件夹中,每个子文件夹包含三个文件,一个是突变分析文件,其中包括突变的蛋白质、突变位置、突变的功能区域和数据源、pvalue.txt 的通路富集和 biog.txt,一个 biogrid id 对应 /PTMs/mutated_proteins.txt 包含在 PTM 位点 突变 的蛋白质 ID

/Domains/domains_mapped.txt 包含针对蛋白质结构域突变的蛋白质 ID /A-B_binding/ab_mutation_file.txt 包含在活性和结合 PPI 处突变的蛋白质 ID - PTMfunc 数据 PPI/乙酰化 PTM 型残基在 PPI 中很重要 PPI/磷酸化 PTM 型残基在 PPI 中很重要

















PPI/泛素化
PTM 型含残基在 PPI

界面 中很重要

界面/泛素化
PTM 型含残基存在于蛋白质界面

界面/乙酰化
PTM 型含残基存在于蛋白质界面

界面/磷酸化
PTM 型含残基存在于蛋白质界面

PTMs_hotSpot
PTMs 集中在一个被 Beltrao 等人称为 hopspot 的小基序中。Cell 2012.

PTMs_between_proteins - PTMcode2.0 数据 PTMs
存在于两种蛋白质之间并参与串扰。

PTMs_witnin_proteins PTMs
存在于蛋白质中并参与串扰。

biog.txt
包含用于 -w web 功能的蛋白质 BioGrid id(此文件存在于每个子文件夹中)。

p-value.txt
包含观察到的每种突变类型的途径富集(此文件存在于每个子文件夹中)。

final_report.txt
是 summary.txt 的精炼版本,包含蛋白质 UniProt id、常用名称、氨基酸突变位置、野生型​​氨基酸、突变氨基酸、突变类型(非同义/终止密码子)、突变特征类型(即 PTM 类型或域名等)、突变特征(即 PTM、域或其他)和数据源(例如 UnProt)



#所有方法的介绍
(单个方法如何在 ymap 中工作)

注意:将包含文件的突变的名称更改为“mutated_proteins.txt”(参见示例数据)并复制到 cd path/to/ymap


函数名称描述

mutation_types_file() 突变类型和氨基酸变化计算(其中 ref. 和突变base known)

pTMdata()
将 UpiProt 数据下载为原始 txt 文件 (uniprot_mod_raw.txt)

clean()
将文件 'uniprot_mod_raw.txt' 清理到制表符分隔的'PTMs.txt'

iD()
此方法检索不同的 ID 类型以进行映射(yeastID.txt)

pmap()
如果蛋白质 ID 不是 SDG 或 uniprot 或通用名称,则此方法映射 ID

ptm_map()
此方法将来自先前方法的突变密码子之间的重叠映射到 PTM 站点

dclean()
域数据需要从 UniProt 文件中过滤,在映射域之前
d_map()
将突变映射到酵母域 (id_domain.txt)

dmap()
映射突变to protein domain (domains_mapped.txt)

富集()
该方法对突变蛋白进行富集分析,并返回
突变蛋白在不同功能区/残基的功能富集的 p 值;请参阅正文以了解如何计算 pvalue。
ab()
准备原始 Uniprot 数据 (uniprot_mod_raw.txt) 用于酵母活性和结合位点突变分析 (bact.txt)

id()
将蛋白质 ids 映射到含有蛋白质的活性和结合位点 (sites_id.txt)

mmap()
将突变映射到蛋白质活性和结合位点 (ab_mutation_file.txt)

核苷酸()
为映射到突变的核苷酸基序准备 UniProt 数据

n_map()
映射不同的蛋白质 ids 到核苷酸数据

核苷酸映射()
将突变映射到核苷酸结合基序

bioGrid()
从 UniProt 下载酵母蛋白的 BioGrid id 以进行进一步处理,包括映射和网页浏览
警告:需要强大的机器才能使用,因为在具有记忆不足。

preWeb()
将突变映射到 BioGrid id (biog.txt)

bweb() 在浏览器中打开 BioGrid db,其中包含与突变蛋白质一样多的选项卡

pdb_c() 来自 UniProt

mu_map() 突变蛋白质的结构数据过滤映射到酵母 ID 文件

pdb() 此代码将突变映射到蛋白质结构区域

interface() PTM存在于两种蛋白质的界面并已知在相互作用中发挥作用 (Beltrao et al. Cell 2012)

ppi() PTM 存在于两种蛋白质的界面并已知在相互作用中发挥作用 (Beltrao et al. Cell 2012)

inPro( ) PTMs (predicted) 参与面包师时期给定蛋白质内的

串扰 (Minguez el 2012)

hotspot() PTMs 包含非常接近的基序被命名为热点 (Beltrao et al. Cell 2012)

#Troubleshoots


1 - 带注释的 PTMs 的文件丢失或少于九个。

原因:解压数据/PTMcode+PTMfunc_data/sc_btw_proteins.txt.zip在$ydata命令中不起作用。
如何更正:手动解压缩 sc_btw_proteins.txt.zip 文件并运行 $ ydata(通常不需要)

2 - $ ygenes 给出错误消息:

“IndexError: string index out of range”

2(b) - 相同的原因(下)导致将突变映射到不同的功能区域(如域)不成功:

“错误:输入文件包含 BRR2 蛋白的错误位置”

原因:突变位置落在各个蛋白质的开始和结束之外(注意:要分析
具有正确突变位置的起始文件中的蛋白质,用户可以使用单独的方法 uniprot_data()
和 functional_data(),完成所有分析,比执行命令行 step3)

如何更正:查看突变的位置并手动比较它们是否对应于
蛋白质的开始和结束位置,如果不是,更正问题并重新运行$ ygenes命令。

3 - yweb 找不到目录。

如何更正:在 python 2.x 中,路径应该以“path/to/biog.txt”的形式给出,但在 python 3.x 中,它没有逗号,
path/to/biog.txt


#Contributors

http://www.biw.kuleuven.be/CSB/

这项工作得到了 KU Leuven 研究基金的支持。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

ymap-2.0.8.tar.gz (11.9 MB 查看哈希

已上传 source