一种将酵母变体映射到蛋白质修饰和功能区域的自动化方法
项目描述
# yMap - 酵母基因型到表型图(2016 年发布)
yMap 是一种基于 python 的快速和强大的自动化方法,用于将大型酵母变异数据映射到
- 蛋白质翻译后修饰
- 蛋白质结构域,
- 蛋白质 - 核苷酸结合结构域,
- 蛋白质结构区域,
- 蛋白质活性和结合位点
- 蛋白质网络可视化。
yMap 中的翻译后修改是从不同的存储库(如 UniProt)和
带有注释 PTM(如 PTMcode 2.0 和 PTMfunc)的源收集的,有关更多详细信息,请参见下文。
在用户友好的三个步骤中,它会生成一个“最终报告”文件来报告所有与上述蛋白质功能区域重叠或落入 的非同义 突变。
最终报告补充了另外两个文件;丰富和可视化 id 文件
#Dependencies
yMap 依赖于:
python 2.6.x
python 3.x
Orange bioinformatics (http://pythonhosted.org/Orange-Bioinformatics/#installation)
#Video demo
https://www.youtube.com/ watch?v=pcmkuWvLRzI
#Installation
pip install ymap
#Usage
step1: $ ydata #下载正确执行ymap所需的所有数据
步骤2:将“突变文件”复制并粘贴到当前目录
步骤3:$ yproteins #如果起始文件包含蛋白质级别的突变
(参见example_mutation_file/mutation.txt)。
step3: $ ygenes #if 起始文件包含带有遗传坐标的染色体级别的突变(参见 example_mutation_file/mutated_proteins.txt)。
step4: $ yweb # 在 BioGrid db 上生成基于 html 的突变蛋白质可视化。
(注意:当被问到时,用户需要指定“path/to/biog.txt”作为输入)
*从源代码运行:
将路径更改为包含 ymap.py 的目录
$python ymap.py -d ydata (step1)
$pyhton ymap.py -p yproteins (step3)
$pyhton ymap.py -g ygenes (step3)
$pyhton ymap.py -w yweb (step4)
#Contents:
不同的介绍数据 类型(在 yMap 中生成/提供) 所有
方法简介
结果(结果数据
简介 )文件包含蛋白质通用名称和突变残基位置 (请遵循示例数据中输入文件的确切命名约定,以正确执行 ymap;参见示例数据)) ———输出———(ymap 所需的预分析数据执行)
(i) 从 UniProt 下载并存储在当前目录中的原始文件。通过执行步骤 2。
1 - uniprot_mod_raw.txt # 原始格式的 Uniprot 数据
2 -yeastID.txt # 包含文件的酵母 id
3 - PTMs.txt # 包含酵母蛋白、PTM 位置和 PTM 类型
4 - PTM_id_file.txt # 2 和 3 的组合文件。
5 - domain.txt # 酵母蛋白,域开始、结束和名称
6 - id_domain.txt # 2 和 5 的组合文件。
7 - bact.txt # 包含蛋白质 id,以及结合和活性位点
位置
8 - sites_id.txt # 组合文件 2 和 7。
9 - uniprot_bioGrid.txt # 包含所有具有 BioGrid id
(iB) 的酵母蛋白 PTMcode 和 PTMfunc
(PTMfunc) 的预下载文件
3DID_aceksites_interfaceRes_sc.txt
3DID_phosphosites_interfaceRes_sc.txt
3DID_ubisites_interfaceRessc_sc.txt
SC_psites_interactions_sc.txt
SC_ubi_interactions_sc.txt
SC_acet_interactions.txt
(PTMcode)
schotspot.txt
sc_btw_proteins.txt
sc_within_proteins.txt
(ii) 通过执行来自 UniProt 和其他资源的处理数据
从原始 UniProt 文件中产生的许多文件用于进一步分析:
PTMs.txt
包含翻译后修饰
PTM_id_file.txt
PTMs.txt 包含所有蛋白质 ID
PDB.txt
包含来自 UniProt
核苷酸 .txt 的 PDB 结构数据
包含 DNA-蛋白质结合基序
back.txt
包含蛋白质活性和结合位置
d_id_map.txt
包含具有所有 ids 的蛋白质域 id_domain.txt 来自 frmt.txt 的 gff 数据以及来自 UniProt 的所有 ids
domain.txt 域 数据 frmt.txt 格式化 gff用于进一步处理的文件 sites_id.xt 具有所有 id 的活性/结合位点 unipro_bioGrid.txt 包含所有酵母 蛋白 的 BioGrid id #结果
(在 ymap-results 文件夹中,每个子文件夹包含三个文件,一个是突变分析文件,其中包括突变的蛋白质、突变位置、突变的功能区域和数据源、pvalue.txt 的通路富集和 biog.txt,一个 biogrid id 对应 /PTMs/mutated_proteins.txt 包含在 PTM 位点 突变 的蛋白质 ID
/Domains/domains_mapped.txt 包含针对蛋白质结构域突变的蛋白质 ID /A-B_binding/ab_mutation_file.txt 包含在活性和结合 PPI 处突变的蛋白质 ID - PTMfunc 数据 PPI/乙酰化 PTM 型残基在 PPI 中很重要 PPI/磷酸化 PTM 型残基在 PPI 中很重要
PPI/泛素化
PTM 型含残基在 PPI
界面 中很重要
界面/泛素化
PTM 型含残基存在于蛋白质界面
界面/乙酰化
PTM 型含残基存在于蛋白质界面
界面/磷酸化
PTM 型含残基存在于蛋白质界面
PTMs_hotSpot
PTMs 集中在一个被 Beltrao 等人称为 hopspot 的小基序中。Cell 2012.
PTMs_between_proteins - PTMcode2.0 数据 PTMs
存在于两种蛋白质之间并参与串扰。
PTMs_witnin_proteins PTMs
存在于蛋白质中并参与串扰。
biog.txt
包含用于 -w web 功能的蛋白质 BioGrid id(此文件存在于每个子文件夹中)。
p-value.txt
包含观察到的每种突变类型的途径富集(此文件存在于每个子文件夹中)。
final_report.txt
是 summary.txt 的精炼版本,包含蛋白质 UniProt id、常用名称、氨基酸突变位置、野生型氨基酸、突变氨基酸、突变类型(非同义/终止密码子)、突变特征类型(即 PTM 类型或域名等)、突变特征(即 PTM、域或其他)和数据源(例如 UnProt)
#所有方法的介绍
(单个方法如何在 ymap 中工作)
注意:将包含文件的突变的名称更改为“mutated_proteins.txt”(参见示例数据)并复制到 cd path/to/ymap
函数名称描述
mutation_types_file() 突变类型和氨基酸变化计算(其中 ref. 和突变base known)
pTMdata()
将 UpiProt 数据下载为原始 txt 文件 (uniprot_mod_raw.txt)
clean()
将文件 'uniprot_mod_raw.txt' 清理到制表符分隔的'PTMs.txt'
iD()
此方法检索不同的 ID 类型以进行映射(yeastID.txt)
pmap()
如果蛋白质 ID 不是 SDG 或 uniprot 或通用名称,则此方法映射 ID
ptm_map()
此方法将来自先前方法的突变密码子之间的重叠映射到 PTM 站点
dclean()
域数据需要从 UniProt 文件中过滤,在映射域之前
d_map()
将突变映射到酵母域 (id_domain.txt)
dmap()
映射突变to protein domain (domains_mapped.txt)
富集()
该方法对突变蛋白进行富集分析,并返回
突变蛋白在不同功能区/残基的功能富集的 p 值;请参阅正文以了解如何计算 pvalue。
ab()
准备原始 Uniprot 数据 (uniprot_mod_raw.txt) 用于酵母活性和结合位点突变分析 (bact.txt)
id()
将蛋白质 ids 映射到含有蛋白质的活性和结合位点 (sites_id.txt)
mmap()
将突变映射到蛋白质活性和结合位点 (ab_mutation_file.txt)
核苷酸()
为映射到突变的核苷酸基序准备 UniProt 数据
n_map()
映射不同的蛋白质 ids 到核苷酸数据
核苷酸映射()
将突变映射到核苷酸结合基序
bioGrid()
从 UniProt 下载酵母蛋白的 BioGrid id 以进行进一步处理,包括映射和网页浏览
警告:需要强大的机器才能使用,因为在具有记忆不足。
preWeb()
将突变映射到 BioGrid id (biog.txt)
bweb() 在浏览器中打开 BioGrid db,其中包含与突变蛋白质一样多的选项卡
pdb_c() 来自 UniProt
mu_map() 突变蛋白质的结构数据过滤映射到酵母 ID 文件
pdb() 此代码将突变映射到蛋白质结构区域
interface() PTM存在于两种蛋白质的界面并已知在相互作用中发挥作用 (Beltrao et al. Cell 2012)
ppi() PTM 存在于两种蛋白质的界面并已知在相互作用中发挥作用 (Beltrao et al. Cell 2012)
inPro( ) PTMs (predicted) 参与面包师时期给定蛋白质内的
串扰 (Minguez el 2012)
hotspot() PTMs 包含非常接近的基序被命名为热点 (Beltrao et al. Cell 2012)
#Troubleshoots
1 - 带注释的 PTMs 的文件丢失或少于九个。
原因:解压数据/PTMcode+PTMfunc_data/sc_btw_proteins.txt.zip在$ydata命令中不起作用。
如何更正:手动解压缩 sc_btw_proteins.txt.zip 文件并运行 $ ydata(通常不需要)
2 - $ ygenes 给出错误消息:
“IndexError: string index out of range”
2(b) - 相同的原因(下)导致将突变映射到不同的功能区域(如域)不成功:
“错误:输入文件包含 BRR2 蛋白的错误位置”
原因:突变位置落在各个蛋白质的开始和结束之外(注意:要分析
具有正确突变位置的起始文件中的蛋白质,用户可以使用单独的方法 uniprot_data()
和 functional_data(),完成所有分析,比执行命令行 step3)
如何更正:查看突变的位置并手动比较它们是否对应于
蛋白质的开始和结束位置,如果不是,更正问题并重新运行$ ygenes命令。
3 - yweb 找不到目录。
如何更正:在 python 2.x 中,路径应该以“path/to/biog.txt”的形式给出,但在 python 3.x 中,它没有逗号,
path/to/biog.txt
#Contributors
http://www.biw.kuleuven.be/CSB/
这项工作得到了 KU Leuven 研究基金的支持。
yMap 是一种基于 python 的快速和强大的自动化方法,用于将大型酵母变异数据映射到
- 蛋白质翻译后修饰
- 蛋白质结构域,
- 蛋白质 - 核苷酸结合结构域,
- 蛋白质结构区域,
- 蛋白质活性和结合位点
- 蛋白质网络可视化。
yMap 中的翻译后修改是从不同的存储库(如 UniProt)和
带有注释 PTM(如 PTMcode 2.0 和 PTMfunc)的源收集的,有关更多详细信息,请参见下文。
在用户友好的三个步骤中,它会生成一个“最终报告”文件来报告所有与上述蛋白质功能区域重叠或落入 的非同义 突变。
最终报告补充了另外两个文件;丰富和可视化 id 文件
#Dependencies
yMap 依赖于:
python 2.6.x
python 3.x
Orange bioinformatics (http://pythonhosted.org/Orange-Bioinformatics/#installation)
#Video demo
https://www.youtube.com/ watch?v=pcmkuWvLRzI
#Installation
pip install ymap
#Usage
step1: $ ydata #下载正确执行ymap所需的所有数据
步骤2:将“突变文件”复制并粘贴到当前目录
步骤3:$ yproteins #如果起始文件包含蛋白质级别的突变
(参见example_mutation_file/mutation.txt)。
step3: $ ygenes #if 起始文件包含带有遗传坐标的染色体级别的突变(参见 example_mutation_file/mutated_proteins.txt)。
step4: $ yweb # 在 BioGrid db 上生成基于 html 的突变蛋白质可视化。
(注意:当被问到时,用户需要指定“path/to/biog.txt”作为输入)
*从源代码运行:
将路径更改为包含 ymap.py 的目录
$python ymap.py -d ydata (step1)
$pyhton ymap.py -p yproteins (step3)
$pyhton ymap.py -g ygenes (step3)
$pyhton ymap.py -w yweb (step4)
#Contents:
不同的介绍数据 类型(在 yMap 中生成/提供) 所有
方法简介
结果(结果数据
简介 )文件包含蛋白质通用名称和突变残基位置 (请遵循示例数据中输入文件的确切命名约定,以正确执行 ymap;参见示例数据)) ———输出———(ymap 所需的预分析数据执行)
(i) 从 UniProt 下载并存储在当前目录中的原始文件。通过执行步骤 2。
1 - uniprot_mod_raw.txt # 原始格式的 Uniprot 数据
2 -yeastID.txt # 包含文件的酵母 id
3 - PTMs.txt # 包含酵母蛋白、PTM 位置和 PTM 类型
4 - PTM_id_file.txt # 2 和 3 的组合文件。
5 - domain.txt # 酵母蛋白,域开始、结束和名称
6 - id_domain.txt # 2 和 5 的组合文件。
7 - bact.txt # 包含蛋白质 id,以及结合和活性位点
位置
8 - sites_id.txt # 组合文件 2 和 7。
9 - uniprot_bioGrid.txt # 包含所有具有 BioGrid id
(iB) 的酵母蛋白 PTMcode 和 PTMfunc
(PTMfunc) 的预下载文件
3DID_aceksites_interfaceRes_sc.txt
3DID_phosphosites_interfaceRes_sc.txt
3DID_ubisites_interfaceRessc_sc.txt
SC_psites_interactions_sc.txt
SC_ubi_interactions_sc.txt
SC_acet_interactions.txt
(PTMcode)
schotspot.txt
sc_btw_proteins.txt
sc_within_proteins.txt
(ii) 通过执行来自 UniProt 和其他资源的处理数据
从原始 UniProt 文件中产生的许多文件用于进一步分析:
PTMs.txt
包含翻译后修饰
PTM_id_file.txt
PTMs.txt 包含所有蛋白质 ID
PDB.txt
包含来自 UniProt
核苷酸 .txt 的 PDB 结构数据
包含 DNA-蛋白质结合基序
back.txt
包含蛋白质活性和结合位置
d_id_map.txt
包含具有所有 ids 的蛋白质域 id_domain.txt 来自 frmt.txt 的 gff 数据以及来自 UniProt 的所有 ids
domain.txt 域 数据 frmt.txt 格式化 gff用于进一步处理的文件 sites_id.xt 具有所有 id 的活性/结合位点 unipro_bioGrid.txt 包含所有酵母 蛋白 的 BioGrid id #结果
(在 ymap-results 文件夹中,每个子文件夹包含三个文件,一个是突变分析文件,其中包括突变的蛋白质、突变位置、突变的功能区域和数据源、pvalue.txt 的通路富集和 biog.txt,一个 biogrid id 对应 /PTMs/mutated_proteins.txt 包含在 PTM 位点 突变 的蛋白质 ID
/Domains/domains_mapped.txt 包含针对蛋白质结构域突变的蛋白质 ID /A-B_binding/ab_mutation_file.txt 包含在活性和结合 PPI 处突变的蛋白质 ID - PTMfunc 数据 PPI/乙酰化 PTM 型残基在 PPI 中很重要 PPI/磷酸化 PTM 型残基在 PPI 中很重要
PPI/泛素化
PTM 型含残基在 PPI
界面 中很重要
界面/泛素化
PTM 型含残基存在于蛋白质界面
界面/乙酰化
PTM 型含残基存在于蛋白质界面
界面/磷酸化
PTM 型含残基存在于蛋白质界面
PTMs_hotSpot
PTMs 集中在一个被 Beltrao 等人称为 hopspot 的小基序中。Cell 2012.
PTMs_between_proteins - PTMcode2.0 数据 PTMs
存在于两种蛋白质之间并参与串扰。
PTMs_witnin_proteins PTMs
存在于蛋白质中并参与串扰。
biog.txt
包含用于 -w web 功能的蛋白质 BioGrid id(此文件存在于每个子文件夹中)。
p-value.txt
包含观察到的每种突变类型的途径富集(此文件存在于每个子文件夹中)。
final_report.txt
是 summary.txt 的精炼版本,包含蛋白质 UniProt id、常用名称、氨基酸突变位置、野生型氨基酸、突变氨基酸、突变类型(非同义/终止密码子)、突变特征类型(即 PTM 类型或域名等)、突变特征(即 PTM、域或其他)和数据源(例如 UnProt)
#所有方法的介绍
(单个方法如何在 ymap 中工作)
注意:将包含文件的突变的名称更改为“mutated_proteins.txt”(参见示例数据)并复制到 cd path/to/ymap
函数名称描述
mutation_types_file() 突变类型和氨基酸变化计算(其中 ref. 和突变base known)
pTMdata()
将 UpiProt 数据下载为原始 txt 文件 (uniprot_mod_raw.txt)
clean()
将文件 'uniprot_mod_raw.txt' 清理到制表符分隔的'PTMs.txt'
iD()
此方法检索不同的 ID 类型以进行映射(yeastID.txt)
pmap()
如果蛋白质 ID 不是 SDG 或 uniprot 或通用名称,则此方法映射 ID
ptm_map()
此方法将来自先前方法的突变密码子之间的重叠映射到 PTM 站点
dclean()
域数据需要从 UniProt 文件中过滤,在映射域之前
d_map()
将突变映射到酵母域 (id_domain.txt)
dmap()
映射突变to protein domain (domains_mapped.txt)
富集()
该方法对突变蛋白进行富集分析,并返回
突变蛋白在不同功能区/残基的功能富集的 p 值;请参阅正文以了解如何计算 pvalue。
ab()
准备原始 Uniprot 数据 (uniprot_mod_raw.txt) 用于酵母活性和结合位点突变分析 (bact.txt)
id()
将蛋白质 ids 映射到含有蛋白质的活性和结合位点 (sites_id.txt)
mmap()
将突变映射到蛋白质活性和结合位点 (ab_mutation_file.txt)
核苷酸()
为映射到突变的核苷酸基序准备 UniProt 数据
n_map()
映射不同的蛋白质 ids 到核苷酸数据
核苷酸映射()
将突变映射到核苷酸结合基序
bioGrid()
从 UniProt 下载酵母蛋白的 BioGrid id 以进行进一步处理,包括映射和网页浏览
警告:需要强大的机器才能使用,因为在具有记忆不足。
preWeb()
将突变映射到 BioGrid id (biog.txt)
bweb() 在浏览器中打开 BioGrid db,其中包含与突变蛋白质一样多的选项卡
pdb_c() 来自 UniProt
mu_map() 突变蛋白质的结构数据过滤映射到酵母 ID 文件
pdb() 此代码将突变映射到蛋白质结构区域
interface() PTM存在于两种蛋白质的界面并已知在相互作用中发挥作用 (Beltrao et al. Cell 2012)
ppi() PTM 存在于两种蛋白质的界面并已知在相互作用中发挥作用 (Beltrao et al. Cell 2012)
inPro( ) PTMs (predicted) 参与面包师时期给定蛋白质内的
串扰 (Minguez el 2012)
hotspot() PTMs 包含非常接近的基序被命名为热点 (Beltrao et al. Cell 2012)
#Troubleshoots
1 - 带注释的 PTMs 的文件丢失或少于九个。
原因:解压数据/PTMcode+PTMfunc_data/sc_btw_proteins.txt.zip在$ydata命令中不起作用。
如何更正:手动解压缩 sc_btw_proteins.txt.zip 文件并运行 $ ydata(通常不需要)
2 - $ ygenes 给出错误消息:
“IndexError: string index out of range”
2(b) - 相同的原因(下)导致将突变映射到不同的功能区域(如域)不成功:
“错误:输入文件包含 BRR2 蛋白的错误位置”
原因:突变位置落在各个蛋白质的开始和结束之外(注意:要分析
具有正确突变位置的起始文件中的蛋白质,用户可以使用单独的方法 uniprot_data()
和 functional_data(),完成所有分析,比执行命令行 step3)
如何更正:查看突变的位置并手动比较它们是否对应于
蛋白质的开始和结束位置,如果不是,更正问题并重新运行$ ygenes命令。
3 - yweb 找不到目录。
如何更正:在 python 2.x 中,路径应该以“path/to/biog.txt”的形式给出,但在 python 3.x 中,它没有逗号,
path/to/biog.txt
#Contributors
http://www.biw.kuleuven.be/CSB/
这项工作得到了 KU Leuven 研究基金的支持。