轻松从 GEO-NCBI 下载 FASTQ 文件。
项目描述
请注意,geoDL 处于测试版,因此预计会出现错误
geoDL 是一个 python 程序,用于从GEO-NCBI下载 FASTQ 文件。该程序输入#GEO 访问号码并在EMBL-EBI/ENA网站上执行搜索以收集元数据并下载 FASTQ 文件。元数据用于使用实验样本名称(而不是 SRR 编号)重命名样本。
依赖项
geoDL 应该与Python3和Python2一起工作,但仍然必须运行测试
Beautifulsoup4,colorama和六个python包是必需的
wget在内部使用,因此是 geoDL 的依赖项
安装
在 Linux 和 MacOSx 上
$ pip install --user geoDL
请注意,安装 beta 版本可能需要标志–pre 。
用法
usage: geoDL.py [-h] [--dry] [--samples [SAMPLES [SAMPLES ...]]] [--colname COLNAME]
{geo,meta,ena} GSE|metadata|ENA
{geo,meta,ena} Specify which type of input
GSE|metadata|ENA geo: GSE accession number, eg: GSE13373
Map the GSE accession to the ENA study accession and fetch the metadata
meta: Use metadata file instead of fetching it on ENA website (bypass GEO)
Meta data should include at minima the following columns: ['Fastq files
(ftp)', 'Submitter's sample name']
ena: ENA study accession number, eg: PRJEB13373
Fetch the metadata directely on the ENA website
optional arguments:
-h, --help show this help message and exit
--dry Don't actually download anything, just print the wget
cmds
--samples [SAMPLES [SAMPLES ...]]
Space separated list of GSM samples to download. For
ENA mode, subset the metadata
--colname COLNAME Name of the column to use in the metadata file to name
the samples
例子
下载元数据和系列 GSE13373 的所有样本,并将它们重命名为它们的样本名称:
$ geoDL geo GSE13373
仅下载一些示例:
$ geoDL GSE13373 -s GSM00001 GSM00003
下载使用预下载的元数据并使用列 run_alias 作为示例的名称:
$ geoDL meta my_metadata.txt --column run_alias
使用 ENA 代码而不是 GSE 代码:
$ geoDL ena PRJEB13373
Beta测试
测试python2支持
wget的测试处理