Python自动检索TimeTree数据
项目描述
帕雷特
Python自动检索TimeTree数据
版本 1.0.1,Windows 操作系统
介绍
PAReTT 是一个菜单驱动模块,用于与时间树资源交互,专门设计用于自动批量检索物种列表的数据。使用 PAReTT 可以检索三种主要类型的数据:(1)个体对之间或列表中所有物种之间的分歧时间,(2)个体或列表物种的进化时间线,以及(3)时间树分歧时间,对于特定分类单元内的所有可用物种或作为列表提供的单个物种之间。处理物种列表时,最好的起点是使用第一个菜单选项检查列表中物种的数据可用性,并删除任何数据不可用的物种。
依赖项:
- 蟒蛇> = 3.6
- 麻木> = 1.20.1
- 熊猫 >= 1.2.4
- Bio >= 1.3.9(用于处理newick树)
- Splinter >= 0.17.0(用于与服务器交互)
- 硒 >= 4.1.5
- Geckodriver >= 0.31.0 (添加到 PATH)
- 火狐浏览器
安装:
下载并解压 zip 存档后,可以通过导航到目录并使用以下两种方法之一来实现 PAReTT:
python parett.py
或者
python setup.py install
python -m parett
-> 该选项会自动安装相关依赖
还提供预编译的独立 Windows可执行文件。
主菜单
通过主菜单可以使用以下选项:
MAIN MENU:
----------------------------------------
Choose one of the following options?
*) Check data availability
a) Get Divergence Times (pair)
b) Get Divergence Times (batch)
c) Get Evolutionary Timeline
d) Build a Time Tree
e) Print citation
f) Validate datafile
q) Quit
----------------------------------------
输入以小写 '*'、'a'、'b'、'c'、'd'、'e'、'f' 或 'q' 的形式给出,例如
Choice: a
*) 检查数据可用性
调出菜单以首先检查 TimeTree.org 网站,了解您研究物种的分歧时间数据的可用性。
AVAILABILITY MENU:
----------------------------------------
Choose one of the following options?
i) Individual
l) List
m) Main menu
----------------------------------------
输入为小写“i”、“l”或“m”(返回主菜单)
i) 个人
-
将单个物种作为输入来查找数据可用性,例如Passer montanus
-
在屏幕上打印可用性
l) 清单
-
从.txt输入文件中获取物种列表作为输入,例如Species.txt
-
在屏幕上打印可用性
-
提供将结果保存到.csv格式文件的选项,例如Availability.csv
例如
| 物种 | 时间树数据 |
|---|---|
| 芝麻菜 | 可用的 |
| 旱獭 | 可用的 |
| 绦虫 | 可用的 |
a) 获取发散时间(对)
- 将一对物种作为输入来查找分歧时间,例如分类群 a:Passer montanus,分类群 b:Halcyon senegalensis
- 在屏幕上打印对的发散时间
b) 获取发散时间(批量)
- 将物种列表作为输入,以从.txt输入文件(例如Species.txt)中查找分歧时间
- 在屏幕上打印对的发散时间
- 提供将结果保存到.csv格式的文件的选项,例如Output.csv
例如
| 分类1 | 类群2 | 分时 |
|---|---|---|
| 芝麻菜 | 芝麻菜 | 0 |
| 芝麻菜 | 旱獭 | 35 |
| 芝麻菜 | 绦虫 | 3.52 |
| 旱獭 | 芝麻菜 | 35 |
| 旱獭 | 旱獭 | 0 |
| 旱獭 | 绦虫 | 35 |
| 绦虫 | 芝麻菜 | 3.52 |
| 绦虫 | 旱獭 | 35 |
| 绦虫 | 绦虫 | 0 |
- 当检索较长列表 (>5-10) 的数据时,服务器问题可能会导致缺失值 (NA),可以在运行后使用数据验证菜单选项进行检查和替换。
c) 获取进化时间表
调出菜单选项以检索进化时间线:
TIMELINE MENU:
----------------------------------------
Choose one of the following options?
i) Individual
l) List
m) Main menu
----------------------------------------
输入为小写“i”、“l”或“m”(返回主菜单)
i) 个人
-
将单个物种作为输入来查找进化时间线,例如Passer montanus
-
下载.jpg结果
l) 清单
-
从.txt输入文件中获取物种列表作为输入,例如Species.txt
-
下载列表中每个物种的.jpg结果
d) 构建时间树
调出时间树菜单选项
TIME TREE MENU:
----------------------------------------
Choose one of the following options?
t) Taxon
s) Species list
m) Main menu
----------------------------------------
输入为小写“t”、“s”或“m”(返回主菜单)
t) 分类单元
- 使用分类单元的名称来获取分类单元内所有可用物种的时间树,例如Saxicola
s) 物种清单
-
将物种列表作为.txt输入文件的输入,以生成时间树,例如Species.txt
-
以 Newick 格式下载生成的时间树
-
将替换或丢失的物种存储到.txt文件中,例如replacements.txt
e) 打印引文
打印 TimeTree 资源的引用
S. Kumar、G. Stecher、M. Suleski 和 SB Hedges,2017 年。时间树:时间线、时间树和分歧时间的资源。分子生物学与进化 34:1812-1819,DOI:10.1093/molbev/msx116
f) 验证数据文件
调出数据文件验证菜单选项
VALIDATE MENU:
----------------------------------------
a) Check missing
b) Replace missing
c) View tree
m) Main menu
----------------------------------------
输入以小写“a”、“b”、“c”或“m”形式给出(返回主菜单)
a) 检查缺失
-
用于检查运行一长串物种(> 10 种)中的缺失值
-
从散度时间函数中获取输出文件 (.csv) 并检查任何缺失值
例如
分类1 类群2 分时 芝麻菜 芝麻菜 0 芝麻菜 旱獭 不适用 芝麻菜 绦虫 3.52 旱獭 芝麻菜 35 旱獭 旱獭 0 旱獭 绦虫 不适用 绦虫 芝麻菜 3.52 绦虫 旱獭 35 绦虫 绦虫 0 -
如果未检测到缺失值,将打印“No missing values”
-
如果检测到缺失值,则会将它们打印到屏幕上,并尝试查找这些值
-
要求提供文件名以将缺失值存储为.csv文件,例如missing.csv
例如
分类1 类群2 分时 芝麻菜 旱獭 35 旱獭 绦虫 35
b) 替换缺失
-
用于替换一长串物种中的缺失值(发散时间)
-
获取两个输入文件,一个带有分歧时间,一个带有使用“检查缺失”检测到的缺失值
-
要求提供文件名以存储经过验证的发散时间数据集
例如
分类1 类群2 分时 芝麻菜 芝麻菜 0 芝麻菜 旱獭 35 芝麻菜 绦虫 3.52 旱獭 芝麻菜 35 旱獭 旱獭 0 旱獭 绦虫 35 绦虫 芝麻菜 3.52 绦虫 旱獭 35 绦虫 绦虫 0
c) 查看树
- 以 newick 树作为输入并呈现树拓扑的基本显示
q) 退出
退出程序
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。