一个支持数据科学项目的 Python 类。
项目描述
可恢复的
一个支持数据科学项目的 Python 类。
resumables 支持您编写数据科学脚本,包括保存/恢复功能。
可以保存和恢复数据,避免从数据存储中不必要地检索原始数据。
数据目录结构的灵感来自 cookiecutter-data-science ( https://drivendata.github.io/cookiecutter-data-science/ )。
该类还支持“分析是一个 DAG”(https://drivendata.github.io/cookiecutter-data-science/#analysis-is-a-dag)语句。
resumables 是用纯 Python 编写的,旨在在 Jupyter 笔记本中使用。然而,它在 Python 脚本或脚本管道中也很有用。
例子
proj1 = RdsProject('project1') # create object from class (creates the dir if it doesn't exist yet)
proj1.raw.df1 = pd.DataFrame() # create dataframe as attribute of proj1.raw (RdsFs 'raw')
proj1.defs.variable1 = 'foo' # create simple objects as attribute of proj1.defs (RdsFs 'defs')
proj1.save() # saved attributes of all RfdFs in proj1 to disk
这将导致以下目录结构(加上一些内部开销):
- <输出目录>/defs/var_variable1.pkl
- <输出目录>/raw/df1.pkl
- <输出目录>/raw/df1.csv
请注意,pandas 数据帧总是被转储为 pickle 以进行进一步处理,并转储为 csv 以便于探索。csv 文件不再被读回。
稍后或在另一个 python 会话中,您可以执行以下操作:
proj2 = RdsProject('project1') # vars and data are read back to their original names
proj2.defs.variable1 == 'foo' # ==> True
isinstance(proj2.raw.df1, pd.DataFrame) # ==> True
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
resumeds-0.9.6.tar.gz
(15.9 kB
查看哈希)
内置分布
resumeds-0.9.6-py3-none-any.whl
(18.7 kB
查看哈希)