普遍使用和分发数据集。
项目描述
Nourish 是一个 Python API,它使数据消费者和分发者能够轻松使用和共享数据集,并建立了交换数据资产的标准。它能够:
数据科学家可以以更简单、更统一的方式开始处理各种数据集,以及
数据分发者拥有一致、安全和开源的方式与感兴趣的社区共享数据集。
安装包及其依赖项
要安装最新版本的 Nourish,请运行
$ pip install nourish
或者,如果您已经下载了源代码,请切换到源目录(与此 README 文件相同的目录, cd /path/to/nourish-source)并运行
$ pip install -U .
快速开始
导入包并加载数据集。如果尚未下载, Nourish将下载WikiText-103数据集(版本1.0.1 ),然后加载它。
import nourish
wikitext103_data = nourish.load_dataset('wikitext103')
查看可用的 Nourish 数据集及其版本。
>>> nourish.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}
要查看您为 Nourish 设置的全局配置,例如您的默认数据目录,请使用Nutrition.get_config。
>>> nourish.get_config()
Config(DATADIR=PosixPath('dir/to/dowload/load/from'), ..., DATASET_SCHEMA_URL='file/to/load/datasets/from')
默认情况下,nourish.load_dataset从 ~/.nourish/data/<dataset-name>/<dataset-version>/下载和加载。要更改默认数据目录,请使用Nutrition.init。
nourish.init(DATADIR='new/dir/to/dowload/load/from')
使用Nutrition.load_dataset加载之前下载的数据集。使用新的默认数据目录集,Nourish 现在在new/dir/to/dowload/load/from/gmb/1.0.2/中搜索Groningen Meaning Bank 数据集(版本1.0.2)。
gmb_data = load_dataset('gmb', version='1.0.2', download=False) # assuming GMB dataset was already downloaded
笔记本
如需更广泛地了解 Nourish 功能,请查看以下笔记本:
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
Nutrition-0.1a2.tar.gz
(136.7 kB
查看哈希)
内置分布
Nutrition-0.1a2-py3-none-any.whl
(42.3 kB
查看哈希)
关
Nutrition- 0.1a2 -py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2c749af520206cf9d0829e9e5eff6d0b9b69b32e77e1421e03ee5536847d5c31 |
|
MD5 | 56e3130fd5a18226ddb093514deb9f65 |
|
布莱克2-256 | 6027a258fe2c8b33223fe3321e951f8dd18ea68dcaa6c96a2b1d7620be7c7bbe |