Skip to main content

普遍使用和分发数据集。

项目描述

派皮 PyPI - Python 版本 PyPI - 实现 吉特 运行时测试 皮棉 文档 开发环境 覆盖范围

Nourish 是一个 Python API,它使数据消费者和分发者能够轻松使用和共享数据集,并建立了交换数据​​资产的标准。它能够:

  • 数据科学家可以以更简单、更统一的方式开始处理各种数据集,以及

  • 数据分发者拥有一致、安全和开源的方式与感兴趣的社区共享数据集。

安装包及其依赖项

要安装最新版本的 Nourish,请运行

$ pip install nourish

或者,如果您已经下载了源代码,请切换到源目录(与此 README 文件相同的目录, cd /path/to/nourish-source)并运行

$ pip install -U .

快速开始

导入包并加载数据集。如果尚未下载, Nourish将下载WikiText-103数据集(版本1.0.1 ),然后加载它。

import nourish
wikitext103_data = nourish.load_dataset('wikitext103')

查看可用的 Nourish 数据集及其版本。

>>> nourish.list_all_datasets()
{'claim_sentences_search': ('1.0.2',), ..., 'wikitext103': ('1.0.1',)}

要查看您为 Nourish 设置的全局配置,例如您的默认数据目录,请使用Nutrition.get_config

>>> nourish.get_config()
Config(DATADIR=PosixPath('dir/to/dowload/load/from'), ..., DATASET_SCHEMA_URL='file/to/load/datasets/from')

默认情况下,nourish.load_dataset~/.nourish/data/<dataset-name>/<dataset-version>/下载和加载。要更改默认数据目录,请使用Nutrition.init

nourish.init(DATADIR='new/dir/to/dowload/load/from')

使用Nutrition.load_dataset加载之前下载的数据集。使用新的默认数据目录集,Nourish 现在在new/dir/to/dowload/load/from/gmb/1.0.2/中搜索Groningen Meaning Bank 数据集(版本1.0.2)。

gmb_data = load_dataset('gmb', version='1.0.2', download=False)  # assuming GMB dataset was already downloaded

笔记本

如需更广泛地了解 Nourish 功能,请查看以下笔记本:

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

Nutrition-0.1a2.tar.gz (136.7 kB 查看哈希)

已上传 source

内置分布

Nutrition-0.1a2-py3-none-any.whl (42.3 kB 查看哈希)

已上传 py3