Skip to main content

PyTorch 的文本实用程序和数据集

项目描述

https://circleci.com/gh/pytorch/text.svg?style=svg https://codecov.io/gh/pytorch/text/branch/main/graph/badge.svg https://img.shields.io/badge/dynamic/json.svg?label=docs&url=https%3A%2F%2Fpypi.org%2Fpypi%2Ftorchtext%2Fjson&query=%24.info.version&colorB=brightgreen&prefix=v

火炬文本

该存储库包括:

安装

我们推荐 Anaconda 作为 Python 包管理系统。有关 PyTorch 安装的详细信息,请参阅pytorch.org。以下是对应的torchtext版本和支持的Python版本。

版本兼容性

PyTorch 版本

火炬文本版本

支持的 Python 版本

每晚构建

主要的

>=3.7, <=3.9

1.11.0

0.12.0

>=3.6,<=3.9

1.10.0

0.11.0

>=3.6,<=3.9

1.9.1

0.10.1

>=3.6,<=3.9

1.9

0.10

>=3.6,<=3.9

1.8.2 (LTS)

0.9.2 (LTS)

>=3.6,<=3.9

1.8.1

0.9.1

>=3.6,<=3.9

1.8

0.9

>=3.6,<=3.9

1.7.1

0.8.1

>=3.6,<=3.9

1.7

0.8

>=3.6,<=3.8

1.6

0.7

>=3.6,<=3.8

1.5

0.6

>=3.5, <=3.8

1.4

0.5

2.7, >=3.5, <=3.8

0.4及以下

0.2.3

2.7, >=3.5, <=3.8

使用康达:

conda install -c pytorch torchtext

使用点子:

pip install torchtext

注意LTS 版本通过与其他版本化版本不同的渠道分发。详情请参考https://pytorch.org/get-started/locally/

可选要求

如果你想使用SpaCy的英文分词器,你需要安装 SpaCy 并下载它的英文模型:

pip install spacy
python -m spacy download en_core_web_sm

或者,您可能希望在SacreMoses中使用Moses标记器端口(从NLTK拆分)。你必须安装 SacreMoses:

pip install sacremoses

对于 torchtext 0.5 及以下,句子

conda install -c powerai sentencepiece

从源头构建

要从源代码构建 torchtext,您需要gitCMake和 C++11 编译器,例如g++。:

git clone https://github.com/pytorch/text torchtext
cd torchtext
git submodule update --init --recursive

# Linux
python setup.py clean install

# OSX
CC=clang CXX=clang++ python setup.py clean install

# or ``python setup.py develop`` if you are making modifications.

笔记

从源代码构建时,请确保您拥有与构建 PyTorch 相同的 C++ 编译器。一种简单的方法是从源代码构建 PyTorch 并使用相同的环境来构建 torchtext。如果您使用的是 PyTorch 的夜间构建,请检查它使用conda(此处)pip(此处)构建的环境。

文档

在此处查找文档。

数据集

数据集模块当前包含:

  • 语言建模:WikiText2、WikiText103、PennTreebank、EnWik9

  • 机器翻译:IWSLT2016、IWSLT2017、Multi30k

  • 序列标记(例如 POS/NER):UDPOS、CoNLL2000Chunking

  • 问答:SQuAD1、SQuAD2

  • 文字分类:SST2、AG_NEWS、搜狗新闻、DBpedia、YelpReviewPolarity、YelpReviewFull、YahooAnswers、AmazonReviewPolarity、AmazonReviewFull、IMDB

  • 模型预训练:CC-100

楷模

该库目前包含以下预训练模型:

分词器

转换模块当前支持以下可编写脚本的标记器:

教程

要开始使用 torchtext,用户可以参考 PyTorch 网站上的以下教程。

数据集免责声明

这是一个实用程序库,用于下载和准备公共数据集。我们不托管或分发这些数据集,不保证它们的质量或公平性,也不声称您拥有使用这些数据集的许可。您有责任确定您是否有权根据数据集的许可使用该数据集。

如果您是数据集所有者并希望更新其中的任何部分(描述、引用等),或者不希望您的数据集包含在此库中,请通过 GitHub 问题与我们联系。感谢您对 ML 社区的贡献!

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

内置发行版

torchtext-0.13.1-cp310-cp310-win_amd64.whl (2.2 MB 查看哈希

已上传 cp310

torchtext-0.13.1-cp310-cp310-manylinux2014_aarch64.whl (1.8 MB 查看哈希

已上传 cp310

torchtext-0.13.1-cp310-cp310-manylinux1_x86_64.whl (1.9 MB 查看哈希

已上传 cp310

torchtext-0.13.1-cp310-cp310-macosx_11_0_arm64.whl (2.0 MB 查看哈希

已上传 cp310

torchtext-0.13.1-cp310-cp310-macosx_10_9_x86_64.whl (1.8 MB 查看哈希

已上传 cp310

torchtext-0.13.1-cp39-cp39-win_amd64.whl (2.2 MB 查看哈希

已上传 cp39

torchtext-0.13.1-cp39-cp39-manylinux2014_aarch64.whl (1.8 MB 查看哈希

已上传 cp39

torchtext-0.13.1-cp39-cp39-manylinux1_x86_64.whl (1.9 MB 查看哈希

已上传 cp39

torchtext-0.13.1-cp39-cp39-macosx_11_0_arm64.whl (2.0 MB 查看哈希

已上传 cp39

torchtext-0.13.1-cp39-cp39-macosx_10_9_x86_64.whl (1.8 MB 查看哈希

已上传 cp39

torchtext-0.13.1-cp38-cp38-win_amd64.whl (2.2 MB 查看哈希

已上传 cp38

torchtext-0.13.1-cp38-cp38-manylinux2014_aarch64.whl (1.8 MB 查看哈希

已上传 cp38

torchtext-0.13.1-cp38-cp38-manylinux1_x86_64.whl (1.9 MB 查看哈希

已上传 cp38

torchtext-0.13.1-cp38-cp38-macosx_11_0_arm64.whl (2.0 MB 查看哈希

已上传 cp38

torchtext-0.13.1-cp38-cp38-macosx_10_9_x86_64.whl (1.8 MB 查看哈希

已上传 cp38

torchtext-0.13.1-cp37-cp37m-win_amd64.whl (2.2 MB 查看哈希

已上传 cp37

torchtext-0.13.1-cp37-cp37m-manylinux2014_aarch64.whl (1.8 MB 查看哈希

已上传 cp37

torchtext-0.13.1-cp37-cp37m-manylinux1_x86_64.whl (1.9 MB 查看哈希

已上传 cp37

torchtext-0.13.1-cp37-cp37m-macosx_10_9_x86_64.whl (1.8 MB 查看哈希

已上传 cp37