PyTorch 的文本实用程序和数据集
项目描述
火炬文本
该存储库包括:
torchtext.datasets:常见 NLP 数据集的原始文本迭代器
torchtext.data:一些基本的 NLP 构建块
torchtext.transforms:基本的文本处理转换
torchtext.models:预训练模型
torchtext.vocab : Vocab 和 Vectors 相关的类和工厂函数
示例:使用 PyTorch 和 torchtext 库的示例 NLP 工作流。
安装
我们推荐 Anaconda 作为 Python 包管理系统。有关 PyTorch 安装的详细信息,请参阅pytorch.org。以下是对应的torchtext版本和支持的Python版本。
PyTorch 版本 |
火炬文本版本 |
支持的 Python 版本 |
---|---|---|
每晚构建 |
主要的 |
>=3.7, <=3.9 |
1.11.0 |
0.12.0 |
>=3.6,<=3.9 |
1.10.0 |
0.11.0 |
>=3.6,<=3.9 |
1.9.1 |
0.10.1 |
>=3.6,<=3.9 |
1.9 |
0.10 |
>=3.6,<=3.9 |
1.8.2 (LTS) |
0.9.2 (LTS) |
>=3.6,<=3.9 |
1.8.1 |
0.9.1 |
>=3.6,<=3.9 |
1.8 |
0.9 |
>=3.6,<=3.9 |
1.7.1 |
0.8.1 |
>=3.6,<=3.9 |
1.7 |
0.8 |
>=3.6,<=3.8 |
1.6 |
0.7 |
>=3.6,<=3.8 |
1.5 |
0.6 |
>=3.5, <=3.8 |
1.4 |
0.5 |
2.7, >=3.5, <=3.8 |
0.4及以下 |
0.2.3 |
2.7, >=3.5, <=3.8 |
使用康达:
conda install -c pytorch torchtext
使用点子:
pip install torchtext
注意LTS 版本通过与其他版本化版本不同的渠道分发。详情请参考https://pytorch.org/get-started/locally/。
可选要求
如果你想使用SpaCy的英文分词器,你需要安装 SpaCy 并下载它的英文模型:
pip install spacy python -m spacy download en_core_web_sm
或者,您可能希望在SacreMoses中使用Moses标记器端口(从NLTK拆分)。你必须安装 SacreMoses:
pip install sacremoses
对于 torchtext 0.5 及以下,句子:
conda install -c powerai sentencepiece
从源头构建
要从源代码构建 torchtext,您需要git、CMake和 C++11 编译器,例如g++。:
git clone https://github.com/pytorch/text torchtext cd torchtext git submodule update --init --recursive # Linux python setup.py clean install # OSX CC=clang CXX=clang++ python setup.py clean install # or ``python setup.py develop`` if you are making modifications.
笔记
从源代码构建时,请确保您拥有与构建 PyTorch 相同的 C++ 编译器。一种简单的方法是从源代码构建 PyTorch 并使用相同的环境来构建 torchtext。如果您使用的是 PyTorch 的夜间构建,请检查它使用conda(此处)和pip(此处)构建的环境。
文档
在此处查找文档。
数据集
数据集模块当前包含:
语言建模:WikiText2、WikiText103、PennTreebank、EnWik9
机器翻译:IWSLT2016、IWSLT2017、Multi30k
序列标记(例如 POS/NER):UDPOS、CoNLL2000Chunking
问答:SQuAD1、SQuAD2
文字分类:SST2、AG_NEWS、搜狗新闻、DBpedia、YelpReviewPolarity、YelpReviewFull、YahooAnswers、AmazonReviewPolarity、AmazonReviewFull、IMDB
模型预训练:CC-100
楷模
该库目前包含以下预训练模型:
分词器
转换模块当前支持以下可编写脚本的标记器:
教程
要开始使用 torchtext,用户可以参考 PyTorch 网站上的以下教程。
数据集免责声明
这是一个实用程序库,用于下载和准备公共数据集。我们不托管或分发这些数据集,不保证它们的质量或公平性,也不声称您拥有使用这些数据集的许可。您有责任确定您是否有权根据数据集的许可使用该数据集。
如果您是数据集所有者并希望更新其中的任何部分(描述、引用等),或者不希望您的数据集包含在此库中,请通过 GitHub 问题与我们联系。感谢您对 ML 社区的贡献!
项目详情
torchtext -0.13.1-cp310-cp310-manylinux2014_aarch64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b5bf4f9da5326b6e74318b4a5035abfaf166b3abd822565be685f44947adb8d3 |
|
MD5 | 79791f21bc4582e6d9a2359c9b2e9f1c |
|
布莱克2-256 | 3ffde3eef8b5d691cdeb42506fc9fec2a64ab1549039cdf9e7545a171e4a694e |
torchtext -0.13.1-cp310-cp310-manylinux1_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f56359165eb00ea2ff998b67727f87e7fa32665c1a46610c9b5a2d5d581095e5 |
|
MD5 | 8a58d31906cd5456846b7f7edaece7ee |
|
布莱克2-256 | 484e56352383c30b75becd5faaff8d404eb86f3a2282d72ae52aaad705bf22bf |