TUPA - 基于转换的 UCCA 解析器

基于转换的 UCCA 解析器

项目描述

要求

蟒蛇 3.6

安装

创建 Python 虚拟环境。例如，在 Linux 上：

virtualenv --python=/usr/bin/python3 venv
. venv/bin/activate              # on bash
source venv/bin/activate.csh     # on csh

安装最新版本：

pip install tupa

或者，从 GitHub 安装最新代码（可能不稳定）：

git clone https://github.com/danielhers/tupa
cd tupa
pip install .

训练解析器

拥有一个包含 UCCA 段落文件的目录（例如，英语 Wiki 语料库），运行：

python -m tupa -t <train_dir> -d <dev_dir> -c <model_type> -m <model_filename>

可能的模型类型是sparse、mlp和bilstm。

解析一个文本文件

使用经过训练的模型在文本文件（此处名为example.txt ）上运行解析器：

python -m tupa example.txt -m <model_filename>

每个段落将创建一个xml文件（由文本文件中的空行分隔）。

预训练模型

要下载并提取在 Wiki 语料库上预训练的模型，请运行：

curl -LO https://github.com/huji-nlp/tupa/releases/download/v1.3.10/ucca-bilstm-1.3.10.tar.gz
tar xvzf ucca-bilstm-1.3.10.tar.gz

使用模型运行解析器：

python -m tupa example.txt -m models/ucca-bilstm

其他语言

要获得在法国 *20K Leagues* 语料库上预训练的模型或在德国 * 20K Leagues* 语料库上预训练的模型，请运行：

curl -LO https://github.com/huji-nlp/tupa/releases/download/v1.3.10/ucca-bilstm-1.3.10-fr.tar.gz
tar xvzf ucca-bilstm-1.3.10-fr.tar.gz
curl -LO https://github.com/huji-nlp/tupa/releases/download/v1.3.10/ucca-bilstm-1.3.10-de.tar.gz
tar xvzf ucca-bilstm-1.3.10-de.tar.gz

在法语/德语文本文件上运行解析器（用空行分隔段落）：

python -m tupa exemple.txt -m models/ucca-bilstm-fr --lang fr
python -m tupa beispiel.txt -m models/ucca-bilstm-de --lang de

使用 BERT

BERT 可以用来代替标准的词嵌入。首先，安装所需的依赖项：

pip install -r requirements.bert.txt

然后将--use-bert参数传递给训练命令。

查看config.py中可能的配置选项（相关选项具有前缀bert）。

BERT 多语言培训

可以训练多语言模型，以利用跨语言迁移并改善低资源语言的结果：

确保输入段落文件具有lang属性。请参阅包semstr中的脚本 `set_lang < https://github.com/huji-nlp/semstr/blob/master/semstr/scripts/set_lang.py >`__ 。
通过传递--use-bert参数启用 BERT 。
通过传递 --bert-model=bert-base-multilingual-cased使用多语言模型。
传递--bert-multilingual=0参数以启用多语言训练。

BERT 性能

以下是在德语 *20K Leagues* 语料库、英语 Wiki 语料库和仅来自法语 *20K Leagues* 语料库的 15 个句子上训练的 3 个 BERT 多语言模型的平均结果，设置如下：

bert-model=bert-base-multilingual-cased
bert-layers=-1 -2 -3 -4
bert-layers-pooling=weighted
bert-token-align-by=sum

结果：

描述	测试初级 F1	测试遥控器 F1	测试平均值
德国 20K 联赛	0.828	0.6723	0.824
英语 20K 联赛	0.763	0.359	0.755
法国 20K 联赛	0.739	0.46	0.732
英文维基	0.789	0.581	0.784

*英语 *20K Leagues* 语料库用作域外测试。

使用 BERT 预训练模型

要下载并提取使用上述设置训练的多语言模型，请运行：

curl -LO https://github.com/huji-nlp/tupa/releases/download/v1.4.0/bert_multilingual_layers_4_layers_pooling_weighted_align_sum.tar.gz
tar xvzf bert_multilingual_layers_4_layers_pooling_weighted_align_sum.tar.gz

要使用模型运行解析器，请使用以下命令。请注意，您需要将[lang]替换为正确的语言符号（fr、en或de）：

python -m tupa example.txt --lang [lang] -m bert_multilingual_layers_4_layers_pooling_weighted_align_sum

作者

丹尼尔·赫什科维奇：丹尼尔。hershcovich @ gmail 。com

贡献者

Ofir 阿尔沃夫：ofir 。arviv @邮件。胡集交流。我

引文

如果您使用此软件，请引用以下论文：

@InProceedings{hershcovich2017a,
  author    = {Hershcovich, Daniel  and  Abend, Omri  and  Rappoport, Ari},
  title     = {A Transition-Based Directed Acyclic Graph Parser for {UCCA}},
  booktitle = {Proc. of ACL},
  year      = {2017},
  pages     = {1127--1138},
  url       = {http://aclweb.org/anthology/P17-1104}
}

论文中使用的解析器版本是 v1.0。要重现实验，请运行：

curl -L https://raw.githubusercontent.com/huji-nlp/tupa/master/experiments/acl2017.sh | bash

如果您使用法语、德语或多任务模型，请引用以下论文：

@InProceedings{hershcovich2018multitask,
  author    = {Hershcovich, Daniel  and  Abend, Omri  and  Rappoport, Ari},
  title     = {Multitask Parsing Across Semantic Representations},
  booktitle = {Proc. of ACL},
  year      = {2018},
  pages     = {373--385},
  url       = {http://aclweb.org/anthology/P18-1035}
}

论文中使用的解析器版本是 v1.3.3。要重现实验，请运行：

curl -L https://raw.githubusercontent.com/huji-nlp/tupa/master/experiments/acl2018.sh | bash

执照

此软件包在 GPLv3 或更高版本许可下获得许可（请参阅 `LICENSE.txt <LICENSE.txt>`__）。

项目详情

发布历史发布通知| RSS订阅

这个版本

1.4.2

2020 年 1 月 13 日

1.4.1

2019 年 8 月 21 日

1.4.0.1

2019 年 8 月 21 日

1.4.0

2019 年 8 月 5 日

1.3.10.1

2019 年 8 月 21 日

1.3.10

2019 年 6 月 27 日

1.3.9.1

2019 年 8 月 21 日

1.3.9

2019 年 1 月 20 日

1.3.8

2018 年 12 月 13 日

1.3.7

2018 年 10 月 18 日

1.3.6

2018 年 8 月 8 日

1.3.5

2018 年 8 月 7 日

1.3.4

2018 年 8 月 7 日

1.3.3

2018 年 6 月 30 日

1.3.2.post1

2018 年 7 月 1 日

1.3.2

2018 年 5 月 10 日

1.3.1

2018 年 3 月 8 日

1.3.0

2018 年 3 月 4 日

1.2.5

2017 年 11 月 12 日

1.2.4

2017 年 11 月 7 日

1.2.3

2017 年 11 月 5 日

1.2.2

2017 年 10 月 20 日

1.2.1

2017 年 9 月 3 日

1.2.0

2017 年 8 月 31 日

1.1.4

2017 年 8 月 23 日

1.1.3

2017 年 8 月 23 日

1.1.2

2017 年 8 月 23 日

1.1.1

2017 年 8 月 20 日

1.1

2017 年 7 月 13 日

1.0.post6

2017 年 7 月 9 日

1.0.post5

2017 年 7 月 9 日

1.0.post4

2017 年 7 月 8 日

1.0.post3

2017 年 7 月 8 日

1.0.post2

2017 年 7 月 8 日

1.0.post1

2017 年 7 月 8 日

1.0

2017 年 7 月 6 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

TUPA-1.4.2.tar.gz （2.3 MB 查看哈希）

已上传 2020 年 1 月 13 日 source

内置分布

TUPA-1.4.2-py3-none-any.whl （111.2 kB 查看哈希）

已上传 2020 年 1 月 13 日 py3

TUPA -1.4.2.tar.gz 的哈希值

TUPA-1.4.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`1321df4a79e5ba751302cf45a46da6de2b2984a22d228622b22c8f56cb17a709`
MD5	`85e083fd0e1f88e92cafc17dcb3f2560`
布莱克2-256	`bb0a1eac685f12c287d734a552486ee7e38f1e83aa005c05569911d8865c3349`

TUPA -1.4.2-py3-none-any.whl 的哈希值

TUPA-1.4.2-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`f49ac79838b6f45485943437831fac3d5cd40d26204793b4a162ef48cbdc3816`
MD5	`96015c3391404bba79d4b14f1d4974a5`
布莱克2-256	`3ddaf39709860dc5ad7f55e5020091f92446ba981151ff88ce95ad46388191ae`

TUPA 1.4.2

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

要求

安装

训练解析器

解析一个文本文件

预训练模型

其他语言

使用 BERT

BERT 多语言培训

BERT 性能

使用 BERT 预训练模型

作者

贡献者

引文

执照

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

TUPA 1.4.2

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

要求

安装

训练解析器

解析一个文本文件

预训练模型

其他语言

使用 BERT

BERT 多语言培训

BERT 性能

使用 BERT 预训练模型

作者

贡献者

引文

执照

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅