从文本中提取和计算国家和城市(+它们的同义词)
项目描述
flashgeotext :zap::earth_africa:
从文本中提取和计算国家和城市(+它们的同义词),例如使用FlashText的GeoText,Aho-Corasick 实现。Flashgeotext 是一个快速、包含电池(和 BYOD)的原生 python 库,它从输入文本中提取一组或多组给定的城市和国家名称(+同义词)。
文档:https :
//flashgeotext.iwpnd.pw/ 介绍性博文:https ://iwpnd.pw/articles/2020-02/flashgeotext-library
用法
from flashgeotext.geotext import GeoText
geotext = GeoText()
input_text = '''Shanghai. The Chinese Ministry of Finance in Shanghai said that China plans
to cut tariffs on $75 billion worth of goods that the country
imports from the US. Washington welcomes the decision.'''
geotext.extract(input_text=input_text)
>> {
'cities': {
'Shanghai': {
'count': 2,
'span_info': [(0, 8), (45, 53)],
'found_as': ['Shanghai', 'Shanghai'],
},
'Washington, D.C.': {
'count': 1,
'span_info': [(175, 185)],
'found_as': ['Washington'],
}
},
'countries': {
'China': {
'count': 1,
'span_info': [(64, 69)],
'found_as': ['China'],
},
'United States': {
'count': 1,
'span_info': [(171, 173)],
'found_as': ['US'],
}
}
}
入门
这些说明将为您提供一个项目副本,并在您的本地计算机上运行以用于开发和测试目的。
安装
点:
pip install flashgeotext
康达:
conda install flashgeotext
开发:
git clone https://github.com/iwpnd/flashgeotext.git
cd flashgeotext/
poetry install
运行测试
poetry run pytest . -v
作者
- 本杰明拉姆瑟-最初的工作- iwpnd
另请参阅参与此项目的贡献者列表。
执照
该项目在 MIT 许可下获得许可 - 请参阅LICENSE.md文件了解详细信息
来自http://www.geonames.org的演示数据城市根据知识共享署名 3.0 许可获得许可。
致谢
- 向@vi3k6i5 致敬,感谢他的论文和实施
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
flashgeotext-0.4.2.tar.gz
(439.4 kB
查看哈希)
内置分布
flashgeotext-0.4.2-py3-none-any.whl
(447.4 kB
查看哈希)
关
flashgeotext -0.4.2.tar.gz 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | e2cdf8eb26a1e49544f61f081b45e9b20410209028a7c1a1425711921fdbb6ae |
|
| MD5 | f7ed1d5046e138752150ad658fc5eb99 |
|
| 布莱克2-256 | 74dde03a22a385194af3b0d43c154e8e31cbd210a201775a8a3296c400b99af6 |
关
flashgeotext -0.4.2-py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | f195383e4085718efbffe3a1df0177f505f686a732db8fd74a1d468211ad066c |
|
| MD5 | 235187d872a20a7fb83c2de4075d84ec |
|
| 布莱克2-256 | f874cae99e75a339a260ae6da68ad172e30dd549f1ff88ab6c472fd8afae8673 |