Skip to main content

从文本中提取和计算国家和城市(+它们的同义词)

项目描述

构建状态 覆盖范围


flashgeotext :zap::earth_africa:

从文本中提取和计算国家和城市(+它们的同义词),例如使用FlashText的GeoText,Aho-Corasick 实现。Flashgeotext 是一个快速、包含电池(和 BYOD)的原生 python 库,它从输入文本中提取一组或多组给定的城市和国家名称(+同义词)。

文档https :
//flashgeotext.iwpnd.pw/ 介绍性博文https ://iwpnd.pw/articles/2020-02/flashgeotext-library

用法

from flashgeotext.geotext import GeoText

geotext = GeoText()

input_text = '''Shanghai. The Chinese Ministry of Finance in Shanghai said that China plans
                to cut tariffs on $75 billion worth of goods that the country
                imports from the US. Washington welcomes the decision.'''

geotext.extract(input_text=input_text)
>> {
    'cities': {
        'Shanghai': {
            'count': 2,
            'span_info': [(0, 8), (45, 53)],
            'found_as': ['Shanghai', 'Shanghai'],
            },
        'Washington, D.C.': {
            'count': 1,
            'span_info': [(175, 185)],
            'found_as': ['Washington'],
            }
        },
    'countries': {
        'China': {
            'count': 1,
            'span_info': [(64, 69)],
            'found_as': ['China'],
            },
        'United States': {
            'count': 1,
            'span_info': [(171, 173)],
            'found_as': ['US'],
            }
        }
    }

入门

这些说明将为您提供一个项目副本,并在您的本地计算机上运行以用于开发和测试目的。

安装

点:

pip install flashgeotext

康达:

conda install flashgeotext

开发:

git clone https://github.com/iwpnd/flashgeotext.git
cd flashgeotext/
poetry install

运行测试

poetry run pytest . -v

作者

  • 本杰明拉姆瑟-最初的工作- iwpnd

另请参阅参与此项目的贡献者列表。

执照

该项目在 MIT 许可下获得许可 - 请参阅LICENSE.md文件了解详细信息

来自http://www.geonames.org的演示数据城市根据知识共享署名 3.0 许可获得许可。

致谢

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

flashgeotext-0.4.2.tar.gz (439.4 kB 查看哈希

已上传 source

内置分布

flashgeotext-0.4.2-py3-none-any.whl (447.4 kB 查看哈希

已上传 py3