Skip to main content

用于准确和可扩展的重复数据删除和实体解析的 python 库

项目描述

重复数据删除 Python 库

测试通过覆盖状态

dedupe 是一个 python 库,它使用机器学习对结构化数据快速执行模糊匹配、去重和实体解析。

重复数据删除将帮助您:

  • 从姓名和地址电子表格中删除重复条目
  • 将包含客户信息的列表链接到具有订单历史记录的列表,即使没有唯一的客户 ID
  • 建立一个竞选捐款数据库,找出哪些是同一个人所做的,即使每条记录的姓名输入略有不同。

dedupe 接收人工训练数据,并为您的数据集提出最佳规则,以快速、自动地找到相似的记录,即使是非常大的数据库也是如此。

重要链接

重复数据消除图书馆咨询

如果您或您的组织在使用 dedupe 库时需要专业帮助,Dedupe.io LLC 可提供咨询服务。在此处阅读有关定价和可用服务的更多信息

使用重复数据删除构建的工具

重复数据删除.io

由重复数据删除库提供支持的云服务,用于对数据进行重复数据删除和查找匹配项。它提供了一个分步向导,用于上传数据、设置模型、训练、聚类和查看结果。

Dedupe.io还支持跨数据源的记录链接以及通过API进行的持续匹配和训练。

有关更多信息,请参阅Dedupe.io 产品站点有关如何使用它的教程以及它与 dedupe 库之间的区别

Dedupe 已被 Python 社区广泛采用。查看这篇博文,一个关于如何在Python中使用 Dedupe 的 YouTube 视频一个关于如何使用 Spark 大规模应用 Dedupe的 Youtube 视频。

csvdedupe

用于重复数据删除和链接CSV 文件的命令行工具。在Source Knight-Mozilla OpenNews上阅读它。

安装

使用重复数据删除

如果您只想使用重复数据删除,请以这种方式安装:

pip install dedupe

熟悉dedupe 的 API,然后开始您的项目。需要灵感吗?看看一些例子

开发重复数据删除

我们建议使用virtualenvvirtualenvwrapper在虚拟化开发环境中工作。阅读如何设置 virtualenv

一旦你设置了 virtualenvwrapper,

mkvirtualenv dedupe
git clone git://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt

如果这些测试通过,那么一切都应该正确安装!

pytest

之后,每当您想进行重复数据删除时,

workon dedupe

测试

核心去重功能的单元测试

pytest

使用 Bilenko 研究的规范数据集进行测试

使用重复数据删除

python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py

使用记录链接

python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py

团队

  • 森林格雷格,DataMade
  • Derek Eder,DataMade

学分

Dedupe 基于 Mikhail Yuryevich Bilenko 的博士学位。论文:可学习的相似性函数及其在记录链接和聚类中的应用

错误/错误

如果某些东西的行为不直观,那就是一个错误,应该报告。 在这里报告

关于补丁/拉取请求的注意事项

  • 分叉项目。
  • 进行功能添加或错误修复。
  • 向我们发送拉取请求。主题分支的奖励积分。

版权

版权所有 (c) 2022 Forest Gregg 和 Derek Eder。在MIT 许可下发布。

本发行版中的第三方版权在适用的情况下会注明。

引用重复数据删除

如果您在学术工作中使用 Dedupe,请给出以下引用:

森林格雷格和德里克埃德。2022. 重复数据删除。https://github.com/dedupeio/dedupe

项目详情