用于准确和可扩展的重复数据删除和实体解析的 python 库
项目描述
重复数据删除 Python 库
dedupe 是一个 python 库,它使用机器学习对结构化数据快速执行模糊匹配、去重和实体解析。
重复数据删除将帮助您:
- 从姓名和地址电子表格中删除重复条目
- 将包含客户信息的列表链接到具有订单历史记录的列表,即使没有唯一的客户 ID
- 建立一个竞选捐款数据库,找出哪些是同一个人所做的,即使每条记录的姓名输入略有不同。
dedupe 接收人工训练数据,并为您的数据集提出最佳规则,以快速、自动地找到相似的记录,即使是非常大的数据库也是如此。
重要链接
- 文档:https ://docs.dedupe.io/
- 存储库:https ://github.com/dedupeio/dedupe
- 问题:https ://github.com/dedupeio/dedupe/issues
- 邮件列表:https ://groups.google.com/forum/#!forum/open-source-deduplication
- 示例:https ://github.com/dedupeio/dedupe-examples
重复数据消除图书馆咨询
如果您或您的组织在使用 dedupe 库时需要专业帮助,Dedupe.io LLC 可提供咨询服务。在此处阅读有关定价和可用服务的更多信息。
使用重复数据删除构建的工具
重复数据删除.io
由重复数据删除库提供支持的云服务,用于对数据进行重复数据删除和查找匹配项。它提供了一个分步向导,用于上传数据、设置模型、训练、聚类和查看结果。
Dedupe.io还支持跨数据源的记录链接以及通过API进行的持续匹配和训练。
有关更多信息,请参阅Dedupe.io 产品站点、有关如何使用它的教程以及它与 dedupe 库之间的区别。
Dedupe 已被 Python 社区广泛采用。查看这篇博文,一个关于如何在Python中使用 Dedupe 的 YouTube 视频和一个关于如何使用 Spark 大规模应用 Dedupe的 Youtube 视频。
csvdedupe
用于重复数据删除和链接CSV 文件的命令行工具。在Source Knight-Mozilla OpenNews上阅读它。
安装
使用重复数据删除
如果您只想使用重复数据删除,请以这种方式安装:
pip install dedupe
熟悉dedupe 的 API,然后开始您的项目。需要灵感吗?看看一些例子。
开发重复数据删除
我们建议使用virtualenv和virtualenvwrapper在虚拟化开发环境中工作。阅读如何设置 virtualenv。
一旦你设置了 virtualenvwrapper,
mkvirtualenv dedupe
git clone git://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
如果这些测试通过,那么一切都应该正确安装!
pytest
之后,每当您想进行重复数据删除时,
workon dedupe
测试
核心去重功能的单元测试
pytest
使用 Bilenko 研究的规范数据集进行测试
使用重复数据删除
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
使用记录链接
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
团队
- 森林格雷格,DataMade
- Derek Eder,DataMade
学分
Dedupe 基于 Mikhail Yuryevich Bilenko 的博士学位。论文:可学习的相似性函数及其在记录链接和聚类中的应用。
错误/错误
如果某些东西的行为不直观,那就是一个错误,应该报告。 在这里报告
关于补丁/拉取请求的注意事项
- 分叉项目。
- 进行功能添加或错误修复。
- 向我们发送拉取请求。主题分支的奖励积分。
版权
版权所有 (c) 2022 Forest Gregg 和 Derek Eder。在MIT 许可下发布。
本发行版中的第三方版权在适用的情况下会注明。
引用重复数据删除
如果您在学术工作中使用 Dedupe,请给出以下引用:
森林格雷格和德里克埃德。2022. 重复数据删除。https://github.com/dedupeio/dedupe。