htmldate - 从 URL 和网页中快速、可靠地提取原始和更新的发布日期。

从 URL 和网页中快速、可靠地提取原始和更新的发布日期。

项目描述

查找任何网页的原始和更新发布日期。从命令行或在 Python 中，包括从网页下载到 HTML 解析、抓取和文本分析所需的所有步骤。

简而言之

使用 Python：

>>> from htmldate import find_date
>>> find_date('http://blog.python.org/2016/12/python-360-is-now-available.html')
'2016-12-23'

在命令行上：

$ htmldate -u http://blog.python.org/2016/12/python-360-is-now-available.html
'2016-12-23'

特征

多语言、强大且高效（用于数百万文档的生产）
URL、HTML 文件或 HTML 树作为输入（包括批处理）
以任何日期格式输出为字符串（默认为ISO 8601 YMD）
检测原始日期和更新日期
兼容所有最新版本的 Python

htmldate可以检查标记和文本。它提供了以下方法来为 HTML 文档添加日期：

标头中的标记：常用模式用于识别相关元素（例如链接和元元素），包括Open Graph 协议属性
HTML 代码：在整个文档中搜索结构标记：缩写或时间元素和一系列属性（例如postmetadata）
裸 HTML 内容：启发式在文本和标记上运行：

在快速模式下，HTML 页面被清理并以精确模式为目标

在扩展模式下，所有可能的日期都被收集，并且消歧算法确定最佳日期

最后，输出经过验证并转换为所选格式。

表现

500 个包含可识别日期的网页（截至 Python 3.8 上的 2022-03-23）
Python 包	精确	记起	准确性	F分数	时间
文章日期提取器 0.20	0.769	0.691	0.572	0.728	4.4 倍
date_guesser 2.1.4	0.738	0.544	0.456	0.626	17倍
goose3 3.1.11	0.821	0.453	0.412	0.584	15倍
htmldate[all] 1.2.1（快速）	0.848	0.921	0.790	0.883	1x
htmldate[all] 1.2.1（广泛）	0.839	0.990	0.832	0.908	2.3 倍
报纸3k 0.2.8	0.729	0.630	0.510	0.675	12倍
新闻-请 1.5.21	0.769	0.691	0.572	0.728	40x

有关完整的结果和说明，请参见评估页面。

安装

这个 Python 包在 Linux、macOS 和 Windows 系统上进行了测试；它与 Python 3.6 以上兼容。它在包存储库PyPI中可用，并且可以通过pip（适用时为pip3）安装：pip install htmldate和可选的 pip install htmldate[speed]。

文档

有关安装、Python 和 CLI 使用的更多详细信息，请参阅文档：htmldate.readthedocs.io

执照

htmldate在GNU 通用公共许可证 v3.0下分发。如果您希望重新分发此库，但又受到许可条件的限制，请尝试与兼容的许可进行多方许可交互，或联系我。

另请参阅GPL 和自由软件许可：对企业有什么好处？

作者

这项工作是从 Web 文档中获取信息以构建用于研究的文本数据库（主要是语言分析和自然语言处理）的方法的一部分。根据严格的科学研究标准提取和预处理 Web 文本，这对进行此类研究的人来说是一个巨大的挑战。有些网页的 URL 和服务器响应都没有提供可靠的方法来确定文档何时发布或修改。了解更多信息：

@article{barbaresi-2020-htmldate,
  title = {{htmldate: A Python package to extract publication dates from web pages}},
  author = "Barbaresi, Adrien",
  journal = "Journal of Open Source Software",
  volume = 5,
  number = 51,
  pages = 2439,
  url = {https://doi.org/10.21105/joss.02439},
  publisher = {The Open Journal},
  year = 2020,
}

Barbaresi, A. “ htmldate: A Python package to extract publishing dates from web pages ”, Journal of Open Source Software, 5(51), 2439, 2020. DOI: 10.21105/joss.02439
Barbaresi, A. “使用开源软件进行通用 Web 内容提取”，KONVENS 2019 论文集，Kaleidoscope Abstracts，2019。
Barbaresi, A. “ Efficient building of metadata-enhanced web corpus ”，第 10 届 Web as Corpus Workshop (WAC-X)论文集，2016 年。

您可以通过我的联系页面或GitHub与我联系。

贡献

欢迎投稿！

随时在专用页面上提出问题。感谢提交功能和错误修复的贡献者！

感谢以下软件库：

lxml ,日期解析器
一些模式源自python-goose、metascraper、报纸和articleDateExtractor库。该模块显着扩展了它们的覆盖范围和鲁棒性。

项目详情

许可证： GNU 通用公共许可证 v3 或更高版本 (GPLv3+) (GPLv3+)

作者： 阿德里安·巴巴雷西

标签 datetime, date-parser, entity-extraction, html-extraction, html-parsing, metadata-extraction, webarchives, web-scraping

要求： Python >=3.6

发布历史发布通知| RSS订阅

这个版本

1.3.1

2022 年 8 月 26 日

1.3.0

2022 年 7 月 20 日

1.2.3

2022 年 6 月 16 日

1.2.2

2022 年 6 月 13 日

1.2.1

2022 年 3 月 23 日

1.2.0

2022 年 3 月 16 日

1.1.1

2022 年 3 月 3 日

1.1.0

2022 年 2 月 18 日

1.0.1

2022 年 2 月 14 日

1.0.0

2021 年 11 月 9 日

0.9.1

2021 年 9 月 24 日

0.9.0

2021 年 6 月 9 日

0.8.1

2021 年 3 月 9 日

0.8.0

2021 年 2 月 11 日

0.7.3

2021 年 1 月 4 日

0.7.2

2020 年 10 月 20 日

0.7.1

2020 年 9 月 14 日

0.7.0

2020 年 7 月 29 日

0.6.3

2020 年 5 月 26 日

0.6.2

2020 年 3 月 19 日

0.6.1

2020 年 1 月 16 日

0.6.0

2020 年 1 月 3 日

0.5.6

2019 年 9 月 24 日

0.5.5

2019 年 9 月 16 日

0.5.3

2019 年 8 月 9 日

0.5.2

2019 年 7 月 17 日

0.5.1

2019 年 6 月 5 日

0.5.0

2019 年 5 月 6 日

0.4.1

2019 年 2 月 15 日

0.4.0

2019 年 2 月 12 日

0.3.4

2019 年 2 月 4 日

0.3.3

2018 年 6 月 26 日

0.3.2

2018 年 6 月 22 日

0.3.1

2017 年 12 月 13 日

0.3.0

2017 年 11 月 6 日

0.2.2

2017 年 10 月 9 日

0.2.1

2017 年 9 月 11 日

0.2.0

2017 年 9 月 7 日

0.1.2

2017 年 9 月 4 日

0.1.1

2017 年 9 月 1 日

0.1.0

2017 年 8 月 25 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关

htmldate 1.3.1

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

简而言之

特征

表现

安装

文档

执照

作者

贡献

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

htmldate 1.3.1

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

简而言之

特征

表现

安装

文档

执照

作者

贡献

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

发布历史发布通知| RSS订阅