congress-crawler - 收集美国国会的数据。

收集美国国会的数据。

Development Status
- 5 - Production/Stable
Framework
- Django
Intended Audience
- Developers
License
- CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
Operating System
- OS Independent
Programming Language
Topic
- Internet :: WWW/HTTP

项目描述

# Hear-Ye/国会

此存储库是来自 [unitedstates/congress]( https://github.com/unitedstates/congress ) 的端口。我们需要一个美国组织没有提供的版本控制策略，所以我们创建了这个存储库。这里的大多数更改仍然来自主存储库，我们在这里所做的任何更改很可能最终会通过 PR 进入主存储库。

此外，我们需要为我们的开源开发人员批量存储旧数据，因此我们决定使用 GitHub Actions 及其 cron 作业。我们每天更新我们发布的批量数据。这可以在以下位置找到：[Hear-Ye/congress-data]( https://github.com/Hear-Ye/congress-data )

## 全新安装

运行pip install congress-crawler

###注意事项！

在查看了这个存储库的大部分内容之后，很多代码只是丢失并且没有更新。在使用此端口或主存储库之前要小心。此外，我们希望本着开源和公共领域的精神保持与主存储库相同的许可证。我们坚信工具是我们社会的主要齿轮，因此这个工具尤其应该保持免费。

以下是来自 [unitedstates/congress]( https://github.com/unitedstates/congress ) 的文档（大部分是完整的，包含我们存储库中的更多功能和文档）。

—

## 美国/国会

收集有关法案、修正案、点名投票的数据以及有关美国国会的其他核心数据的公共域代码。

包括：

来自国会的 [official bulk bill status data]( https://github.com/usgpo/bill-status ) 的数据导入脚本，是有关立法寿命和时间的官方信息来源。
众议院和参议院唱名表决的刮板。
GovInfo.gov 的文档获取器，其中包含账单文本、账单状态和其他官方文档。
用于国会总统提名的已失效的 THOMAS 刮板。

阅读github 项目 wiki中的 [文档]( https://github.com/unitedstates/congress/wiki ) 中的内容和架构。

有关此存储库如何形成的背景，请参阅 [Eric 的博客文章]( https://sunlightfoundation.com/blog/2013/08/20/a-modern-approach-to-open-data/ )。

＃＃＃配置

该项目支持 Python 3.6+。

系统依赖

在 Ubuntu 上，您需要wget、pip和一些支持包：

`bash sudo apt-get install git python3-dev libxml2-dev libxslt1-dev libz-dev python3-pip python3-venv `

在 OS X 上，您需要安装开发人员工具 ([XCode]( https://developer.apple.com/xcode/ )) 和wget。

`bash brew install wget`

Python 依赖项

建议您使用virtualenv（虚拟环境）进行开发。为这个项目创建一个 virtualenv：

`bash python3 -m venv congress source congress/bin/activate` 最后，激活虚拟环境后，安装 Python 包：

`bash pip3 install -r requirements.txt`

### 收集数据

开始抓取过程的一般形式是：

./run <数据类型> [–force] [其他选项]

其中数据类型是以下之一：

法案（见 [法案]( https://github.com/unitedstates/congress/wiki/bills )) 和 [修正案]( https://github.com/unitedstates/congress/wiki/amendments ))
投票（见[投票]（https://github.com/unitedstates/congress/wiki/votes））
提名（见[提名]（https://github.com/unitedstates/congress/wiki/nominations））
委员会会议（见[委员会会议]（https://github.com/unitedstates/congress/wiki/committee-meetings））
govinfo（见[法案文本]（https://github.com/unitedstates/congress/wiki/bill-text））
法规（见[法案]（https://github.com/unitedstates/congress/wiki/bills）和[法案文本]（https://github.com/unitedstates/congress/wiki/bill-text））

要获取账单、决议和修正案的数据，请运行：

`bash ./run govinfo --bulkdata=BILLSTATUS ./run bills `

法案脚本将批量数据输出到顶级数据目录，然后按国会编号、法案类型和法案编号进行组织。将为每个账单生成两个数据输出文件：一个 JSON 版本 (data.json) 和一个 XML 版本 (data.xml)。

### 常用选项

默认情况下，调试消息是隐藏的。要包含它们，请使用 –log=info 或 –debug 运行。要隐藏甚至警告，请使用 –log=error 运行。

要收到错误邮件，请将 config.yml.example 复制到 config.yml 并填写 SMTP 选项。发生解析或执行错误时，脚本将自动使用详细信息。

–force 标志适用于所有数据类型，并禁止对网络检索资源使用缓存。

### 数据输出

该脚本会将下载的页面缓存在顶级缓存目录中，并在顶级数据目录中输出批量数据。

将为每个对象生成两个批量数据输出文件：一个 JSON 版本 (data.json) 和一个 XML 版本 (data.xml)。XML 版本试图保持与 [GovTrack.us]( https://www.govtrack.us ) 多年来提供的 XML 批量数据的向后兼容性。添加 –govtrack 标志以使用 GovTrack ID 获得完全向后兼容的输出（否则使用用于立法者的源 ID）。

有关输出格式的文档，请参阅 [项目 wiki]( https://github.com/unitedstates/congress/wiki )。

### 贡献

带有补丁的拉取请求很棒。强烈鼓励进行单元测试（[示例测试]（https://github.com/unitedstates/congress/blob/master/test/test_bill_actions.py））。

提交错误的最佳方式是 [open a ticket]( https://github.com/unitedstates/congress/issues )。

### 运行测试

要运行此项目的单元测试：

`bash ./test/run`

### 谁在使用这些数据

[Sunlight Foundation]( https://sunlightfoundation.com ) 和 [GovTrack.us]( https://www.govtrack.us ) 是该项目的两个主要维护者。

Sunlight 和 GovTrack 都运行 API，您可以在其中获取通过 HTTP 传递的大部分数据：

[GovTrack.us API]( https://www.govtrack.us/developers/api )
[阳光大会 API]( https://sunlightlabs.github.io/congress/ )

＃＃公共区域

这个项目是[专用于公共领域]（许可证）。正如 [CONTRIBUTING](CONTRIBUTING.md) 中所述：

> 该项目在美国境内属于公有领域，通过【CC0 1.0 通用公有领域奉献】（https://creativecommons.org/publicdomain/zero/1.0/）放弃在全球范围内作品的版权和相关权.

> 对该项目的所有贡献都将在 CC0 奉献下发布。通过提交拉取请求，您同意遵守此放弃版权利益。

[![构建状态]( https://travis-ci.org/unitedstates/congress.svg?branch=master)]( https://travis-ci.org/unitedstates/congress )

项目详情

发布历史发布通知| RSS订阅

这个版本

0.0.2

2021 年 7 月 7 日

0.0.1

2021 年 7 月 5 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

congress-crawler-0.0.2.tar.gz (97.5 kB 查看哈希)

已上传 2021 年 7 月 7 日 source

内置分布

congress_crawler-0.0.2-py3-none-any.whl (96.7 kB 查看哈希)

已上传 2021 年 7 月 7 日 py3

congress-crawler-0.0.2.tar.gz 的哈希值

congress-crawler-0.0.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`5e3e5bc730e40076a0a4764fe2531f7209012c7565627ffd48c4397a42ad928c`
MD5	`3f91c699347b06ba88055b9a6277af97`
布莱克2-256	`a6956687a0d6421f52e6f021482da86be12e2897af4a6fdf020caa1baa091263`

congress_crawler- 0.0.2 -py3-none-any.whl 的哈希值

congress_crawler-0.0.2-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`72dbce43d0355c2303837730f5d6fd0df5e8e210198ce3ef1230b04276a6c998`
MD5	`af32b98c9f2039e5eb1bbc0eeb75cc30`
布莱克2-256	`7fbd4fd2a2a8cb298c99b8681a1b8c9a64504a3fbebce0c81ddc664afad2fb10`

congress-crawler 0.0.2

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

congress-crawler 0.0.2

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅