简单数据目录 API
项目描述
数据猫
请注意,这是一个 alpha 版本,仍在积极开发中。自然欢迎所有反馈。
Datcat 是一个简单轻量级的大查询数据目录 API。Datcat 将您的 .json 模式文件加载到内存中,以便与您自己的同步服务或catasyn 一起使用- 它是同级应用程序。查看 example_catalogue 目录或此处了解如何定义您的 bigquery 模式。如果你像我一样懒惰,这里有一个简短的片段:
[
{
"description": "Unique Identifier",
"mode": "REQUIRED",
"name": "MY_UNIQUE_ID",
"type": "INT64"
}, {
"description": "Favourite Colour",
"mode": "REQUIRED",
"name": "MY_FAVOURITE_COLOUR",
"type": "STRING"
}
]
{"partition": true}目前,datcat 通过使用和/或标记相关列的描述来支持分区生成和 pii 识别{"pii": true}。
[
{
"description": "{\"pii\": true}",
"mode": "REQUIRED",
"name": "col_4",
"type": "STRING"
},
{
"description": "{\"partition\": true}",
"mode": "REQUIRED",
"name": "date",
"type": "DATE"
}
]
除了通过其 api 提供模式定义之外,它还在模式 - 主题 - 订阅者之间创建了一个基本映射,稍后用于从模式定义创建相关的基础设施[1] 。定义模式后运行python -m datcat.service_layer.mappings以创建这些映射。命名约定是基本的,每个主题包含事件的所有版本,每个主题只有一个订阅者,仅用于数据湖摄取。
//schema_topic_subscription.json
{
"login_v1": {
"schema_class_name": "login",
"topic_name": "login_topic",
"subscription_name": "login_subscription"
}
}
CI/CD 是您的工作,但如果您想在本地 docker run 中查看 datcat 的运行情况./docker-docker-build.sh,请访问:http: //0.0.0.0 :50000
脚注 1
IAM 和一般权限超出了此项目的范围。您可以确保您的服务帐户具有创建 bigquery 表和主题/订阅者所需的所有角色/权限。检查此以获取提醒。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
datcat-0.1.4.tar.gz
(7.0 kB
查看哈希)
内置分布
datcat-0.1.4-py3-none-any.whl
(8.1 kB
查看哈希)