Skip to main content

简单数据目录 API

项目描述

数据猫


请注意,这是一个 alpha 版本,仍在积极开发中。自然欢迎所有反馈。


Datcat 是一个简单轻量级的大查询数据目录 API。Datcat 将您的 .json 模式文件加载到内存中,以便与您自己的同步服务或catasyn 一起使用- 它是同级应用程序。查看 example_catalogue 目录或此处了解如何定义您的 bigquery 模式。如果你像我一样懒惰,这里有一个简短的片段:

[
  {
    "description": "Unique Identifier",
    "mode": "REQUIRED",
    "name": "MY_UNIQUE_ID",
    "type": "INT64"
  },  {
    "description": "Favourite Colour",
    "mode": "REQUIRED",
    "name": "MY_FAVOURITE_COLOUR",
    "type": "STRING"
  }
]

{"partition": true}目前,datcat 通过使用和/或标记相关列的描述来支持分区生成和 pii 识别{"pii": true}

[
  {
    "description": "{\"pii\": true}",
    "mode": "REQUIRED",
    "name": "col_4",
    "type": "STRING"
  },
  {
    "description": "{\"partition\": true}",
    "mode": "REQUIRED",
    "name": "date",
    "type": "DATE"
  }
]

除了通过其 api 提供模式定义之外,它还在模式 - 主题 - 订阅者之间创建了一个基本映射,稍后用于从模式定义创建相关的基础设施[1] 。定义模式后运行python -m datcat.service_layer.mappings以创建这些映射。命名约定是基本的,每个主题包含事件的所有版本,每个主题只有一个订阅者,仅用于数据湖摄取。

//schema_topic_subscription.json
{
  "login_v1": {
    "schema_class_name": "login",
    "topic_name": "login_topic",
    "subscription_name": "login_subscription"
  }
}

CI/CD 是您的工作,但如果您想在本地 docker run 中查看 datcat 的运行情况./docker-docker-build.sh,请访问:http: //0.0.0.0 :50000

脚注 1

IAM 和一般权限超出了此项目的范围。您可以确保您的服务帐户具有创建 bigquery 表和主题/订阅者所需的所有角色/权限。检查以获取提醒。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

datcat-0.1.4.tar.gz (7.0 kB 查看哈希

已上传 source

内置分布

datcat-0.1.4-py3-none-any.whl (8.1 kB 查看哈希

已上传 py3