Skip to main content

摄入量

项目描述

clarolib - Evoluindo a Biblioteca de validação de dados

必要条件

  • Python 3.x
  • Docker e Docker 编写

简介

O objetivo desse documento é descrever os passos para criação doambiente de desenvolvimento da biblioteca Clarolib

Essa biblioteca foi criada com os seguintes objetivos:

  • Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
  • Padronizar métricas e implementações de linhagem de dados
  • Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
  • Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'。

Abaixo estão os passos para criação doambiente de desenvolvimento:

Criação de Ambiente 虚拟 Python

Para criar oambiente virtual,执行 os comandos abaixo:

python3 -m venv clarolib_env
source clarolib_env/bin/activate

pip install -r requirements.txt

Executando o Apache Spark localmente com Docker

访问一个意大利面spark文件夹,没有 seu 终端 e 执行 o comando abaixo。Esse será responsá vel por iniciar a execução do spark localmente。

docker-compose up

Como executar exemplos localmente

Acesse os arquivos de exemplo localizados no diretório code_examplese execute-os。

Desativando o 虚拟环境

Acesse o clarolib_envdiretorio e execute o seguinte comando:

deactivate

Compilando e executando testes unitários

Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:

flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel

Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mínimos de qualidade estã£o sendo seguidos。

Caso o código criado não esteja de acordo,一个 esteira nà £o permitirá que esse código seja entregue。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

ingestion-0.0.42.tar.gz (13.4 kB 查看哈希

已上传 source

内置分布

摄取-0.0.42-py2.py3-none-any.whl (13.0 kB 查看哈希

已上传 py2 py3