摄入量
项目描述
clarolib - Evoluindo a Biblioteca de validação de dados
必要条件
- Python 3.x
- Docker e Docker 编写
简介
O objetivo desse documento é descrever os passos para criação doambiente de desenvolvimento da biblioteca Clarolib。
Essa biblioteca foi criada com os seguintes objetivos:
- Padronizar a etapa de validação das fontes de dados a serem ingeridas no Datalake
- Padronizar métricas e implementações de linhagem de dados
- Dar mais agilidade/produtividade na criação de esteiras de validações de dados antes que esses sejam ingeridos no Datalake
- Evitar necessidade de repetição de códigos e deixar o código 'mais limpo'。
Abaixo estão os passos para criação doambiente de desenvolvimento:
Criação de Ambiente 虚拟 Python
Para criar oambiente virtual,执行 os comandos abaixo:
python3 -m venv clarolib_env
source clarolib_env/bin/activate
pip install -r requirements.txt
Executando o Apache Spark localmente com Docker
访问一个意大利面spark
文件夹,没有 seu 终端 e 执行 o comando abaixo。Esse será responsá vel por iniciar a execução do spark localmente。
docker-compose up
Como executar exemplos localmente
Acesse os arquivos de exemplo localizados no diretório code_examples
e execute-os。
Desativando o 虚拟环境
Acesse o clarolib_env
diretorio e execute o seguinte comando:
deactivate
Compilando e executando testes unitários
Para compilar os códigos, disparar a execução dos testes unitários e validação de code lint execute os passos conforme abaixo:
flake8 ./lib ./code_examples ./tests
pytest --ignore=setup.py
python3 setup.py sdist bdist_wheel
Esses mesmos passos serão executados pela esteira do Azure Devops para garantir que os critérios mínimos de qualidade estã£o sendo seguidos。
Caso o código criado não esteja de acordo,一个 esteira nà £o permitirá que esse código seja entregue。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。