该项目提供了一组用于进行轻量级数据整理的实用程序。

项目描述

数据整理组件

该项目提供了一组用于进行轻量级数据整理的实用程序。

该项目有两个目标：

为序列化的争吵指令创建可共享的客户端/服务器模式
维护一个基本的争论引擎（基于 Arquero）的实现，以及在 Pandas 中实现的 python

建造

您需要安装诗歌python 包管理器。
跑：poetry install

用法

该项目旨在用作轻量级数据整理的库。在示例文件夹中有一个笔记本，它提供了几个示例，说明如何创建数据整理管道以及如何读取可由 js 实现生成的 json 规范。

连接两个表的示例：

from data_wrangling_components.pipeline import Pipeline
import data_wrangling_components.types as types
import pandas as pd

# id   name
# 1    bob
# 2    joe
# 3    jane
parents = pd.DataFrame({
    "id": [1, 2, 3],
    "name": ['bob', 'joe', 'jane']
})

# id   kid
# 1    billy
# 1    jill
# 2    kaden
# 2    kyle
# 3    moe
kids = pd.DataFrame({
    "id": [1, 1, 2, 2, 3],
    "kid": ['billy', 'jill', 'kaden', 'kyle', 'moe']
})

pipeline = Pipeline()

pipeline.add_dataset('parents', parents)
pipeline.add_dataset('kids', kids)

pipeline.add(Step(
    verb=Verb.join,
    input="parents",
    output="output",
    args={
        "other": "kids",
        "on":["id"]
    }
))

# id   name    kid
# 1    bob     billy
# 1    bob     jill
# 2    joe     kaden
# 2    joe     kyle
# 3    jane    moe
result = pipeline.run()

贡献

这个项目欢迎贡献和建议。大多数贡献要求您同意贡献者许可协议 (CLA)，声明您有权并且实际上确实授予我们使用您的贡献的权利。有关详细信息，请访问https://cla.opensource.microsoft.com。

当您提交拉取请求时，CLA 机器人将自动确定您是否需要提供 CLA 并适当地装饰 PR（例如，状态检查、评论）。只需按照机器人提供的说明进行操作。您只需使用我们的 CLA 在所有存储库中执行此操作一次。

本项目采用了微软开源行为准则。有关详细信息，请参阅行为准则常见问题解答或联系opencode@microsoft.com提出任何其他问题或意见。

商标

本项目可能包含项目、产品或服务的商标或徽标。Microsoft 商标或徽标的授权使用必须遵守 Microsoft 的商标和品牌指南。在此项目的修改版本中使用 Microsoft 商标或徽标不得造成混淆或暗示 Microsoft 赞助。对第三方商标或徽标的任何使用均受这些第三方政策的约束。

项目详情

发布历史发布通知| RSS订阅

这个版本

0.0.6

2022 年 6 月 6 日

0.0.3

2022 年 3 月 29 日

0.0.2

2022 年 2 月 23 日

0.0.1

2022 年 2 月 21 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

data_wrangling_components-0.0.6.tar.gz （17.2 kB 查看哈希）

已上传 2022 年 6 月 6 日 source

内置分布

data_wrangling_components-0.0.6-py3-none-any.whl （34.4 kB 查看哈希）

已上传 2022 年 6 月 6 日 py3

data_wrangling_components -0.0.6.tar.gz 的哈希值

data_wrangling_components-0.0.6.tar.gz 的哈希值
算法	哈希摘要
SHA256	`c6931904f195d022c014db535b32aac5dad360a3e0bb88f8f58afc44b8e6c4a9`
MD5	`359af3880b8db2d0477febd0acb2d051`
布莱克2-256	`9b6bc4fb68afa2d591eb367b478e11a0ff759a196369841d67f8f8ae766f8143`

data_wrangling_components -0.0.6-py3-none-any.whl 的哈希值

data_wrangling_components-0.0.6-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`97f80461fd5e7650a3155afb2bf2b11f766939c8fd5ace3fa598513865b44796`
MD5	`30c034e6e1506e79dbb3e140187a79d0`
布莱克2-256	`b536bfbdeb6f80bac077c57fc57ed22edb780e20d1c3a4b6dc6ebca433f92b2c`

data-wrangling-components 0.0.6

导航

统计数据

Meta

Maintainers

分类

项目描述

数据整理组件

建造

用法

贡献

商标

项目详情

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

data-wrangling-components 0.0.6

导航

统计数据

Meta

Maintainers

分类

项目描述

数据整理组件

建造

用法

贡献

商标

项目详情

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅