Skip to main content

使用机器学习方法增强 pandas DataFrame

项目描述

Pandas ML 实用程序

Pandas Machine Learning Utilities 是一组更大的库的一部分,可提供方便的体验。通常探索统计模型从 pandas 开始DataFrame

但很快你就会发现自己将数据帧转换为 numpy、拆分数组、应用最小最大缩放器、滞后和连接列等。结果你的笔记本看起来很乱,变成了不可读的野兽。然而,一旦您开始将研究部署到生产应用程序中,混乱只会变得更糟。未经测试的硬编码数据管道需要在两个地方维护。

该库的目的是方便地操作数据帧,而无需抽象出丑陋的不可重现的数据管道。您唯一需要的是您开始的原始未处理数据框。数据管道成为模型的一部分并以这种方式保存。投入生产就像这样简单:

import pandas as pd
import pandas_ml_utils  # monkey patch the `DataFrame`
from pandas_ml_utils import Model
# alternatively as a one liner `from pandas_ml_utils import pd, Model` 

model = Model.load('your_saved.model')
df = pd.read_csv('your_raw_data.csv')
df_prediction = df.model.predict(model)

# do something with your prediction
df_prediction.plot()

旨在帮助您完成统计或机器学习模型的旅程,而您无需离开 pandas 的世界。

安装

基本实现支持scikit learn分类器和回归器。

pip install pandas-ml-utils

其他机器学习库可作为附加组件提供:

pip install pandas-ml-utils-torch  # pytorch implementation
pip install pandas-ml-utils-keras  # keras + tensorflow 1.x implementation

请注意,由于我最近专注于 pytorch,因此 keras/tensorflow 版本目前处于停滞状态。这可能会随着 PyMC4 和张量流概率而改变

例子

您将在示例目录中找到一些演示项目。但是检查单元测试和集成测试也可能是值得的。以下是分类挑战的样子:

分类示例

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

pandas-ml-utils-0.2.7.ta​​r.gz (319.3 kB 查看哈希

已上传 source