使用机器学习方法增强 pandas DataFrame
项目描述
Pandas ML 实用程序
Pandas Machine Learning Utilities 是一组更大的库的一部分,可提供方便的体验。通常探索统计模型从 pandas 开始DataFrame
。
但很快你就会发现自己将数据帧转换为 numpy、拆分数组、应用最小最大缩放器、滞后和连接列等。结果你的笔记本看起来很乱,变成了不可读的野兽。然而,一旦您开始将研究部署到生产应用程序中,混乱只会变得更糟。未经测试的硬编码数据管道需要在两个地方维护。
该库的目的是方便地操作数据帧,而无需抽象出丑陋的不可重现的数据管道。您唯一需要的是您开始的原始未处理数据框。数据管道成为模型的一部分并以这种方式保存。投入生产就像这样简单:
import pandas as pd
import pandas_ml_utils # monkey patch the `DataFrame`
from pandas_ml_utils import Model
# alternatively as a one liner `from pandas_ml_utils import pd, Model`
model = Model.load('your_saved.model')
df = pd.read_csv('your_raw_data.csv')
df_prediction = df.model.predict(model)
# do something with your prediction
df_prediction.plot()
旨在帮助您完成统计或机器学习模型的旅程,而您无需离开 pandas 的世界。
安装
基本实现支持scikit learn分类器和回归器。
pip install pandas-ml-utils
其他机器学习库可作为附加组件提供:
pip install pandas-ml-utils-torch # pytorch implementation
pip install pandas-ml-utils-keras # keras + tensorflow 1.x implementation
请注意,由于我最近专注于 pytorch,因此 keras/tensorflow 版本目前处于停滞状态。这可能会随着 PyMC4 和张量流概率而改变
例子
您将在示例目录中找到一些演示项目。但是检查单元测试和集成测试也可能是值得的。以下是分类挑战的样子: