Skip to main content

用于将 sklearn 模型转换为 Teradata Vantage 模型的模块

项目描述

sklearn2vantage 是一个 Python 模块,用于将 sklearn 模型转换为 Teradata Vantage 模型表。

该模块有 2 个功能。一个是将 scikit-learn 模型转换为 Teradata Vantage 模型,另一个是将 pandas 数据帧上传到 Teradata。

安装

依赖项

sklearn2vantage 需要:

  • Python

  • 数字货币

  • 熊猫

  • SQL炼金术

  • scikit-学习

  • 帕拉米科

  • scp

  • 兆数据

  • sqlalchemy-teradata

  • teradatasql

  • teradatasql炼金术

支持的型号

支持以下型号。

scikit-学习

Teradata Vantage

随机森林分类器

决策森林预测

随机森林回归器

决策森林预测

GradientBoostRegressor

决策森林预测

线性回归

GLM预测

套索

GLM预测

GLM预测

线性

GLM预测

逻辑回归

GLM预测

高斯NB

天真的eBayesPredict

分类NB

天真的eBayesPredict

决策树分类器

决策树预测

决策树回归器

决策树预测

还支持 statsmodels 中的一些模型。

统计模型

Teradata Vantage

罗吉特

GLM预测

OLS

GLM预测

用户安装

pip install sklearn2vantage

或者

conda install sklearn2vantage -c temporary-recipes

示例:对流模型

import sklearn2vantage as s2v
import pandas as pd
from sqlalchemy import create_engine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

engine = create_engine("teradata://dbc:dbc@173.168.56.128:1025/tdwork")

df = pd.read_sql_query("select * from some_data sample 50000", engine)
X = df.drop("target", axis=1)
y = df.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

rf_clf = RandomForestClassifier()
rf_clf.fit(X_train, y_train)

rf_clf_table = \
  s2v.make_model_table_forest(rf_clf, X_train.columns,
                              ['setosa', 'versicolor', 'virginica'])

s2v.load_model_forest(rf_clf_table, engine, "rf_clf_table")
pd.read_sql_query("""
  select * from DecisionForestPredict (
    on iris partition by any
    on rf_clf_table as ModelTable DIMENSION
    USING
    NumerixInputs ('sepal_length', 'sepal_width',
                  'petal_length', 'petal_width')
    IdColumn ('id')
    Accumulate ('species')
    Detailed ('false')
) as dt""", engine)

如需进一步使用,请参阅HowToUse.ipynb

示例:数据加载

import pandas as pd
import sklearn2vantage as s2v
from sqlalchemy import create_engine
engine = create_engine("teradata://dbc:dbc@173.168.56.128:1025/tdwork")
df_titanic = pd.read_csv("titanic/train.csv").set_index("PassengerId")
s2v.tdload_df(df_titanic, engine, tablename="titanic_train",
              ifExists="replace", ssh_ip="173.168.56.128",
              ssh_username="root", ssh_password="root")

如需进一步使用,请参阅HowToUseDataloader.ipynb

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

sklearn2vantage-0.1.9.tar.gz (10.9 kB 查看哈希

已上传 source