开发手册 欢迎您!
软件开发者资料库

提高预测绩效

敏捷数据科学提高预测性能 - 从简单和简单的步骤学习敏捷数据科学,从基本到高级概念,包括简介,方法概念,数据科学过程,敏捷工具和安装,敏捷数据处理,SQL与NoSQL,NoSQL和数据流编程,收集和显示,数据可视化,数据丰富,使用报告,预测的作用,使用PySpark提取功能,构建回归模型,部署预测系统,SparkML,修复预测问题,提高预测性能,创建更好的场景敏捷和数据科学,敏捷实施。

在本章中,我们将重点关注构建一个模型,该模型有助于预测学生的表现,其中包含许多属性.重点是在考试中显示学生的失败结果.

过程

评估的目标值是G3.该值可以被分箱并进一步分类为失败和成功.如果G3值大于或等于10,则学生通过考试.

示例

考虑以下示例,其中执行代码预测学生的表现&减去;

import pandas as pd""" Read data file as DataFrame """df = pd.read_csv("student-mat.csv", sep=";")""" Import ML helpers """from sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import confusion_matrixfrom sklearn.model_selection import GridSearchCV, cross_val_scorefrom sklearn.pipeline import Pipelinefrom sklearn.feature_selection import SelectKBest, chi2from sklearn.svm import LinearSVC # Support Vector Machine Classifier model""" Split Data into Training and Testing Sets """def split_data(X, Y): return train_test_split(X, Y, test_size=0.2, random_state=17)""" Confusion Matrix """def confuse(y_true, y_pred): cm = confusion_matrix(y_true=y_true, y_pred=y_pred) # print("\nConfusion Matrix: \n", cm)  fpr(cm) ffr(cm)""" False Pass Rate """def fpr(confusion_matrix): fp = confusion_matrix[0][1] tf = confusion_matrix[0][0] rate = float(fp) / (fp + tf) print("False Pass Rate: ", rate)""" False Fail Rate """def ffr(confusion_matrix): ff = confusion_matrix[1][0] tp = confusion_matrix[1][1] rate = float(ff) / (ff + tp) print("False Fail Rate: ", rate) return rate""" Train Model and Print Score """def train_and_score(X, y): X_train, X_test, y_train, y_test = split_data(X, y) clf = Pipeline([ ('reduce_dim', SelectKBest(chi2, k=2)), ('train', LinearSVC(C=100)) ]) scores = cross_val_score(clf, X_train, y_train, cv=5, n_jobs=2) print("Mean Model Accuracy:", np.array(scores).mean()) clf.fit(X_train, y_train) confuse(y_test, clf.predict(X_test)) print()""" Main Program """def main(): print("\nStudent Performance Prediction") # For each feature, encode to categorical values class_le = LabelEncoder() for column in df[["school", "sex", "address", "famsize", "Pstatus", "Mjob","Fjob", "reason", "guardian", "schoolsup", "famsup", "paid", "activities","nursery", "higher", "internet", "romantic"]].columns: df[column] = class_le.fit_transform(df[column].values) # Encode G1, G2, G3 as pass or fail binary values for i, row in df.iterrows(): if row["G1"] >= 10: df["G1"][i] = 1 else: df["G1"][i] = 0 if row["G2"] >= 10: df["G2"][i] = 1 else: df["G2"][i] = 0 if row["G3"] >= 10: df["G3"][i] = 1 else: df["G3"][i] = 0 # Target values are G3 y = df.pop("G3") # Feature set is remaining features X = df print("\n\nModel Accuracy Knowing G1 & G2 Scores") print("=====================================") train_and_score(X, y) # Remove grade report 2 X.drop(["G2"], axis = 1, inplace=True) print("\n\nModel Accuracy Knowing Only G1 Score") print("=====================================") train_and_score(X, y) # Remove grade report 1 X.drop(["G1"], axis=1, inplace=True) print("\n\nModel Accuracy Without Knowing Scores") print("=====================================") train_and_score(X, y)main()

输出

上面的代码生成输出,如下所示

预测仅参考参考一个变量.参考一个变量,学生表现预测如下所示 :

学生表现预测