小编这次要给大家分享的是pyspark如何实现随机森林,文章内容丰富,感兴趣的小伙伴可以来了解一下,希望大家阅读完这篇文章之后能够有所收获。

随机森林是由许多决策树构成,是一种有监督机器学习方法,可以用于分类和回归,通过合并汇总来自个体决策树的结果来进行预测,采用多数选票作为分类结果,采用预测结果平均值作为回归结果。

“森林”的概念很好理解,“随机”是针对森林中的每一颗决策树,有两种含义:第一种随机是数据采样随机,构建决策树的训练数据集通过有放回的随机采样,并且只会选择一定百分比的样本,这样可以在数据集合存在噪声点、异常点的情况下,有些决策树的构造过程中不会选择到这些噪声点、异常点从而达到一定的泛化作用在一定程度上抑制过拟合;第二种随机是特征随机,训练集会包含一系列特征,随机选择一部分特征进行决策树的构建。通过这些差异点来训练的每一颗决策树都会学习输入与输出的关系,随机森林的强大之处也就在于此。

废话不多说,直接上代码:

from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import RandomForestClassifierfrom pyspark.sql import Rowimport pandas as pdfrom sklearn import metrics if __name__ == "__main__": appname = "RandomForestClassifier" master ="local[4]" conf = SparkConf().setAppName(appname).setMaster(master) #spark配置 spark=SparkSession.builder.config(conf=conf).getOrCreate()#spark实例化 #读取数据 data=spark.read.csv('良恶性乳腺癌数据.csv',header=True) #构造训练数据集 dataSet = data.na.fill('0').rdd.map(list)#用0填充空值 trainData, testData= dataSet.randomSplit([0.7, 0.3], seed=7) trainingSet = trainData.map(lambda x:Row(label=x[-1], features=Vectors.dense(x[:-1]))).toDF() train_num = trainingSet.count() print("训练样本数:{}".format(train_num)) #使用随机森林进行训练 stringIndexer = StringIndexer(inputCol="label", outputCol="indexed") si_model = stringIndexer.fit(trainingSet) train_tf = si_model.transform(trainingSet) train_tf.show(5) rf = RandomForestClassifier(numTrees=100, labelCol="indexed", seed=7) rfModel = rf.fit(train_tf) #输出模型特征重要性、子树权重 print("模型特征重要性:{}".format(rfModel.featureImportances)) print("模型特征数:{}".format(rfModel.numFeatures)) #预测测试集 testSet = testData.map(lambda x:Row(label=x[-1], features=Vectors.dense(x[:-1]))).toDF() test_num=testSet.count() print("测试样本数:{}".format(test_num)) si_model = stringIndexer.fit(testSet) test_tf = si_model.transform(testSet) predictResult = rfModel.transform(test_tf) predictResult.show(5) spark.stop() #将预测结果转为python中的dataframe columns=predictResult.columns#提取强表字段 predictResult=predictResult.take(test_num)# predictResult=pd.DataFrame(predictResult,columns=columns)#转为python中的dataframe #性能评估 y=list(predictResult['indexed']) y_pred=list(predictResult['prediction']) y_predprob=[x[1] for x in list(predictResult['probability'])] precision_score=metrics.precision_score(y, y_pred)#精确率 recall_score=metrics.recall_score(y, y_pred)#召回率 accuracy_score=metrics.accuracy_score(y, y_pred)#准确率 f1_score=metrics.f1_score(y, y_pred)#F1分数 auc_score=metrics.roc_auc_score(y, y_predprob)#auc分数 print("精确率:",precision_score )#精确率 print("召回率:",recall_score )#召回率 print("准确率:",accuracy_score )#准确率 print("F1分数:", f1_score)#F1分数 print("auc分数:",auc_score )#auc分数

运行结果:

看完这篇关于pyspark如何实现随机森林的文章,如果觉得文章内容写得不错的话,可以把它分享出去给更多人看到。