机器学习算法:补一个k-近邻算法的测试
之前写k-近邻算法(http://boytnt.blog.51cto.com/966121/1569629)的时候,没附上测试数据,这回找了一个,测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,关于乳腺癌的样本,属性描述见breast-cancer-wisconsin.names。
样本的大致形式如下:
1000025,5,1,1,1,2,1,3,1,1,2
第1个属性是编号,我们不关心,最后一个属性是结果,2表示benign(良性),4表示malignant(恶性)。其余9个属性是样本特征。注意里面有缺失数据(用?表示,共计16行,占2.3%),计算时要先做数据清洗,这里简单填充成0即可。
用k-近邻算法来测试一下:
publicvoidTestNearestNeighbour(){vartrainingSet=newList<DataVector<double>>();vartestSet=newList<DataVector<double>>();//读取数据varfile=newStreamReader("breast-cancer-wisconsin.txt",Encoding.Default);for(inti=0;i<699;++i){stringline=file.ReadLine();varparts=line.Split(',');varp=newDataVector<double>(9);for(intj=0;j<p.Dimension;++j){if(parts[j+1]=="?")parts[j+1]="0";p.Data[j]=Convert.ToDouble(parts[j+1]);}p.Label=Convert.ToInt32(parts[10])==2?"benign":"malignant";//用600个样本做训练,剩下99个做测试if(i<600)trainingSet.Add(p);elsetestSet.Add(p);}file.Close();//检验varnn=newNearestNeighbour();nn.Train(trainingSet);interror=0;foreach(varpintestSet){varlabel=nn.Classify(p);if(label!=p.Label)++error;}Console.WriteLine("Error={0}/{1},{2}%",error,testSet.Count,(error*100.0/testSet.Count));}
运行结果是99个测试样本猜错2个,错误率2.02%,效果不错。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。