KNN算法的实现

#!/usr/bin/env python
#-*-coding:utf-8-*-
#knn 的具体实现
import csv
import random
import math
import operator
#导入数据集 文件名,split区分那个集
def loadDataset(filename,split,trainintset=[],testSet=[]):with open(filename,'rb') as csvfile:lines=csv.reader(csvfile)dataset=list(lines)for x in range(len(dataset)-1):for y in range(4):dataset[x][y]=float(dataset[x][y])if random.random()<split:trainingSet.append(dataset[x])else:testSet.append(dataset[x])
#计算距离
def euclideanDistance(instance1,instance2,length):distance=0for x in range(length):distance+=pow((instance1[x]-instance2[x]),2)return math.sqrt(distance)
#得到相邻的k个邻居
def getNeighbors(trainingSet,testInstance,k):distance=[]length=len(testInstance)-1#测试集的维度for x in range(len(trainingSet)):dist=euclideanDistance(testInstance,trainingSet[x],length)distance.append((trainingSet[x],dist))distance.sort(key=operatos.itemgetter(1))neighbors=[]for x in  range(k):neighbors.append(distances[x][0])return neighbors
#得到那个类占大多数def getResponse(neighbors):classVotes={}for x in range(len(neighbors)):response=neighbors[x][-1]if response in classVotes:classVotes[response]+=1else:classVotes[response]=1sortedVotes=sorted(classVotes.iteritems(),key=operator.itemgetter(1),reverse=True)#按降序排列return sortedVotes[0][0]
#准确率
def getAccuracy(testSet,predictions):correct=0for x in range(len(testSet)):if testSet[x][-1]==predictions[x]:correct+=1return (correct/float(len(testSet)))*100.0def main():trainingSet=[]testSet=[]split=0.67loadDataset(r'data.txt',split,trainingSet,testSet)print('Train set: '+repr(len(trainingSet)))print('Test set: '+repr(len(testSet)))predictions=[]k=3for x in range(len(testSet)):neighbors=getNeighbors(trainingSet,testSet[x],k)result=getResponse(neighbors)predictions.append(result)print('> predicted='+repr(result)+', actual='+repr(testSet[x][-1]))accuracy=getAccuracy(testSet,predictions)print('Accuracy: '+repr(accuracy)+'%')main()

#!/usr/bin/env python#-*-coding:utf-8-*-#knn实现手写数字识别#1建立工程并导入sklearn包‘import numpy as npfrom os import listdir #使用listdir模块,用于访问本地文件from sklearn import neighbors#2加载训练数据#将加载的32*32的图片矩阵展开成一列向量def img2vector(fileName): retMat=np.zeros([1024],int)#定义返回的矩阵,大小为1*1024 fr=open(fileName)#打开包含32*32大小的数字文件 lines=fr.readlines()#读取文件的所有行 for i in range(32):#遍历文件所有行 for j in range(32):#并将01数字存放在retMat中 retMat[i*32+j]=lines[i][j] return retMat#定义加载训练数据的函数readDataSet;def readDataSet(path): fileList=listdir(path)#获取文件夹下的所有文件 numFiles=len(fileList)#统计需要读取的文件的数目 dataSet=np.zeros([numFiles,1024],int)#用于存放所有的数字文件 hwLabels=np.zeros([numFiles])#用于存放对应的标签(与神经网络的不同) for i in range(numFiles):#遍历所有的文件 filePath=fileList[i]#获取文件名称/路径 digit=int(filePath.split('_')[0])#通过文件名获取标签 hwLabels[i]=digit#直接存放数字,并非one-hot向量 dataSet[i]=img2vector(path+'/'+filePath)#读取文件内容 return dataSet,hwLabelstrain_dataSet,train_hwLabels=readDataSet('digits/trainingDigits/')#训练的图片,对应的标签#3构建KNN分类器knn=neighbors.KNeighborsClassifier(algorithm='kd_tree',n_neighbors=3)knn.fit(train_dataSet,train_hwLabels)#加载测试集dataSet,hwLabels=readDataSet('digits/testDigits/')#构建好的knn分类器对测试集进行预测,并计算预测的错误率res=knn.predict(dataSet)#对测试集进行预测error_num=np.sum(res!=hwLabels)#统计分类错误的数目num=len(dataSet)#测试集的数目print('Total num:',num,' wrong num:', error_num,' WrongRate:',error_num/float(num))




#!/usr/bin/env python
#-*-coding:utf-8-*-
#knn算法实例鸢尾花预测
from sklearn import neighbors
from sklearn import datasetsknn=neighbors.KNeighborsClassifier()
#加载数据
iris=datasets.load_iris()
#打印数据
print(iris)
#训练KNN分类器
knn.fit(iris.data,iris.target)
#KNN实验
predictedLabel=knn.predict([[0.1,0.2,0.3,0.4]])
print(predictedLabel)



结果解释:	
     鸢尾花的数据集
     数据代表花瓣的长宽,花萼的长宽
     预测目标target
     预测结果【0】
    
#!/usr/bin/env python
#-*-coding:utf-8-*-
#knn实现手写数字识别
#1建立工程并导入sklearn包‘
import numpy as np
from os import listdir #使用listdir模块,用于访问本地文件
from sklearn import neighbors
#2加载训练数据
#将加载的32*32的图片矩阵展开成一列向量
def img2vector(fileName):retMat=np.zeros([1024],int)#定义返回的矩阵,大小为1*1024fr=open(fileName)#打开包含32*32大小的数字文件lines=fr.readlines()#读取文件的所有行for i in range(32):#遍历文件所有行for j in range(32):#并将01数字存放在retMat中retMat[i*32+j]=lines[i][j]return retMat
#定义加载训练数据的函数readDataSet;
def readDataSet(path):fileList=listdir(path)#获取文件夹下的所有文件numFiles=len(fileList)#统计需要读取的文件的数目dataSet=np.zeros([numFiles,1024],int)#用于存放所有的数字文件hwLabels=np.zeros([numFiles])#用于存放对应的标签(与神经网络的不同)for i in range(numFiles):#遍历所有的文件filePath=fileList[i]#获取文件名称/路径digit=int(filePath.split('_')[0])#通过文件名获取标签hwLabels[i]=digit#直接存放数字,并非one-hot向量dataSet[i]=img2vector(path+'/'+filePath)#读取文件内容return dataSet,hwLabels
train_dataSet,train_hwLabels=readDataSet('digits/trainingDigits/')
#训练的图片,对应的标签
#3构建KNN分类器
knn=neighbors.KNeighborsClassifier(algorithm='kd_tree',n_neighbors=3)
knn.fit(train_dataSet,train_hwLabels)
#加载测试集
dataSet,hwLabels=readDataSet('digits/testDigits/')
#构建好的knn分类器对测试集进行预测,并计算预测的错误率
res=knn.predict(dataSet)#对测试集进行预测
error_num=np.sum(res!=hwLabels)#统计分类错误的数目
num=len(dataSet)#测试集的数目
print('Total num:',num,' wrong num:', error_num,' WrongRate:',error_num/float(num))


     
      结果解释:
   	  预测实例946, wrong  num 为10  WrongRate 为 0.010570824524312896 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python机器学习常用包

总结了一些常用的工具&#xff1a; Numpy | 必用的科学计算基础包&#xff0c;底层由C实现&#xff0c;计算速度快。Pandas | 提供了高性能、易用的数据结构及数据分析工具。 seaborn | 数据可视化 NLTK | 自然语言工具包&#xff0c;集成了很多自然语言相关的算法和资源。Sta…

支持向量机(SVM)算法

支持向量机&#xff08;SVM&#xff09;算法支持向量机(support vector machine)是一种分类算法&#xff0c;通过寻求结构化风险最小来提高学习机泛化能力&#xff0c;实现经验风险和置信范围的最小化&#xff0c;从而达到在统计样本量较少的情况下&#xff0c;亦能获得良好统计…

python文件操作以及相对路径和绝对路径问题

绝对路径&#xff1a; PROJECT_ROOT os.path.dirname(os.path.realpath(__file__))#获取项目根目录path os.path.join(PROJECT_ROOT,"data\\edge\\0_fuse.txt") #文件路径edgeMap np.loadtxt(path)相对路径&#xff1a; path "./data/edge/98_fuse.txt&quo…

支持向量机(SVM)的实现

#!/usr/bin/env python #-*-coding:utf-8-*- #支持向量积的使用&#xff0c;建立超平面 from sklearn import svmx[[2,0],[1,1],[2,3]]y[0,0,1] clfsvm.SVC(kernellinear) #kernellinear线性核函数clf.fit(x,y)print(clf)print(clf.support_vectors_) #支持向量 print(clf.supp…

【kaggle入门题一】Titanic: Machine Learning from Disaster

原题&#xff1a; Start here if... Youre new to data science and machine learning, or looking for a simple intro to the Kaggle prediction competitions. Competition Description The sinking of the RMS Titanic is one of the most infamous shipwrecks in hist…

神经网络NN算法

1. 背景: 1.1 以人脑中的神经网络为启发&#xff0c;历史上出现过很多不同版本1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network)2.1 Backpropagation被使用在多层向前神经网络上2.2 多层向前神经网络由以下部分组成&a…

python利用jieba(textRank、TFIDF)提取关键字

from jieba import analyse print("tfidf: ") tfidf analyse.extract_tags text "线程是程序执行时的最小单位&#xff0c;它是进程的一个执行流&#xff0c;\是CPU调度和分派的基本单位&#xff0c;一个进程可以由很多个线程组成&#xff0c;\线程间共享进程…

神经网络算法实现

1. 关于非线性转化方程(non-linear transformation function) sigmoid函数(S 曲线)用来作为activation function:1.1 双曲函数(tanh)tanh是双曲函数中的一个&#xff0c;tanh()为双曲正切。在数学中&#xff0c;双曲正切“tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来公式…

神经网络算法的实例

1.简单非线性关系数据集测试&#xff08;XOR)X: Y0 0 00 1 11 0 11 1 0Code:#!/usr/bin/env python #-*-coding:utf-8-*- #神经网络测试的例子 #简单非线性关系数据集测试(XOR)异或的运算 f…

线性回归模型

1. 简单线性回归模型举例&#xff1a; 汽车卖家做电视广告数量与卖出的汽车数量&#xff1a; 1.1 如何练出适合简单线性回归模型的最佳回归线/ 使sum of squares最小1.1.2 计算分子 (1-2)(14-20)(3-2)(24-20)(2-2)(18-20)(1-2)(17-20)(3-2)(27-20) 6 4 0 3 7 20分母 &…

多元线性回归模型

1. 与简单线性回归区别(simple linear regression)多个自变量(x)2. 多元回归模型yβ0&#xff0b;β&#xff11;x1β2x2 ... βpxpε其中&#xff1a;β0&#xff0c;β&#xff11;&#xff0c;β2... βp是参数ε是误差值3. 多元回归方程E(y)β0&#xff0b;β&#xff11;x…

常见分数值归一化方法

数据标准化&#xff08;归一化&#xff09;处理是数据挖掘的一项基础工作&#xff0c;不同评价指标往往具有不同的量纲和量纲单位&#xff0c;这样的情况会影响到数据分析的结果&#xff0c;为了消除指标之间的量纲影响&#xff0c;需要进行数据标准化处理&#xff0c;以解决数…

非线性回归

1. 概率&#xff1a; 1.1 定义 概率(P)robability: 对一件事情发生的可能性的衡量1.2 范围 0 < P < 11.3 计算方法&#xff1a; 1.3.1 根据个人置信1.3.2 根据历史数据1.3.3 根据模拟数据1.4 条件概率&#xff1a;2. Logistic Regression (逻辑回归)2.1 例子2.2 基本…

python dir()函数使用

您可以使用内置的dir()函数列出一个定义对象的标识符。例如&#xff0c;对于一个模块&#xff0c;包括在模块中定义的函数&#xff0c;类和变量。 当你给dir()提供一个模块名字时&#xff0c;它返回在那个模块中定义的名字的列表。当没有为其提供参数时, 它返回当前模块中定义的…

【链接保存】十分钟上手sklearn:特征提取,常用模型,交叉验证

原博客地址&#xff1a;http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/ 简书地址&#xff1a;https://www.jianshu.com/p/731610dca805

【链接保存】十分钟上手sklearn:安装,获取数据,数据预处理

简书地址&#xff1a;https://www.jianshu.com/p/a9168803edc6 博主地址&#xff1a;http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/

层次聚类

假设有N个待聚类的样本&#xff0c;对于层次聚类来说&#xff0c;步骤&#xff1a;1、&#xff08;初始化&#xff09;把每个样本归为一类&#xff0c;计算每两个类之间的距离&#xff0c;也就是样本与样本之间的相似度&#xff1b;2、寻找各个类之间最近的两个类&#xff0c;把…

常用软件包和环境配置(机器学习)

1. 常用软件包&#xff1a;TheanoPylearn2scikit-neuralnetworkCaffeDeeplearning4jTorchhttp://deeplearning.net/software_links/2. 环境配置Linux: UbuntuEclipsePyDevPythonCUDAGPU: https://developer.nvidia.com/cuda-gpus3. 神经网络算法 (neural networks)http://www.m…

(优秀文章保存)Quartz优秀文章保存

Quartz的基本使用之入门&#xff08;2.3.0版本&#xff09; 一、Quartz可以用来做什么 Quartz是一个强大任务调度框架&#xff0c;我工作时候会在这些情况下使用到quartz框架&#xff0c;当然还有很多的应用场景&#xff0c;在这里只列举2个实际用到的 餐厅系统会在每周四晚…

【使用注意】Jsoup的select方法

之前做了一个频道抓取&#xff1a;获取div Elements div_e;div_e doc.select("div");Iterator<Element> div_it div_e.iterator();while (div_it.hasNext()) {处理逻辑} 我是想通过select div块然后去遍历获取div里的内容&#xff0c;但是发现有的新闻网址频…