用python学习机器学习的笔记,所有的代码和实例来源于《机器学习实战》一书。所有源代码和数据都可以在我的github上下载。
1.机器学习基础
机器学习可以分为监督学习和无监督学习,监督学习又可以分为分类和回归,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。与之相对的无监督学习分为聚类和密度估计,此时数据没有类别信息,也不会给定目标值。
2.K-近邻算法
k近邻算法就是分类算法的一种。简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。
1.特点
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据类型:数值型和标称型。
2.工作原理
- 有一个样本数据集(训练数据集),并且知道其中数据和分类之间的对应关系。(每个数据都存在标签)。
- 输入没有标签的新数据之后,将新数据的每个特征和样本集中的数据对应的特征进行比较;然后提取样本数据集中最相似数据的分类标签(距离最近);一般只选择样本集中前k个最相似的数据(k不等于20)。
- 把k个数据标签中出现次数最多的那个分类,作为新数据的分类。
3.一般流程
收集数据:任何方法。
准备数据:距离计算所需要的数值,最好是结构化的数据格式。
分析数据:一般可采用可视化的方法进行分析。
训练算法:K-近邻算法中不适用。
测试算法:计算错误率。
使用算法:输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据分别属于哪个分类,最后对计算出的分类执行后续处理。
3.实例
1.使用python导入数据
1 | #创建数据集和标签 |
2.KNN算法
使用k-近邻算法将每组数据划分到每个类中:
- 计算当前点和测试数据集中的点之间的距离。
- 按照距离递增次序排序。
- 选取和当前距离最小的k个点。
- 计算前k个点的类别出现的频率。
- 返回前k个点出现频率最高的类别作为当前预测点的分类。
1 | ''' |
3.优化约会网站的配对效果
准备数据:从文本文件中解析数据,数据存放在文本文件datingTestSet2.txt中,在将文本中的数据输入到分类器之前,必须将待处理数据的格式转化为分类器可以接受的格式。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23#将文本记录转化为NumPy矩阵
def file2matrix(filename):
fr = open(filename,'r')
#获取文件数据行的行数
numberOfLines = len(fr.readlines())
#生成一个0矩阵
returnMat = zeros((numberOfLines,3))
#要返回的标签
classLabelVector = []
fr = open(filename, 'r')
index = 0
#解析文件数据到列表
for line in fr.readlines():
# 去除字符串首尾的空格
line = line.strip()
#用制表符\t分割字符串
listFormLine = line.split('\t')
#每列的属性数据
returnMat[index] = listFormLine[0:3]
#每列的label标签数据,-1最后一列
classLabelVector.append(int(listFormLine[-1]))
index += 1
return returnMat,classLabelVector
使用Matplotlib画图,分析数据的特征。1
2
3
4
5
6
7
8
9
10# 使用Matplotlib画二维散点图
def draw():
import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
datingDataMat, datingLabels = file2matrix("datingTestSet2.txt")
ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
#ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 15.0*array(datingLabels), 15,0*array(datingLabels))
plt.show()
如果给的数据的权重不一致,就需要进行归一化操作,归一化特征值,消除特征之间量级不同导致的影响。
这里采用的是线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)。 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16#归一化特征值
def autoNorm(dataSet):
#每列的最小值
minVals = dataSet.min(0)
#每列的最大值
maxVals = dataSet.max(0)
#归一化处理的范围
ranges = maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0]
#生成与最小值之差组成的矩阵
normDataSet = dataSet - tile(minVals,(m,1))
#最小值之差除以最大值和最小值的差值
normDataSet = normDataSet / tile(ranges,(m,1))
# norm_dataset = (dataset - minvalue) / ranges
return normDataSet, ranges, minVals
测试算法:首先使用了file2matrix和autoNorm()函数从文件中读取数据并将其转换为归一化特征值。接着计算测试向量的数量,此步决定了normMat向量中哪些数据用于测试,哪些数据用于分类器的训练样本;然后将这两部分数据输入到原始kNN分类器函数classify0。1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22#测试算法
def datingClassTest():
#测试范围,一部分测试一部分作为样本
hoRatio = 0.1
#加载数据
datingDataMat, datingLabels = file2matrix("datingTestSet2.txt")
#归一化数据
normMat, ranges, minVals = autoNorm(datingDataMat)
#数据的行数
m = normMat.shape[0]
#设置样本的测试数据
numTestVecs = int(m * hoRatio)
print('numTestVecs', numTestVecs)
#分类错误数
errorCount = 0
#numTestVecs: m表示训练样本的数量
for i in range(numTestVecs):
classifierResult = classify0(normMat[i], normMat[numTestVecs : m], datingLabels[numTestVecs : m], 3)
print("the classifier came back with: %d, the real answer is : %d" %(classifierResult, datingLabels[i]))
errorCount += classifierResult != datingLabels[i]
print("the total error rate is :%f" %(errorCount / numTestVecs))
print(errorCount)
4.手写识别系统
构造一个能识别数字 0 到 9 的基于 KNN 分类器的手写数字识别系统。
需要识别的数字是存储在文本文件中的具有相同的色彩和大小:宽高是 32 像素 * 32 像素的黑白图像。
目录 trainingDigits 中包含了大约 2000 个例子,每个例子内容如下图所示,每个数字大约有 200 个样本;目录 testDigits 中包含了大约 900 个测试数据。
1 | #将图像数据转换为向量 |
1 | def handwritingClassTest(): |
4.小结
k-近邻算法是分类数据最简单最有效的算法,k-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。k-近邻算法的另一个缺陷是它无法给出任何数据的基础结构信息,因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。
参考的文章:
https://blog.csdn.net/c406495762/article/details/75172850
https://github.com/apachecn/MachineLearning/blob/master/docs/2.k-%E8%BF%91%E9%82%BB%E7%AE%97%E6%B3%95.md
http://www.pythoner.com/238.html
《机器学习实战》