机器学习-监督学习与非监督学习

监督学习与非监督学习最本质的区别是什么？

从某种角度考虑，我觉得就好像主观题和客观题的区别。

客观题：答案是死的，不管你是死记硬背还是找规律，答出来对就是对，错就是错。

主观题：答案不指定，反正给你一堆材料，只要你答得言之有理，即可得分。

监督学习

数据集有输入input信息和输出output信息，机器学习算法通过对输入和输出的分析，得到两者之间的关联关系，从而可以根据不同于数据集中输入内容的数据，模拟预测该数据可能产生的输出。

监督学习处理的问题有两种比较通用的划分：

数据的输入和输出有一定的连续性，输入和输出有一定的关系可寻。

举栗子：

数据的输出按照有效的输入特征以一定的分类标准呈现，数据集根据输出的类别呈现聚类趋势

举栗子：

相比较于监督学习，非监督学习并不指定输出信息，需要机器学习算法自己根据给定的数据，进行有意义的数据分析

对于给定数据的已有特征，对其进行一些规则上的分类统计，聚类，也就是分类聚合的意思

举栗子：

之前比较迷监督学习的分类问题和非监督学习的聚类算法，感觉两个东西没什么区别。

如果有同感的，可以细细体会一下：

监督学习和非监督学习最大的区别在于输出信息是否在数据集中已经给定

肿瘤的良性还是恶性，在数据集中是已知的信息；而杂糅的声纹在信息中并没有指出哪段声纹是属于谁发出的。

想明白的同学参考一个问题：

对男性和女性的声纹进行数据采集，之后对某一个人的声音进行识别是男声还是女声。

这属于那种机器学习算法？