机器学习-监督学习与非监督学习

监督学习与非监督学习最本质的区别是什么?


从某种角度考虑,我觉得就好像主观题客观题的区别。

客观题:答案是死的,不管你是死记硬背还是找规律,答出来对就是对,错就是错。

主观题:答案不指定,反正给你一堆材料,只要你答得言之有理,即可得分。

监督学习

数据集有输入input信息和输出output信息,机器学习算法通过对输入和输出的分析,得到两者之间的关联关系,从而可以根据不同于数据集中输入内容的数据,模拟预测该数据可能产生的输出。

监督学习处理的问题有两种比较通用的划分:

回归问题

数据的输入和输出有一定的连续性,输入和输出有一定的关系可寻。

举栗子:

  • 房价的预测
    • 房间面积:从大到小有连续性
    • 房价:从低到高有连续性
    • 关系:一般房间面积越大,房价越高
  • 身高的预测
    • 脚掌长度:长度有连续性
    • 身高:高度有连续性
    • 关系:人体身高和脚掌长度有一定的关系

分类问题

数据的输出按照有效的输入特征以一定的分类标准呈现,数据集根据输出的类别呈现聚类趋势

举栗子:

  • 肿瘤性质:
    • 肿瘤有良性和恶性之分
    • 不同特征的病人群体数据,分良性和恶性肿瘤聚合在一起
  • 性别区分:
    • 性别有男女之分(伪娘、人妖……)
    • 形态、音声、肤质特征下,性别数据基本会按男女聚类呈现

非监督学习

相比较于监督学习,非监督学习并不指定输出信息,需要机器学习算法自己根据给定的数据,进行有意义的数据分析

聚类算法

对于给定数据的已有特征,对其进行一些规则上的分类统计,聚类,也就是分类聚合的意思

举栗子:

  • 客户群体划分:
    • 根据客户的消费表现,将客户划分为不同需求的受众群体
    • 根据客户的人脉关系,对客户的社交能力评级划分
  • 声纹识别:
    • 将嘈杂的声音信息进行处理分离,得到有效的信息

之前比较迷监督学习的分类问题和非监督学习的聚类算法,感觉两个东西没什么区别。

如果有同感的,可以细细体会一下:

监督学习和非监督学习最大的区别在于输出信息是否在数据集中已经给定

肿瘤的良性还是恶性,在数据集中是已知的信息;而杂糅的声纹在信息中并没有指出哪段声纹是属于谁发出的。

想明白的同学参考一个问题:

对男性和女性的声纹进行数据采集,之后对某一个人的声音进行识别是男声还是女声。

这属于那种机器学习算法?