更多python、Linux、网络安全学习内容,可移步:www.oldboyedu.com或关注\"老男孩Linux\"公众号
分类: Python/Ruby
2021-04-08 16:42:24
Scikit-learn是Python编程语言的免费软件机器学习库,基本功能主要被分为六大部分:分类、回归、聚类、数据降维、模型选择和数据与处理。
分类:指识别给指定对象的所属类别,属于监督学习的范畴,最常见的应用场景包含垃圾邮件检测和图像识别等。目前Scikit-learn已经实现的算法包括:支持向量机、逻辑回归、随机森林、决策树以及多层感知器神经网络等。
回归:指预测与给定对象相关联的连续值属性,最常见的应用场景包含预测药物反应和预测股票价格等。
聚类:指自动识别具有相似属性的给定对象,并将其分组为集合,属于无监督学习的范畴,最常见的应用场景包括顾客细分和试验结果分组。目前Scikit-learn已经实现的算法包括:K-均值聚类、谱聚类、均值偏移、分层聚类、DBSCAN聚类等。
数据降维:指使用主成分分析、非负矩阵分解或特征选择等降维技术来减少要考虑的随机变量的个数,其主要应用场景包括可视化处理和效率提升。
模型选择:指对于给定参数和模型的比较、验证和选择,其主要目的是通过参数调度来提升精度。目前Scikit-learn实现的模块包括:格点搜索、交叉验证和各种针对预测误差评估的度量函数。
数据预处理:指数据的特征提取和归一化,是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量。但因为大多数时候都做不到精确等于零,因此会设置一个可接受的范围,一般都要求落在0-1之间。