小翔博客

sklearn使用小贴士

佚名 4年前 (2020-02-19) Python 660人围观抢沙发百度已收录

1 sklearn简介

Scikit-learn(sklearn)是机器学习中的第三方模块，封装了常用的机器学习算法，涉及回归、降维、分类以及聚类等，提供python接口。

虽然sklearn容纳的算法众多，但使用其中大多数算法的模式（套路）都是一样的，一般流程如下：
1 引入相关数据（包括训练集与测试集），其实Sklearn也自带一些小型数据集，可以用来测试检验各种算法，方便快捷；
2 选择算法进行训练，若模型带有超参数，可以运用交叉验证方法调参；
3 训练完成后进行新数据预测，并可以通过引入MatPlotLib等库展示数据；
4 将已训练好的模型保存，避免往后用到时再重复训练。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

2 sklearn的自带数据集

sklearn附带了一些小型常用数据集，调取方法如下：

调取其它数据集的方法和上图中的例子类似。

3 分层划分训练集与测试集

注意：为了使实验具有可重复性，在划分数据集时要设定随机数种子，以确保重复多次运行代码时得到的训练集与测试集是一样的；此外，为了平衡训练集与测试集中各类别的比例（特别是在分类任务中），常常需要分层划分数据集，这与统计学中分层抽样的原理一样。

4 数据标准化

常见的标准化方式有：离差标准化，高斯标准化。

离差标准化将所有数据变换到区间[0,1]中，高斯标准化将数据转成高斯分布（正态分布）形态：

5 模型的保存与调取

为了避免重复训练模型，同时方便后续直接调取已有模型，可以将训练好的模型保存：

上图中，将knn训练完成的模型保存到代码文件的同目录下，如下图（代码文件名为：kNN.ipynb,模型名为：train_model.m）:

若要加载已有模型，操作如下：

sklearn作为一个常用机器学习包，熟练使用它对于减少工作时间提高效率十分重要；只要学到一个算法的使用流程，则可以触类旁通，快速掌握其它算法。

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客 sklearn使用小贴士

本文标题：sklearn使用小贴士

本文链接：https://liuyixiang.com/post/109068.html

上一篇 : python 进制

下一篇 : npm下载文件临时目录、实际存放目录路劲

评论列表暂无评论

发表评论

« 2024年2月 »
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29