相关配置
1 | import sklearn |
sklearn.datasets 使用
sklearn 的数据集库 datasets 提供很多不同的数据集,主要包含以下几大类:
- 玩具数据集
- 真实世界中的数据集
- 样本生成器
- 样本图片
- svmlight 或 libsvm 格式的数据
- 从http://openml.org下载的数据
- 从外部加载的数据
用的比较多的就是 1 和 3,这里进行主要介绍,其他的会进行简单介绍,但是不建议使用。
样本生成器
scikit-learn 包括各种随机样本的生成器,可以用来建立可控制的大小和复杂性人工数据集。
用于分类和聚类的生成器
(一) 簇 datasets.make_blobs()
1.n_samples:样本数 2.n_features:特征数(维度)3.centers:中心数,也可以是中心的坐标 4.cluster_std:簇的方差
1 | from sklearn import datasets |
1 | (1000, 2) |
(二) 同心圆 sklearn.datasets.make_circles
- noise:在数据中加入高斯噪声的标准差。
- factor:内圆与外圆之间的比例因子,在(0,1)范围内。
1 | from sklearn.datasets import make_circles |
- 本文作者: YuT
- 本文链接: https://ytno1.github.io/archives/9e1de974.html
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!