用于机器学习的合成数据集生成 Scikit-Learn 和更多功能

Image title

用于机器学习的合成数据集生成

使用 Scikit-Learn 和更多功能生成合成数据集

越来越明显的是，谷歌、Facebook和微软等大型科技巨头对最新的机器学习算法和软件包非常慷慨（它们免费赠送这些算法和软件包），因为进入世界的障碍是算法是非常低的。

开源社区和工具（如 scikit-earn）已经走过了漫长的道路，大量的开源计划正在推动数据科学、数字分析和机器学习。站在 2019 年，我们可以有把握地说，算法、编程框架和机器学习包（甚至教程和课程如何学习这些技术）不是稀缺资源，而是高质量的数据。

当涉及到调整和微调这些算法时，这经常成为数据科学（DS）和机器学习（ML）实践者的棘手问题。从一开始，指出当前文章涉及算法调查、教学学习和模型原型设计数据稀缺的问题也是明智的。它不是用于扩展和运行商业操作。

它不是讨论如何获得您正在处理的酷旅行或时尚应用的高质量数据。这种消费者、社会或行为数据收集本身就带来了问题。然而，即使是像访问质量数据集来测试特定算法方法的局限性和变幻莫测等简单方法，也往往不是那么简单。

您可能还喜欢：
Scikit-学习：随机森林

为什么需要合成数据集？

如果您从头开始学习，最合理的建议是从简单、小规模的数据集开始，这些数据集可以绘制两个维度，以直观地理解模式，并直观地查看 ML 算法的工作方式。

然而，随着数据维度的爆炸式增长，视觉判断必须扩展到更复杂的问题，如学习和样本复杂性、计算效率、类不平衡等概念。

此时，实验灵活性和数据集性质之间的权衡将发挥作用。您始终可以找到一个实际的大型数据集来练习算法。但是，这仍然是一个固定的数据集，具有固定数量的样本、固定的基础模式以及正样本和负样本之间的固定类分离程度。您还必须调查：

所选测试和训练数据的分数如何影响算法的性能和鲁棒性
面对不同程度的阶级失衡，指标的稳健性
必须做出什么样的偏差权衡
算法在训练以及测试数据（即标签和功能集中的噪声）中在各种噪声签名下的表现
您如何尝试和梳理 ML 算法的弱点？

事实证明，这些对于单个实际数据集相当困难;因此，您必须愿意使用随机的合成数据，这些数据可以捕获真实数据集的所有变幻莫测，但足以控制这些数据，以帮助您科学地调查正在构建的特定 ML 管道的优缺点

ML 合成数据集的基本特征

据了解，此时合成数据集以编程方式生成，而不是来自任何类型的社会或科学实验、业务事务数据、传感器读取或图像手动标记。但是，此类数据集绝对不是完全随机的，ML 合成数据的生成和使用必须遵循一些总体需求。特别是，

它可以是数字、二进制或分类（或非序列号），并且要素的数量和数据集的长度可以是任意的
它必须有一定程度的随机性，但与此同时，用户应该能够选择各种各样的统计分布，以基于这些数据，即底层随机过程可以精确控制和调整
如果用于分类算法，则类分离的程度应可控，使学习问题变得容易或难以解决。
随机噪声可以以可控的方式插入
生成速度应该相当高，以便对任何特定的 ML 算法进行大量此类数据集的实验，即如果合成数据基于真实数据集上的数据扩充，则扩增算法必须计算效率高
对于回归问题，可以使用复杂的非线性生成过程来获取数据 – 真正的物理模型可能有助于这一努力

在下一节中，我们将介绍如何使用一些最流行的 ML 库和编程技术生成合适的数据集。

使用 Scikit 学习和 Numpy 生成标准回归、分类和聚类数据集生成

Scikit-Learn 是基于 Python 的数据科学软件堆栈中最流行的 ML 库。除了经过精心优化的 ML 例程和管道构建方法外，它还拥有用于合成数据生成的基本效用集合。

与 Scikit 学习的回归

Scikit-learn 的 dataset.make_regression 函数可以创建随机回归问题，它们之间具有任意数量的输入要素、输出目标以及可控程度的信息耦合。

three regression graphs, displayed horizontally, with greater regression to the right.

使用 Scikit-Learn 进行分类

与上述回归函数类似， dataset.make_classification 生成可控制类分离和添加噪声的随机多类分类问题。如果需要，还可以随机翻转输出符号的任何百分比，以创建更硬的分类数据集。

Three classification graphs, displayed horizontally in a line.

使用 Scikit-Learn 进行群集

学工具函数可以产生各种聚类问题。最直接的是使用 datasets.make_blobs ，它生成任意数量的具有可控距离参数的聚类。

three clustering graphs, displaying horizontally, and generated by Scikit-learn utility functions

对于测试基于亲和力的聚类算法或高斯混合模型，以特殊形状生成聚类非常有用。我们可以使用 datasets.make_circles 函数来完成cheeli.com.cn/wp-content/uploads/2019/08/ring-1.png”宽度=”513″/* circular graph to test affinity algorithms