数据分析是一个巨大的项目, 有时过于抽象, 依赖于经验。本文是作者对数据科学学习与实践的分析综述。我希望能提供一个一般的数据分析思路, 并在分析的每一步介绍相关的分析算法及其应用场景。对于算法, 只使用浅层。

本文适用于对数据分析很陌生或不知道如何从一堆数据开始的读者。同时, 由于作者的经验和知识, 本文提出的分析思想也存在一定的局限性。希望读者能在分析中提供合理的参考。

在进行任何数据分析之前, 应首先准备以下内容:

首先, 熟悉业务, 了解数据的来源。

这是数据分析的前提。数据分析, 除了我们面临的数据外, 更多的是隐藏在这些数据背后的各种服务。例如, 当我们看到用户的消费记录时, 不仅可以在收银机系统中购买商品, 还可以在会员系统的订单中全面减少, 活动管理系统的开盘折扣产品, 或者推荐系统的建议。深入了解业务有助于更好地确定分析的维度, 并快速查明问题和原因。

是目的要明确分析。

数据分析不是模型算法和可视化的积累, 而是有目的地发现某些现象, 这些现象是某些决策的基础。因此, 在分析之前, 我们必须明确界定分析的目的, 避免复制其他项目的分析内容, 或随机组合现有的分析模型算法, 这将导致分析结果。

第三, 多角度观察。

为了实现某种分析, 您需要从多个角度观察数据, 这样您不仅可以全面了解整个数据, 还可以帮助发现潜在的新见解。例如, 当我们需要寻找潜在的成员时, 最直接的方法当然是看看那些更多消费我们服务但不是成员的人。但从促销活动的角度来看, 热衷于购买打折商品的人也是潜在的会员, 因为加入会员后会得到更多的折扣。同时, 从推荐制度的角度来看, 对推荐制度推荐的产品感到满意的人更有可能加入会员计划。

准备好之后, 让我们说到点子上, 开始分析。

1. 什么是数据分析?

数据分析必须针对某些对象, 首先要做的是通过数据描述这个对象。

1. 基本统计

统计是最简单的方法, 应用也很简单。常用方法包括和、平均、最大值和最小值、中值、方差、增长率、类型比、分布、频率等。这里介绍的东西不多。

2. 集群

“对象聚集在一起, 人被分组。聚类分析是无监督的学习。聚类分析可以将一组数据划分为多个类别。每个类别内的数据相似, 但这两个类别不同。聚类有助于发现数据分布的特征, 并可以大大减少所分析的数据量。例如, 在轨迹分析和预测中, 通过聚类分析, 我们会发现一个人主要出现在三个地方, 在宿舍周围, 在食堂周围, 在教学楼周围, 所以当我们预测他在哪里, 你可以从纬度数和经度

3. 特征分析

功能工程非常大。如上所述, 数据和特征决定了机器学习的上限, 模型和算法只能近似这一上限。特征工程包括特征提取和特征选择。由于其众多而复杂的算法, 这里没有介绍它。特征分析首先对单位 (包括时间、空间和类型) 进行清晰分析。就像轨迹预测一样, 分析每十分钟的位置比分析每秒纬度和经度的坐标要实际得多, 而且分析时间的位置过于粗糙。然后是特征提取。特征提取、线性 pca (主成分分析)、lda (线性判别分析)、ica (独立分量分析)、文本 f-ide、预期交叉熵、图像 hog、lbp 等算法有很多。特征分析的主要目的是减少维数, 减少冗余, 提高存储计算能力。

第二, 数据发生了什么?

发生的事情是正常和不正常的。我们通常会更关注异常, 所以我也会关注异常分析。数据发生的情况与用于分析的想法和方法是一致的, 但只适用于不同的阶段, 如当月和上个月。对于异常分析, 主要有两个部分, 异常和推送警告。推发出警告相对简单, 只要你注意警告的级别和推警告的人。这种异常发现, 除了可以直接观察到的异常外, 可能还需要更多关注他们的 “暗物质”。所谓暗物质是一种无法直接观察到的现象和相关性。

在异常判断的情况下, 通常根据具体的业务设置一些系数, 并通过这些系数的突变发现潜在的异常。这些系数在弹道分析中尤其重要。例如, 如果我们想分析一个人的轨迹是否异常, 我们将首先看到他是否出现在一个从未见过的地方。如果没有, 第二步使用轨迹向量进行分析。例如, 通过集群, 校长主要出现在教室、图书馆和他们的家。每个地方花费的时间假定为每天 8小时, 这样就会形成一个向量 (8、8、8)。如果我们采用另一个向量 (2, 2, 20), 我们可以通过计算两个向量之间的距离, 通常是欧几里得距离和余弦距离来找到异常。

第三, 为什么会发生这种事?

每当发生什么事, 我们都会问为什么。深部挖掘和数据诊断是我们如何探索问题产生的原因, 准确的问题诊断有利于做出正确的决定。通常可以使用以下方法:

1. 同比趋势分析

这是一个非常简单的方法, 既可以观察我们数据的过去周期, 也可以观察到其他周期, 更不用说这里了。

2. 向下钻取

钻井绝对是寻找因果关系的最常见和最有效的方法, 在找到根本原因之前, 既要分层, 也要拉。在向下钻取的过程中, 要注意钻的面积和方向, 就像挖井一样。这不仅仅是在任何方向寻找获得水的方向。以某商场销量下降为例。为了找出销量下降的原因, 首先, 我想找到销量下降幅度最大的产品。比如说, 我们发现咖啡减少最多, 我们应该问为什么咖啡销量减少。

如果我们需要改变我们的战略, 寻找过去卖得好、销量很低的产品, 我们可以深入到多个层面, 首先只关注服装、饮食等大规模的分类变化 “

3. 相关分析

相关分析是分析不同特征或数据之间的关系, 以发现业务的主要影响和驱动因素。常用的相关分析方法有协方差、相关系数、回归和信息熵。相关系数和回归也可用于下文将讨论的预测。相关性是回归的前提, 相关系数表示两个变量有关系, 回归表示两个变量之间的关系。相关系数和回归也可以扩展到典型的相关分析 (多元) 和多元回归。例如, 经典的 “啤酒和尿布问题”–如果你想知道啤酒销量增长的原因, 你可以分析它与尿布销量的相关性。

4. 数据还会发生什么?

然后, 我们使用我们的数据进行预测。有许多用于预测的算法, 但并不是说所有的预测分析都需要用不可理解的算法来解决。例如, 行业趋势、增长率、同比比、基本概率等, 有时可以解释问题。但在这里, 我将介绍一些常见的预测方法:

1. 特别积分

对于低实时性和连续性要求的预测, 这绝对是最无忧的方法, 但这与特定业务有关, 因此必须熟悉业务和多视角的观察。

2. 分类与回归

分类和回归都从已知数据构造和验证一个函数, 例如 y = f (x)。对于未知 x, 通过 f 预测 y。不同的是, 回归的输出是连续的, 分类的输出是离散的。例如, 我们预测明天的气温将与今天相同, 预测明天是下雨还是晴天是分类。分类方法包括逻辑回归、决策树和支持向量机, 而回归分析通常使用线性回归。

当然, 仍然有许多预测算法, 如隐藏马尔可夫 (hmm), 最大熵, crf 等。只需根据预测数据的具体细节选择正确的方法。当然, 如果我们想准确地告诉数据的特征和需要预测的东西, 这些都可以是我们算法工程师非常好的建议。

5. 我应该怎么做?

做什么是数据分析的终极目标。让我们介绍一些可以使用的方法, 即使您知道问题是什么, 并且不知道该怎么做:

1. 拟合与图论

这是规划路线规划时最常用的方法。例如, 当一家商店经常被抢时, 我们可以在最容易被盗的地方偷货。然后我们可以把这些地方连接起来, 装进保安的巡逻队。同样, 您可以通过构建图形和使用查找最短路径的算法 (dijkstra、弗洛伊德等) 来构建巡逻路径。

2. 协作过滤

协同过滤是利用集体智能的一种方式。就像经典的面试问题一样, 当遇到一个从来没有遇到过的问题时, 你应该怎么做?答案是问那些比你更有经验的人, 他们会怎么做。协同过滤在推荐引擎中使用最多。一般的想法是找到特定用户相似的 n 个用户, 然后推荐用户喜欢的产品, 或者找到当前用户喜欢的第一个n项, 然后选择与n 项相似的m项。推荐给当前用户它是当你得到数据, 但没有固定的目的。这称为探索性分析。在这种情况下, 借助数据分析工具, 我们可以进行一些一般性的探索性分析, 查看数据趋势, 并逐步深化我们的见解。

Comments are closed.