本文由多部分部分讨论如何从三个角度 (概念、实践和最佳实践) 收集数据、交换数据、获取数据、模型数据以及可视化数据。

本系列的第一篇文章中, 我们已经看到了如何通过银行、金融服务和保险 (bfsi) 领域的示例从概念上理解数据。

在本文中, 我们将学习如何根据您的业务场景使用阿里云快速 bi来处理数据 (即清理数据)。在即将到来的破译数据过程中, 我们可能需要快速 bi, 因此请确保您已注册阿里云帐户。如果您还没有, 请通过此链接注册一个免费帐户。

什么是数据争用?

数据纠纷 (有时被称为数据咀嚼) 是将数据从一种格式转换为另一种格式的过程, 目的是使其更适合分析, 更有价值。随着大数据和物联网应用的迅速增长, 数据类型和格式的数量每天都在增加。这使得数据纠纷成为大数据处理不可或缺的元素, 特别是对于较大的应用程序。

什么是快速 bi?

阿里云快速 bi是构建在云上的灵活而轻量级的业务分析平台。快速 bi 的基本组件如下所示:

  1. 数据源
  2. 数据
  3. 工作表 (快速 bi 基本)
  4. 工作簿 (快速 bi 专业版和专业版)
  5. 仪表 板
  6. 门户 (快速 bi 专业版和专业版)

争用数据 (概念)

数据争用包括:

  1. 数据清理
  2. 数据编辑

数据清理

数据清理或数据清理是检测、分析、从数据集中删除不准确记录, 并用适当的数据替换数据中不准确的部分的过程。数据清理可以通过数据争用工具或脚本来完成。

例如, 假设数据集在日期列中具有一些错误的值, 如 “s29-05-2018”, 而不是 “29-05-2018″。对一个人来说, 这似乎是一个微不足道的错误, 但对一个系统来说, 这个条目是不可读的。系统可能不会将此项读取为日期, 而是将其作为字符串。

请注意:我们可以使用 excel 本身来清理数据, 但可能会错过一些东西。最好是通过脚本或工具来做。如果数据源是数据库, 则可以使用 bi 工具执行此操作。

数据编辑和准备

数据编辑和准备只不过是一个手动过程, 用于为报告目的更改数据、数据类型。

例如, 假设数据集具有 “mm-dd-yyyy” 格式的日期值, 但我们需要 “dd-mm-yyyyy” 格式。这意味着我们需要手动更改它。

请注意:数据编辑和准备通常在 excel 本身中进行, 或者, 如果数据源是数据库, 那么我们可以使用 bi 工具进行。

争用数据 (实用)

正如我们前面所讨论的, 我们将使用 excel 来处理数据。除此之外, 我还想分享我为自动争抢数据而编写的 python 脚本。

用例1:atm 分析

在这里, 我们将看看我们的第一个用例, 一个1

我们的数据集是干净的, 但是, 为了进行演示, 我们将首先使这些数据的某些部分错误或不准确。

2

现在我们的数据包含一些错误的值, 例如:

  1. 交易记录有一些错误的数据, 因此它将列识别为字符串而不是 “日期”。
  2. 不。的撤回必须包含整数, 但它包含十进制数。
  3. 工作日包含一个小 h, 这使得它有新的分类价值。
  4. 工作日和假日序列也包含错误的数据。

我们需要处理这个问题, 因为如果处理不当, 就会导致不准确的结果, 进而导致错误的见解。

让我演示如何在 excel 中处理此问题。请看下表:

类型 结果
数量 1
文本 2
逻辑值 4个
错误值 16
数组值 64

使用类型函数, 我们可以很容易地找到错误的数据。请按照以下步骤操作:

1. 插入用于验证数据的新列。

3

2. 编写公式 “= 类型 (范围)”4

3. 将筛选器应用于要验证的列。5

由此, 我们可以很容易地找到日期列是否有错误的值。因为它包含文本, 所以我们可以区分文本和数字, 但我们无法找出它是否有浮点而不是整数。在此过程中, 我们还可能使用其他功能, 如 isnumber ()、istext 等。

我们可能无法分析每个单元格以查找不正确的数据。因此, 使用任何争吵工具或脚本都是非常重要的。

用例 2: 客户360

在这里, 我们去我们的下一个用例客户 360

我们将使用 python 脚本自动对数据进行争用。我将写一篇关于破译数据的编程方法的单独文章, 以揭示其中隐藏的见解。

python 代码

# =============================================================================
#                      #Importing the necessary modules
# =============================================================================

import pandas as pd
import numpy as np

# =============================================================================
#                    #Data Wrangling or Data munging
# =============================================================================

def datawrangler(data):


    data=data

重命名 (列 = lambdax:x. 替换 (“,”), 就地 = true) # 获取列名称列 = data.columns.values 列 = pd。数据框架 (列, 列 = [“列字段”]) # 获取列类型列数据类型 = pd。datframe (data. dtype) 列 data.dtypes. index = range (len (列)) #Adding 列类型, 其各自的列列 [“列 type”] = 范围内 x 的列数据类型 (len (列)): 如果 (列 [‘ ‘ 列 type ‘. iloc [x]) np.dtype(np.int64) 或(列 [“列类型”]. iloc [x]) 为 np.dtype(np.float64): data[columns[‘ColumnFields’].iloc[x]]=data[columns[‘ColumnFields’].iloc[x]].fillna(0), 如果 (列 [列类型 “]. iloc [x]) 不 np.dtype(np.int64): 数据 [列 [列字段”]. iloc [x]] = 数据 [列 [“列字段”]. iloc [x]. fillna (方法 = “ffill”) 如果 “日期” (列 [“列字段”]. 现应 (np.str.lower). iloc [x]): 数据 [列 [列 [列)]. iloc [x]] = 数据 [列 [列 [列. iloc [x]]. 谨施用日期时间) 如果 (列 [‘ 列类型 ‘]. iloc [x]) 是 np.dtype(np.float64): 对于 y 在范围 (len (数据)): 如果 (np.modf(data[columns[‘ColumnFields’].iloc[x]].iloc[y])[0]) 在 [‘ 0.0 ‘, 0.0]: 数据 [列 [‘ 列字段 ‘。ta[columns[‘ColumnFields’].iloc[x]].astype(np.dtype(np.int64)) 如果 (列 [列类型 “]. iloc [x]) 不 np.dtype(np.int64) 和 (列 [列类型”]. iloc [x]) 不 np.dtype(np.float64) 和 (“日期” 不在 (列 [“列字段”]), 则会中断。适用 (np.str.lower). iloc [x]): 对于 y 范围 (len (数据)): 如果 (数据 [列 [‘ 专栏 ‘]. iloc [x]. iloc [y]]. is数字 ()): data[columns[‘ColumnFields’].iloc[x]]=data[columns[‘ColumnFields’].iloc[x]].astype(np.dtype(np.int64)
中断返回数据输入 (“” \ n = n 输入文件位置 \\ n\ n “) data=pd.read_csv(location,index_col=0) savelesa = 输入 (” \ n\ n 输入文件保存位置 \ n \ t “标头 = 无)

争做数据 (最佳实践)

  1. 检查数据是否清晰或是否需要纠结始终是一种最佳做法。
  2. 检查数据是否有异常和异常值。
  3. 将分类值转换为小写或大写, 然后将其转换为句子大小写, 以避免重复相同的值。
  4. 查找导致错误结果的空值和 nan 值。
  5. 使用数据争夺战或准备工具来争夺数据, 以避免人为错误。

收集数据 (概念)

数据接收是分析和商业智能的关键成功因素。我们需要了解 oltp 和 olap。

oltp 是一种在线交易处理系统。oltp 系统的重点是记录事务期间是否发生了更新、插入和删除。oltp 查询更简单、更短, 因此处理所需的时间更少, 所需的空间也更少。oltp 系统的一个常见示例是 atm 数据库, 在该数据库中, 我们通过使用短交易来修改帐户的状态。

另一方面, olap 是一个在线分析处理系统。olap 数据库存储由 oltp 输入的历史数据。使用 olap, 您可以从大型数据库中提取信息并对其进行分析以进行决策。olap 系统的一个典型示例是数据仓库, 它从多个 oltp 数据源中积累数据以查询和分析数据。

对于 oltp 和 olap, 我们可能有文件或数据库作为数据源csv 和。Xls。我们还需要为我们的应用程序考虑不同类型的数据库。连接器可用于轻松连接数据库。

收集数据 (实用)

现在让我们看看如何将数据引入快速 bi。

首先, 您需要设置快速 bi。您需要有一个阿里云帐户。

  1. 您需要有一个阿里云帐户。登录您的阿里云账户。
  2. 输入您的控制台并导航到快速 bi 产品控制台。
  3. 选择 “区域”, 然后选择 “快速 bi 专业版”。

已创建快速 bi 实例。

6

如何将文件导入到快速 bi 专业版中

  1. 选择 “个人工作区”。7
  2. 单击 “数据源”、”上载”、”上载文件”、”命名文件” 和 “确定”。8
  3. 数据已成功引入快速 bi。9

请注意:文件仅在个人工作区中支持。

如何从数据库中提取数据到快速 bi 专业版

  1. 选择 “默认工作区”。10单击 “数据源”, 单击 “创建数据源”, 单击 “选择数据源”。11
    注意:
    您可以选择云数据库或外部数据库。
  2. 填写 “连接详细信息”, 单击 “测试连接”, 然后保存。12
  3. 建立数据源连接。13

请注意:请选择个人工作区以外的工作区, 以便可以使用工作簿。

收集数据 (最佳实践)

  1. 如果您使用的是文件, 则始终输入争用的数据。
  2. 不要将 oltp 数据库连接为源, 因为这样做可能会降低源系统的性能。
  3. 连接阿里云平台提供的 olap 数据库或使用 rds 服务。
  4. 始终使用自定义查询来接收数据, 而不是接收所有表。

总结

如果您正确地执行了这些步骤, 则应该已成功地将数据引入快速 bi, 这是破译数据以发现隐藏见解过程中的一个重要里程碑。

请确保您已注册阿里云帐户, 即可享受快速 bi pro 的免费试用版。在本多部分教程的下一篇文章中, 我们将了解如何使用快速 bi 对数据进行建模。在本系列文章的下一部分中, 请参阅所有内容。请继续关注。

作者: 阿里云科技股份作者 ranjith udakumar。

Comments are closed.