数据分析在体育中的重要性日益增加

体育无疑是一个把数据分析放在心上的行业, 奥克兰田径的成功在《》中得到了如此美丽的说明 可穿戴技术的增加加剧了这一能力, 这些技术使得人们能够生成更多关于运动成绩似乎所有方面的数据。最近的一个特刊的特点是收集文章, 突出数据对各种体育的影响。 例如, 一篇论文探讨了数据如何帮助长跑运动员在比赛中更好地调整自己的节奏。作者描述了他们如何收集超过 120, 000名参加一系列官方比赛的跑步者的数据, 以分析他们的节奏策略, 并确定这对他们的整体时间有何影响。 第二篇论文随后探讨了在奇幻体育联盟中使用数据的问题, 作者建议, 将越来越多地部署计算机来处理数据, 并做出比任何人类玩家都更明智的决定。 “大数据和人工智能正在改变体育界。专业团队和其他利益相关者越来越多地聘请机器学习专家, 不仅帮助优化营销、门票销售和粉丝参与, 还帮助优化选秀、玩家评价和游戏日决策.系列解释。“在这个特殊问题中讨论了针对新兴体育分析领域一系列重要挑战的最先进的解决方案, 大数据和体育爱好者将享受这些解决方案. 在体育运动中使用数据的可能性只有增加, 因此这些文章提供了目前受影响的一些领域的很好的概述。

Featured Post

从 dijkstra 到 a 星 (a *), 第1部分: dijkstra 算法

查找从一个节点到另一个节点的路径是一个经典的图形搜索问题, 我们可以使用多个遍历算法 (如bfs或dfs)来解决此问题。但是, 如果我们想要找到从一个节点到另一个节点的最短路径, bfs或dfs遍历不会对我们有太大帮助, 因此我们需要使用其他算法, 如bellman-ford、 floyd-warshall 或 dijkstra。在本文中, 我想重点介绍 dijkstra 算法, 并了解我们可以做些什么来改进它, 使它更快, 从而将它转换为 a 星 (a *) 算法。 在正加权图中寻找最短路径 在正加权图中, 我们可以使用dijkstra算法计算从a点到b 点成本最低的路径。如果有负成本的路径, dijkstra 就行不通了, 所以我们必须寻找其他方法, 比如bellman-ford或活期-warshall算法。 该算法的主要思想是, 从一个节点开始, 下一个要访问的节点是从源到它的遍历成本最低的节点。因此, 这看起来几乎像bfs, 通过有一个带有节点的队列, 并且在每次迭代中, 我们都会从队列中提取一个元素并访问它。dijkstra和bfs之间的区别在于, 使用bfs , 我们有一个简单的fifo队列, 下一个要访问的节点是在队列中添加的第一个节点。但是, … Read More

Featured Post

网络刮擦教程: 使用 python 查找廉价航班!

介绍 在本教程中, 我将向您展示如何使用 python 自动浏览像 expedia 这样的网站, 每小时查找航班, 并将您想要的特定路线的最佳航班费率直接发送到您的电子邮件。 最终的结果是这个不错的电子邮件: 我们将按以下方式开展工作: 将 python 连接到我们的 web 浏览器并访问网站 (在我们的示例中的 expedia)。 根据我们的喜好选择机票类型 (往返、单程等)。 选择出发国家/地区。 选择到达国家/地区 (如果是往返)。 选择出发和返回日期。 以结构化格式编译所有可用的航班 (对于那些喜欢做一些探索性数据分析的人!) 连接到您的电子邮件。 发送当前小时的最佳费率。 让我们开始吧! 导入库 让我们继续导入我们的库: 硒 (用于访问网站和自动化测试): from selenium import webdriver from selenium.webdriver.common.by import … Read More

Featured Post

什么是商业智能?

商业智能 (或 bi) 是公司用来分析其数据和创建影响公司绩效的可操作外卖的过程。通常, 此过程包括将公司数据收集到数据仓库或其他存储库中, 并使用专门设计的工具来分析数据。例如, 您可以查看客户在线购物习惯、运营成本或区域销售信息。或者, 您可以将业务运营与基准标准进行比较。商业智能对于组织在竞争激烈的商业环境中的生存至关重要。通常, bi 应用程序使用从数据仓库收集的数据, 公司通常使用 etl (提取、转换和加载) 工具将来自组织不同部分的数据获取到数据仓库中。将一个好的 etl 解决方案与一个好的商业智能工具相匹配, 可以让您的商业游戏突飞猛进。核心研究公司的一项研究表明, 商业智能分析每花费1美元, 就能得到 1 3. 0 1 的回报。 为什么商业智能很重要? 查看和理解当前数据、了解公司强项和弱项的大局以及预测未来趋势或需求的能力, 都是企业的重要命脉, 也是包括企业在内的一组活动之一情报。 下面的列表显示了一些常见的商业智能活动: 报告。定期向组织内的关键决策者提供汇总数据, 以支持他们做出业务决策的能力。 分析。涉及查找和了解可用于做出业务决策的数据中的模式的活动。 数据挖掘。涉及在大型数据集中查找模式的活动。 复杂的事件处理。复杂事件处理 (cep) 是对流数据的实时分析。流数据通常是不断更新的数据, 如股市源、交通报告、带有传感器的电网等。 业务绩效管理。这是一组分析过程, 旨在分析和衡量组织为自己定义的特定绩效目标 (或一组目标)。例如, … Read More

Featured Post

python 函数教程: 使用 python 中的函数, 第3部分

欢迎来到本 python 函数系列的第三部分, 也是最后一部分!如果您错过了第1部分或第2部分, 请按照这些链接查看它们。 python 递归函数 什么是 python 中的递归? 递归是根据自身定义事物的过程。 一个现实世界的例子是把两个平行的镜子面对面。它们之间的任何对象都将递归反映。 python 递归函数 我们知道, 在 python 中, 函数可以调用其他函数。函数甚至可以自调用自己。这些类型的构造称为递归函数。 下面是一个递归函数的示例, 用于查找整数的阶乘。 数字的阶乘是从1到该数字的所有整数的乘积。例如, 阶乘 5 (表示为 5!) 为 1 * 2 * 3 * 4 * 5 = 120。 例子: # … Read More

Featured Post

阿帕奇火花的核心 api 简介 (第二部分)

你好, 程序员, 我希望你们都做得很好。 在我之前的文章《 apache spark 的核心 api 简介》 (第一部分)中, 我提到了纯 rdd 的方法, 正如我承诺的那样, 将解释与多个示例片段配对 rdd 的功能或方法。所以就在这里! 要创建对 rdd, 请参考我以前的帖子。在该教程的帮助下, 您可以创建对 rdd (在这里, 我假设订单 pairrdd 是我的对 rdd, 它有一个标记 order_id 的键和一个值设置为) order 。 配对 rdd 核心 api 订单 pairrdd. join (其他 … Read More

Featured Post

什么是数据冗余?

数据冗余说明 当同一数据块存储在两个或多个单独的位置时, 就会发生数据冗余。假设您创建了一个数据库来存储销售记录, 并在每个销售的记录中输入客户地址。但是, 您有多个销售到同一客户, 因此同一地址被多次输入。重复输入的地址是冗余数据。 数据冗余是如何发生的? 可以设计数据冗余;例如, 假设您要每晚备份公司的数据。这将创建冗余。数据冗余也可能错误地发生。例如, 为每次销售创建具有新记录的系统的数据库设计人员可能没有意识到他的设计导致重复输入相同的地址。当您将相同的信息存储在多个系统中时, 也可能会得到冗余数据。例如, 假设您将相同的基本员工信息存储在人力资源记录和为本地网站办公室维护的记录中。 为什么数据冗余可能是一个问题 当数据冗余是计划外的时, 可能是一个问题。例如, 如果您有一个 “客户” 表, 其中包含地址作为数据字段之一, 而 john doe 家族与您一起开展业务, 并且所有地址都位于同一地址, 则数据库中将具有同一地址的多个条目。如果 john doe 家族搬家, 您需要更新每个家庭成员的地址, 这可能非常耗时, 并引入输入错误或对其中一个地址键入错误的可能性。此外, 不必要的地址的每个条目都会占用额外的空间, 而这些空间会随着时间的推移而变得昂贵。最后, 冗余越多, 维护数据的难度就越大。这些问题–数据不一致、空间浪费和维护数据的努力–可能成为拥有大量数据的公司的一大头疼问题。 如何解决数据库的数据冗余问题 零数据冗余是不可能的, 也是不实际的, 许多数据库管理员认为, 如果有一个中央主字段, … Read More

Featured Post

python 函数教程: 使用 python 中的函数, 第2部分

欢迎回来!如果您错过了第1部分, 您可以在这里查看。 python 枚举 () 函数 定义 该 enumerate() 函数将计数器添加到可迭代并返回它 (枚举对象)。 语法 其语法 enumerate() 为: enumerate(iterable, start=0) 参数 该 enumerate() 函数采用两个参数: 可迭代-支持迭代的序列、迭代器或对象。 开始(可选)- enumerate() 开始从这个数字计数。如果 start  省略, 则以0为开头。 例子 grocery = [‘bread’, ‘milk’, ‘butter’] enumerateGrocery = enumerate(grocery) print(type(enumerateGrocery)) # converting … Read More

Featured Post

python 函数教程: 使用 python 中的函数, 第1部分

在当今快节奏的 it 世界中, 在深入了解某种技术方面, 拥有比其他技术更有优势始终是一种优势。python 是一种广泛使用的语言, 为热情的学习者提供了大量的机会。 在本 python 函数发布中, 目标是让您获得开始使用 python 的函数所需的专业知识。我将在本 python 函数文章中介绍以下主题: 为什么我们需要 python 函数 什么是 python 函数 python 函数的类型 python 中的内置函数 python 递归函数 python ambda 函数 python 中的用户定义函数 为什么我们需要 python 函数 函数管理计算机程序中的输入和输出。编程语言被设计为处理数据, 函数是管理和转换这些数据的有效方法。 这些修改通常是为了推动执行任务和查找结果等结果。而且, 执行此操作所需的操作或指令集来自逻辑功能的代码块, 这些代码块可以独立于主程序重用。 … Read More

Featured Post

搜索分布式一致性原理分析和数据, 第2部分

欢迎回来!如果您错过了第1部分, 您可以在这里查看。 由微软亚洲研究院提出的 pacifica 算法是一种用于日志复制系统的分布式一致性算法。界定该公约的论文于2008年发表 (太平洋文件)。es 已正式声明, 其复制模型基于该算法。 弹性搜索数据复制模型是基于原始备份模型的, 在微软研究的太平洋论文中得到了很好的描述。该模型基于复制组中的单个副本, 该副本充当主分片。其他副本称为副本分片。主索引作为所有索引操作的主要入口点。它负责验证它们, 并确保它们是正确的。一旦索引操作被主操作接受, 主操作还负责将该操作复制到其他副本。 互联网上提供该算法细节的文章很少, 因此, 本文简要介绍了基于太平洋纸业的算法。该算法具有以下功能: 具有较强的一致性。 将单个主节点中的数据与多个辅助节点同步。 使用其他一致性组件进行配置维护。 即使有少数副本节点可用, 也支持写入。 术语表 首先, 让我们看一下此算法使用的一些术语: 副本组: 一个数据集, 其中的每个数据块都是另一个数据的副本, 每个副本都是一个副本节点。”副本组中只有一个副本” 是 “主节点”; “其余为辅助节点。 配置: 副本组的配置描述了哪些副本包含在副本组中, 哪些副本是主要副本。 配置版本: 配置的版本号。每当发生配置更改时, 版本号都会增加1。 配置管理器: 这将管理全局配置组件, 从而确保配置数据的一致性。配置更改请求由 … Read More

Featured Post

什么是数据挖掘?

每个人都想要优势。而在数字商业时代, 最大的战略优势来自于从各种可能的角度对数据进行切片、切分和分析。 数据挖掘是对海量数据集进行排序的自动化过程, 用于识别趋势和模式并建立关系。随着企业数据的激增–现在每天超过2.5 五分之一字节–它将继续在企业规划其运营和应对未来挑战的方式中发挥越来越重要的作用。 然而, 与所有与数据有关的活动一样, 数据挖掘业务的价值与可供挖掘的数据的质量和范围直接相关。为了从最新、最干净、格式正确的数据中工作, 企业需要有效、高效和安全地将来自不同来源和结构的数据聚合到一个位置进行挖掘。 数据挖掘基础知识和优势 数据挖掘是一个包罗万象的术语, 用于收集、提取、仓储和分析数据, 以获得特定的见解或可操作的情报。把数据挖掘想象成采矿: 挖掘材料层, 发现一些极具价值的东西。在全球范围内, 各种规模、每一个垂直和行业的公司都依赖于数据挖掘来收集智能, 以便在从支持 ai 和机器学习算法的决策支持应用程序到产品开发的所有方面使用,营销策略和财务建模。 数据挖掘的核心是统计建模, 可应用于线性回归或逻辑回归。结合预测分析, 数据挖掘可以发现一系列趋势、异常和公司可以用来改善业务的其他以前隐藏的洞察。 最近的调查表明, 超过90% 的 it 和业务领导者希望在其组织中使用更多的数据分析。他们主要关心的是改进战略决策, 最大限度地减少安全风险或漏洞, 以及加强资源规划和预测。以下是数据挖掘如何在几个关键业务功能中使用: 财务:使用数据洞察为贷款、并购和发现欺诈活动创建准确的风险模型。 it 运营:收集、处理和分析大量的应用程序、网络和基础结构数据, 以发现有关 it 系统安全性和网络性能的见解。 市场推广:表面以前隐藏的买家行为趋势和预测未来的行为, 以开发更准确的买家角色, 创建更有针对性的活动, 以增加参与度, 并推广新产品或服务。 … Read More

Featured Post

书评: 《阿帕奇点燃书》

介绍 去年, 当我与 apache 点燃工作, 我拼命寻找一本书, 我可以依靠回答我的问题, 并帮助我学习产品在一个整体的方式。而在我寻找的时候, 我碰到了沙米姆·艾哈迈德·布伊扬、迈克尔·热鲁德科夫和季穆尔·伊萨琴科的书。当我浏览这本书的时候, 我对它印象非常深刻。我还在这里对这本书的那个版本进行了评论。 阿帕奇点燃的产品一直在快速发展。随着新版本的发布, 它引入了许多新功能、不同的架构改造等。但随着新发布版本中增加了新功能, 因此需要一个涵盖这些新功能的新版本。我发现了沙米姆·艾哈迈德·布伊扬和迈克尔·热鲁德科夫 简介 首先, 关于产品的几句话。我们都同意 (企业中的) 数据量正在以前所未有的方式增长。有了这一趋势, 企业如何以持续的方式高效、可靠地存储这些数据, 并在尽可能短的时间内进行存储, 这是一个非常令人头疼的问题。同时, 关注的也是不要用许多不同的产品使技术景观严重复杂来解决这些问题。我们需要简单地解决一个复杂问题的解决方案。apache 点火似乎已经完全解决了这些问题, 提供了一个产品, 在引擎盖下, 解决了许多问题, 如果使用得当。这是一个产品, 可以是: 用作完整的内存中数据库。 作为多模型、事务数据库查看。 内存中数据结构的有效解决方案 (好吧, 谈论内存中数据网格的日子几乎消失了)。 作为服务要求的缓存的理想解决方案。 用于实时分析, 它还支持大容量 acid 事务处理。 它还可以用作您的数据库缓存层。 随着较新版本的推出, … Read More

Featured Post

使用 node. js 和 webhdfs rest api 访问 hadoop hdfs 数据

在 webhdfs rest api 的帮助下, apache hadoop 公开用于访问和操作 hdfs 内容的服务。要查看此正式文档, 请点击此处。 可提供的服务 以下是可用的服务集: 1) 文件和目录操作 1.1 创建和写入文件: 创建 (http put)1.2 追加到文件: 追加 (http 开机自检)1.3 打开和读取文件: 打开 (http 获取)1.4 制作目录: mkdirs (http put)1.5 重命名文件目录: rename (http put)1.6 删除文件目录: 删除 (http 删除)1.7 … Read More

Featured Post

fsimage 元数据的 hdfs 离线分析

概述 hdfs 是 hadoop 的一部分, 它有一个命令来下载当前的命名代码快照。我们可以通过 spark 加载图像或对其执行数据接收, 以将其放入 hive 中, 分析数据并验证其如何使用 hdfs。 hdfs 文件系统元数据存储在名为 “fspimage” 的文件中。包含在此快照中, 我们有: 整个文件系统命名空间。 地图、块和文件复制。 属性, 如配额、acls 等。 我必须解决的问题如下: 运行该命令下载映像并生成 xml 文件。 实现 spark 作业以处理数据并将其保存在 hive 表中。 使用 hive sql 分析一些数据, 并使用 gnuplot 绘制数据。 1. … Read More

Featured Post

卡夫卡春靴教程

apache 卡卡卡是一个分布式流媒体平台, 具有发布和订阅记录流、以容错方式存储记录以及处理该记录流等功能。 它用于构建实时流数据管道, 这些流数据管道可以执行诸如可靠地将记录流从一个应用程序传递到另一个应用程序以及处理记录并将其传输到目标应用程序等功能。 主题 卡夫卡作为一个或多个服务器中的群集运行, 群集存储检索名为 “主题”的 feed 类别中的记录。主题中的每个记录都使用键、值和时间戳存储。 这些主题可以有零个、一个或多个使用者, 他们将订阅写入该主题的数据。在卡夫卡术语中, 主题始终是多订阅者源的一部分。 分区 卡夫卡群集对每个主题使用分区日志。 分区维护数据插入的顺序, 一旦记录发布到主题, 它将根据保留期 (可配置) 保持在该分区中。记录始终追加到分区的末尾。它维护一个名为 “偏移量” 的标志, 该标志唯一标识分区中的每个记录。 偏移量由使用应用程序控制。使用偏移量, 使用者可能会回溯到较旧的偏移量, 并在需要时重新处理记录。 生产者 记录流, 即数据, 由制作者发布到主题中。当分区将数据发布到主题时, 他们还可以将其分配给分区。生成器可以以循环方式发送数据, 也可以根据记录的优先级实现基于将记录发送到某些分区的优先级系统。 消费者 使用者使用该主题中的记录。它们是基于消费者群体的概念, 在这个群体中, 一些消费者被分配到群体中。发布到主题的记录仅从一个消费者组传递到该使用者的一个实例。卡夫卡内部使用的机制, 消费群体内的记录消费。使用者的每个实例都将获取特定的分区日志, 因此, 在使用者组中, … Read More

Featured Post

成为数据驱动型企业意味着什么, 如何成为一个企业

在当今的数字经济中, 人们普遍认为, 企业必须成为数据驱动型企业, 以提高企业绩效, 为消费者创造可持续价值, 建设和运营更具创新性和效率的企业保持竞争力的前所未有的性能水平。 但是, 一个企业究竟如何成为数据驱动的企业呢? 根据麦肯锡全球研究所的报告, 数据驱动型组织获得客户的可能性是其他组织的 23倍, 留住这些客户的可能性是其他客户的 6倍, 盈利能力的可能性是其他客户的19倍。 数据发现是一个强大的趋势, 会引起所有主要行业的反响。数据和分析是当今商业世界的流行语。如今, 越来越多的组织正在努力向其工作灌输数据驱动的方法。《经济学家》资料处最近的一项调查得出的结论是, 采用数据驱动的文化可以使企业在财务收益方面大大领先于竞争对手和同行。 然而, 作为一个数据驱动的企业意味着什么?同一调查还指出, 较成功的公司已转变为数据驱动型企业, 从一开始就努力工作, 为员工提供必要的培训, 并灌输各种层级分享数据的文化各部门之间的水平。 “如果数据能够在整个业务生态系统中自由流动, 那么数据都可能成为任何组织的真正金矿。 这意味着成为一个数据驱动型企业远远超出了使用正确的应用程序和工具的范围。它是关于使数据和分析成为业务战略和运营的核心部分。这也是为了推动思维方式的转变, 使数据分析成为各级所有业务决策的基础。 成为数据驱动型企业的五个关键步骤 数据授权:随着数据驱动型文化开始在组织内发展, 首先要识别和解决任何障碍。c-suite 领导层需要确保正确的业务流程到位, 使利益相关者能够就如何利用数据提出业务运营问题, 并确保这些问题得到考虑、审查和解决, 以便做出更好的决策。 创建数据池:成立数据驱动型公司的明显第一步是在接受工作文化的转变之前建立一个有意义的数据库。云平台是一个简单、可访问和廉价的工具, 可以通过数据挖掘来吸收这些数据池, 并通过 web 爬网实现有意义的大数据分析。因此, … Read More

Featured Post

[视频]python 编程简介

Featured Post

搜索分布式一致性原理分析和数据, 第1部分

前两篇文章 (这里和这里) 描述了 es 集群的组成、主选举算法、主更新元过程, 并分析了选举和元更新的一致性问题。本文分析了 es 中的数据流, 包括其写入过程、太平洋 a 算法模型、序列数、检查点, 并比较了 es 实现与标准 pacifica 算法的异同。我们将涵盖: 当前问题。 数据写入过程。 和平 a 算法。 序列号、检查点和故障恢复。 比较 es 和太平洋, 总结。 当前问题 任何曾经使用过 es 的人都知道, 每个 es 指数被分成多个分片。碎片分布在不同的节点上, 以启用分布式存储和查询, 并支持大规模数据集。每个分片都有多个副本, 其中一个是主节点, 其他是副本节点。首先将数据写入主节点, 然后与主节点中的副本节点同步。读取数据时, 为了提高读取能力, 主节点和副本节点都接受读取请求。 … Read More

Featured Post

搜索分布式一致性原则分析: 元数据

在上一篇文章中, 我们讨论了群集组合、节点发现、主选择、错误检测、群集缩放等。本文将根据上一节重点分析 es 中元更新的一致性问题。为了增强我们的理解, 它还介绍了群集管理、元组合、存储和其他信息的主方法。我们将讨论以下议题: 主控管理群集的方式。 元组合、存储和恢复。 群集状态更新过程。 解决当前的一致性问题。 总结 主管理群集的方式 在上一篇文章中, 我们介绍了 es 集群组合、如何发现节点和主选择。那么, 在成功选择群集后, 主控如何管理集群呢?有几个问题需要解决, 例如: 主控如何处理索引的创建或删除? 如何主重新安排碎片的负载平衡? 由于需要群集管理, 因此主节点必须有某种方法来通知其他节点执行相应的操作来完成任务。例如, 在创建新索引时, 它必须将其 “碎片” 分配给某些节点。必须在节点上创建与 “碎片” 相对应的目录, 这意味着它必须创建与内存中的 “碎片” 相对应的数据结构。 在 es 中, 主节点通过发布群集状态通知其他节点。主节点将新的群集状态发布到所有其他节点。当这些节点接收到新的 cluclstate 时, 它们会将其发送到相关模块。然后, 这些模块根据新的 ClusterState … Read More

Featured Post

什么是数据验证?

数据验证是一种检查数据准确性和质量的方法, 通常在导入和处理之前执行。它也可以被认为是数据清理的一种形式。数据验证可确保您的数据是完整的 (没有空值或空值), 唯一的 (包含不重复的不同值), 并且值的范围与您所期望的一致。通常, 数据验证用作etl (提取、转换和加载) 等进程的一部分, 您可以将数据从源数据库移动到目标数据仓库, 以便将其与其他数据联接以进行分析。数据验证有助于确保在执行分析时, 结果是准确的。 数据验证的步骤 步骤 1: 确定数据示例 确定要采样的数据。如果您有大量数据, 则可能需要验证数据示例, 而不是整个数据集。您需要决定要采样的数据量, 以及可接受的错误率, 以确保项目的成功。 步骤 2: 验证数据库 在移动数据之前, 需要确保现有数据库中存在所有必需的数据。确定记录数和唯一 id, 并比较源数据字段和目标数据字段。 步骤 3: 验证数据格式 确定数据的总体运行状况以及源数据与目标中的架构匹配所需的更改。然后搜索不一致或不完整的计数、重复数据、不正确的格式和空字段值。 数据验证方法 您可以通过以下方式之一执行数据验证: 脚本编写:数据验证通常使用脚本语言 (如 python) 来为验证过程编写脚本。例如, 可以创建一个 xml … Read More

Featured Post