最初,许多数据科学家和相关专业的专家对大数据非常热心。几年后,他们中的大多数变得更加怀疑,大数据这个词本身就变成了流行语。为什么大数据不是一个值,为什么甚至必要的数据的质量比数量更重要?

大数据并不总是有用的

很多时候,大数据被视为一种财富,一种宝贵的资源,使得创建有效的战略、优化流程等成为可能。但是,分析师的经验越丰富,他们提出的问题也越具体。我们到底可以从这些数据中学到什么?我们现在需要这些信息吗?如果我们现在不需要数据,存储数据的成本是多少?

使用大数据需要相当的计算能力。随着云存储的发展,计算能力变得更加经济实惠,但其维护仍需要资源。同样的数据对一家公司来说非常有价值,对另一家公司来说完全毫无用处。在后一种情况下,它只会成为一种责任。为了避免这种情况,有必要在收集并发送到存储库之前分析其有用性。

目前,世界上绝大多数的大数据都是垃圾。这些数据要么对于目前拥有它的人完全没用,要么它包含的有用信息太少,甚至无法支付其处理成本。根据 Forrester 的研究 ,公司实际使用的数据不超过 40%。

越大越好

“将尽可能多的数据投入 AI”策略不再有效。数据科学家明白,并不是每个函数都很有用,数据的质量比数量更重要。只需要数据,帮助分析什么是重要的给定时刻。只有使用高质量的数据,AI 才能提供有用的结果。

除了数据本身,基础设施需要安全地分析、使用和传输数据,并分离有用的信息和垃圾。不是每个人都意识到这一点,但数据不仅应该很大,而且应该很聪明。

为什么数据应该智能

大数据有五个关键参数:

  • 体积
  • 速度
  • 品种
  • 准确性
  • 价值

数据的值并不总是取决于其体积或速度,但它确实会影响其他参数。如果数据不是各种的,不是荒谬的,现在不有价值,那么收集它就没有意义了。

有线门户定义智能数据如下:

“智能数据”是指真正有意义的信息 确定一段时间销售量的高峰和低谷。

实际上,智能数据是一组数据,可以在给定时刻使用,以满足公司的特定需求。智能数据也是大数据中的一部分,用于演示,并基于决策。

为什么非智能数据是无用的,甚至破坏性的

想象一下,两位数据科学家正在他们工作的公司中致力于实现大数据和机器学习工具,但他们选择了不同的方法。其中一个使用现成的工具来节省时间,并立即开始收集数据。此专家将收集到的所有内容转移到数据基础架构中,并使用 ML 算法优化结果。

第二位专家希望对数据结构进行更多控制,因此他们开始编写模块。这需要大量的时间,但最终,专家会接收更紧凑、更准确的数据。该公司通过不存储数 TB 的不必要信息节省了数千美元,但仍拥有与前专家一样多的有用数据。这笔资金可以再投资到创建新模块,以取得更好的效果。

公司已经试图以减少不必要的数据的收集的方式组织这个过程,但是,他们的算法仍然继续处理大量的垃圾。如果没有有用的内容,数据仍然是一种需要额外资源来处理的责任。关注智能数据可能是解决方案,但这只是向正确数据技术过渡的开始。

安徒生数据科学主管詹恩·丘布科夫:

专业社区即将得出合理和合乎逻辑的结论,即大数据只是一个吞咽金钱和提供低回报的流行语。因此,在构建数据湖和数据仓库之前,有必要弄清楚这些事情必须解决的业务问题,以便数据不仅很大,而且可靠和智能。收集数据本身并不是一个目标;目标是从这些数据中赚钱,同时降低运营成本,最大限度地减少”仓库”(数据存储)。

Comments are closed.