“映射分区”是唯一的狭窄转换,由 Apache Spark 框架提供,以实现分区处理,即整个处理数据分区。 所有其他狭窄的变换(如地图、平面图等)都按记录处理分区。”地图部分”,如果使用明智,可以加快底层 Spark 作业歧管的性能和效率。

“映射分区”为计算函数提供了分区数据的索引器,并期望一个数据器作为计算函数的返回值来表示新的数据收集。下面是适用于类型 <T> 的数据集上的”映射部分 “API, 它期待一个类型为”MapPartctions 功能”的功能接口作为一个整体处理每个数据分区,以及一个表示返回的数据集中返回的数据类型的编码器。

公共 <U> Dataset数据集 <U> 地图部分(地图部分功能 <T,U>f,编码器<U> 编码器)

在实现自定义的 “MapPartions 功能” 时,必须提供以下类型的分区处理例程

Java

 

x
1
Comments are closed.