你好, 程序员, 我希望你们都做得很好。

在我之前的文章《 apache spark 的核心 api 简介》 (第一部分)中, 我提到了纯 rdd 的方法, 正如我承诺的那样, 将解释与多个示例片段配对 rdd 的功能或方法。所以就在这里!

要创建对 rdd, 请参考我以前的帖子。在该教程的帮助下, 您可以创建对 rdd (在这里, 我假设订单 pairrdd 是我的对 rdd, 它有一个标记 order_id 的键和一个值设置为) order

  • 配对 rdd 核心 api

    • 订单 pairrdd. join (其他 rdd)

      • 此方法返回一个 rdd, 其中包含具有中匹配键的所有元素对 otherRDD 。默认联接的工作方式与 sql 中的内部联接相同。

      ordersPairRdd.first()
      # (u'1', u'1,2013-07-25 00:00:00.0,11599,CLOSED')
      orderItemsPairRDD.first()
      # (u'1', u'1,1,957,1,299.98,299.98')
      ordersJoinOrderItems = ordersPairRdd.join(orderItemsPairRDD)
      # (u'1', (u'1,2013-07-25 00:00:00.0,11599,CLOSED', u'1,1,957,1,299.98,299.98'))

    • 订单 pairrdd. 玩耍 (therrdd)

      • 此方法在和上执行左外部 ordersPairRdd 联接 otherRDD

      • 假设 ordersPairRdd 有 (k, v) 和 otherRDD <