对 Learning Spark：Lightning-fast Data Analysis 一书中列出的一些RDD操作进行了总结

一．基本的RDD（第三章）

单个RDD转化操作

数据：｛1，2，3，3｝

数据：｛1，2，3｝和｛3，4，5｝

数据：｛1，2，3，3｝

函数名 : collect()
目的：返回RDD中的所有元素
示例：rdd.collect()
结果：{1,2,3,3}
函数名 : count()
目的：RDD中元素的个数
示例：rdd.count()
结果：4
函数名 : countByValue()
目的：各元素在RDD中出现的次数
示例：rdd.countByValue()
结果：{(1,1),(2,1),(3,2)}
函数名 : take(num)
目的：从RDD中返回num个元素
示例：rdd.take(2)
结果：{1,2}
函数名 : top(num)
目的：从RDD中返回最前面的num个元素
示例：rdd.top(2)
结果：{3,3}
函数名 : takeOrdered(num)(ordering)
目的：从RDD中按照提供的顺序返回最前面的num个元素
示例：rdd.takeOrdered(2)(myOrdering)
结果：{3,3}
函数名 : takeSampe(withReplacement, num, [seed])
目的：从RDD中返回任意一些元素
示例：rdd.takeSample(false,1)
结果：uncertain
函数名 : reduce(func)
目的：并行整合RDD中所有数据
示例：rdd.reduce((x,y) => x+y)
结果：9
函数名 : fold(zero)(func)
目的：和reduce一样，但是需要提供初始值
示例：rdd.fold(0)((x,y) => x+y)
结果：9
函数名 : aggregate(zeroValue)(seqOp, comOp)
目的：和reduce相似，但是通常返回不同类型的函数
示例：rdd.aggregate((0,0)) ((x,y)=> (x._1+x,x._2+1) ,(x,y) => (x._1+y._1,x._2+y._2))
结果：(9,4)
函数名 : foreach(func)
目的：对RDD中的每个元素使用给定的函数
示例：rdd.foreach(func)
结果：无

数据：{(1,2),(3,4),(3,6)}

函数名 : reduceByKey(func)
目的：合并具有相同键的值
示例：rdd.reduceByKey((x,y) => x+y)
结果：{(1,2),(3,10)}
函数名 : groupByKey()
目的：对具有相同键的值进行分组
示例：rdd.groupByKey()
结果：{(1,[2]),(3,[4,6])}
函数名 : combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner)
目的：使用不同的返回类型合并具有相同键的值
示例：rdd.combineByKey((lambda x: (x, 1)), (lambda x, y:(x[0]+y, x[1] +1)), (lambda x, y: (x[0]+y[0], x[1]+y[1])))
结果：{(1, 1),(6, 10)}
函数名 : mapValues(func)
目的：对pair RDD中的每个值应用一个函数而不改变键
示例：rdd.mapValues(x => x+1)
结果：{(1,3),(3,5),(3,7)}
函数名 : flatMapValues(func)
目的：对pair RDD中的每个值应用一个返回迭代器的函数，然后对返回的每个元素都生成一个对应原键的键值对记录。通常用于符号化
示例：rdd.flatMapValues(x => (x to 5))
结果：{(1,2),(1,3),(1,4),(1,5),(3,4),(3,5)}
函数名 : keys()
目的：返回一个仅包含键的RDD
示例：rdd.keys()
结果：{1,3,3}
函数名 : values()
目的：返回一个仅包含值的RDD
示例：rdd.values()
结果：{2,4,6}
函数名 : sortByKey()
目的：返回一个根据键排序的RDD
示例：rdd.sortByKey()
结果：{(1,2),(3,4),(3,6)}

数据：rdd={(1,2),(3,4),(3,6)},other={(3,9)}

数据：｛（1，2），（3，4），（3，6）｝