搜索

分享

QQ空间 QQ好友新浪微博微信

Spark Python API函数学习：pyspark API(3) – 过往记忆

dazheng 2015-11-05

展开全文

histogram

spark histogram

`01`	`# histogram (example #1)`

`02`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`03`	`y` `=` `x.histogram(buckets` `=` `2)`

`04`	`print(x.collect())`

`05`	`print(y)`

06

`07`	`[1,` `3,` `1,` `2,` `3]`

`08`	`([1,` `2,` `3], [2,` `3])`

09

`10`	`# histogram (example #2)`

`11`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`12`	`y` `=` `x.histogram([0,0.5,1,1.5,2,2.5,3,3.5])`

`13`	`print(x.collect())`

`14`	`print(y)`

15

`16`	`[1,` `3,` `1,` `2,` `3]`

`17`	`([0,` `0.5,` `1,` `1.5,` `2,` `2.5,` `3,` `3.5], [0,` `0,` `2,` `0,` `1,` `0,` `2])`

mean

spark mean

1 # mean

`2`	`x` `=` `sc.parallelize([1,3,2])`

`3`	`y` `=` `x.mean()`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `2]`

8 2.0

variance

spark variance

`1`	`# variance`

`2`	`x` `=` `sc.parallelize([1,3,2])`

`3`	`y` `=` `x.variance()` `# divides by N`

`4`	`print(x.collect())`

`5`	`print(y)`

`6`	`[1,` `3,` `2]`

`7`	`0.666666666667`

stdev

spark stdev

1 # stdev

`2`	`x` `=` `sc.parallelize([1,3,2])`

`3`	`y` `=` `x.stdev()` `# divides by N`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `2]`

`8`	`0.816496580928`

sampleStdev

spark sampleStdev

`1`	`# sampleStdev`

`2`	`x` `=` `sc.parallelize([1,3,2])`

`3`	`y` `=` `x.sampleStdev()` `# divides by N-1`

`4`	`print(x.collect())`

`5`	`print(y)`

`6`	`[1,` `3,` `2]`

7 1.0

sampleVariance

spark sampleVariance

`1`	`# sampleVariance`

`2`	`x` `=` `sc.parallelize([1,3,2])`

`3`	`y` `=` `x.sampleVariance()` `# divides by N-1`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `2]`

8 1.0

countByValue

spark countByValue

`1`	`# countByValue`

`2`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`3`	`y` `=` `x.countByValue()`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `1,` `2,` `3]`

`8`	`defaultdict(<type` `'int'>, {1:` `2,` `2:` `1,` `3:` `2})`

top

spark top

1 # top

`2`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`3`	`y` `=` `x.top(num` `=` `3)`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `1,` `2,` `3]`

`8`	`[3,` `3,` `2]`

takeOrdered

spark takeOrdered

`1`	`# takeOrdered`

`2`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`3`	`y` `=` `x.takeOrdered(num` `=` `3)`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `1,` `2,` `3]`

`8`	`[1,` `1,` `2]`

take

spark take

1 # take

`2`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`3`	`y` `=` `x.take(num` `=` `3)`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `1,` `2,` `3]`

`8`	`[1,` `3,` `1]`

first

spark first

1 # first

`2`	`x` `=` `sc.parallelize([1,3,1,2,3])`

`3`	`y` `=` `x.first()`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[1,` `3,` `1,` `2,` `3]`

8 1

collectAsMap

spark collectAsMap

`1`	`# collectAsMap`

`2`	`x` `=` `sc.parallelize([('C',3),('A',1),('B',2)])`

`3`	`y` `=` `x.collectAsMap()`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[('C',` `3), ('A',` `1), ('B',` `2)]`

`8`	`{'A':` `1,` `'C':` `3,` `'B':` `2}`

keys

spark keys

1 # keys

`2`	`x` `=` `sc.parallelize([('C',3),('A',1),('B',2)])`

`3`	`y` `=` `x.keys()`

`4`	`print(x.collect())`

`5`	`print(y.collect())`

6

`7`	`[('C',` `3), ('A',` `1), ('B',` `2)]`

`8`	`['C',` `'A',` `'B']`

values

spark values

`1`	`# values`

`2`	`x` `=` `sc.parallelize([('C',3),('A',1),('B',2)])`

`3`	`y` `=` `x.values()`

`4`	`print(x.collect())`

`5`	`print(y.collect())`

6

`7`	`[('C',` `3), ('A',` `1), ('B',` `2)]`

`8`	`[3,` `1,` `2]`

reduceByKey

spark reduceByKey

`1`	`# reduceByKey`

`2`	`x` `=` `sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])`

`3`	`y` `=` `x.reduceByKey(lambda` `agg, obj: agg` `+` `obj)`

`4`	`print(x.collect())`

`5`	`print(y.collect())`

6

`7`	`[('B',` `1), ('B',` `2), ('A',` `3), ('A',` `4), ('A',` `5)]`

`8`	`[('A',` `12), ('B',` `3)]`

reduceByKeyLocally

spark reduceByKeyLocally

`1`	`# reduceByKeyLocally`

`2`	`x` `=` `sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])`

`3`	`y` `=` `x.reduceByKeyLocally(lambda` `agg, obj: agg` `+` `obj)`

`4`	`print(x.collect())`

`5`	`print(y)`

6

`7`	`[('B',` `1), ('B',` `2), ('A',` `3), ('A',` `4), ('A',` `5)]`

`8`	`{'A':` `12,` `'B':` `3}`

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： dazheng > 《spark》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

dazheng

关注对话

TA的最新馆藏

Pandas和Spark DataFrames 的6种不同
逻辑回归、决策树和支持向量机（I）
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记） | 我爱机器学习
MySQL基准测试工具sysbench
初识聚类算法:K均值、凝聚层次聚类和DBSCAN
Spark Python API函数学习：pyspark API(4) – 过往记忆

喜欢该文的人也喜欢更多

热门阅读换一换