spark groupByKey().mapValues-白红宇

spark groupByKey().mapValues

阅读量：6914 次

发布时间：2019-06-27

本文共 515 字，大约阅读时间需要 1 分钟。

>>> rdd = sc.parallelize([("bone", 231), ("bone", 21213), ("jack",1)])

>>> rdd.groupByKey().map(lambda x: sum(x[1])).collect()

[1, 21444]

>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1]))).collect()

[('jack', 1), ('bone', 21444)]

>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1].data))).collect()

[('jack', 1), ('bone', 21444)]

>>> rdd.groupByKey().mapValues(lambda x: sum(x)).collect()

[('jack', 1), ('bone', 21444)]

>>> rdd.groupByKey().mapValues(lambda x: sum(x.data)).collect()

[('jack', 1), ('bone', 21444)]

转载地址：http://gkicl.baihongyu.com/

你可能感兴趣的文章

python抓取jenkins slave信息写道mysql并展现到grafana

查看>>

debian 常用的源

查看>>

博为峰Java技术题-JavaSE 之标识符、注释

查看>>

陈松松：如何保证每天录制一个视频，一年365个原创视频

Hbase的WAL在RegionServer基本调用过程

查看>>

sql语句中left join中的on与where的区别

查看>>

RHEL6.0源码编译安装小企鹅输入法fcitx-4.0.0

HTTP Status 400 - Required MultipartFile parameter 'logoFole' is not present

查看>>

Google 宣布将会关闭消费者版本 Google+

查看>>

关于java字符串常用一些api 效率比拼小结（java对大型的字符串api处理效率比拼）...

查看>>

discuzX3* 开启 https 后 UCenter应用通信失败解决

查看>>

CentOS7 中使用 firewall-cmd 控制端口和端口转发

查看>>

如何优化tomcat配置(从内存、并发、缓存4个方面)优化

查看>>

iptables命令

查看>>