博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark groupByKey().mapValues
阅读量:6914 次
发布时间:2019-06-27

本文共 515 字,大约阅读时间需要 1 分钟。

>>> rdd = sc.parallelize([("bone", 231), ("bone", 21213), ("jack",1)])

>>> rdd.groupByKey().map(lambda x: sum(x[1])).collect()

[1, 21444]
>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1]))).collect()
[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().map(lambda x: (x[0],sum(x[1].data))).collect()
[('jack', 1), ('bone', 21444)]

>>> rdd.groupByKey().mapValues(lambda x: sum(x)).collect()

[('jack', 1), ('bone', 21444)]
>>> rdd.groupByKey().mapValues(lambda x: sum(x.data)).collect()
[('jack', 1), ('bone', 21444)]

转载地址:http://gkicl.baihongyu.com/

你可能感兴趣的文章
python抓取jenkins slave信息写道mysql并展现到grafana
查看>>
debian 常用的源
查看>>
博为峰Java技术题-JavaSE 之标识符、注释
查看>>
陈松松:如何保证每天录制一个视频,一年365个原创视频
查看>>
Java笔试题解(13)
查看>>
我的友情链接
查看>>
Hbase的WAL在RegionServer基本调用过程
查看>>
sql语句中left join中的on与where的区别
查看>>
RHEL6.0源码编译安装小企鹅输入法fcitx-4.0.0
查看>>
ModelAndView 跳转的使用
查看>>
JVM系列(一)
查看>>
mybatis中的choose标签的使用
查看>>
mysql数据库与web主机分离实验
查看>>
HTTP Status 400 - Required MultipartFile parameter 'logoFole' is not present
查看>>
Google 宣布将会关闭消费者版本 Google+
查看>>
关于java字符串常用一些api 效率比拼小结(java对大型的字符串api处理效率比拼)...
查看>>
discuzX3* 开启 https 后 UCenter应用通信失败解决
查看>>
CentOS7 中使用 firewall-cmd 控制端口和端口转发
查看>>
如何优化tomcat配置(从内存、并发、缓存4个方面)优化
查看>>
iptables命令
查看>>