博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
(3)pyspark----dataframe观察
阅读量:7235 次
发布时间:2019-06-29

本文共 650 字,大约阅读时间需要 2 分钟。

1、读取:

  • sparkDF = spark.read.csv(path)
  • sparkDF = spark.read.text(path)

2、打印:

sparkDF.show()【这是pandas中没有的】:打印内容

sparkDF.head():打印前面的内容

sparkDF.describe():统计信息

sparkDF.printSchema():打印schema,列的属性信息打印出来【这是pandas中没有的】

sparkDF.columns:将列名打印出来

3、选择列

【select函数,原pandas中没有】

sparkDF.select('列名1','列名2‘).show():选择dataframe的两列数据显示出来

sparkDF.select ( sparkDF['列名1']+1 , '列名2' ).show():直接对列1进行操作(值+1)打印出来

 

4、筛选列:

filter【类似pandas中dataframe的采用列名来筛选功能】

sparkDF.filter ( sparkDF['value'] == 100 ).show():将value这一列值为100的行筛选出来

 

 5、计算不重复值以及统计dataframe的行数

 distinct()函数:将重复值去除

sparkDF.count():统计dataframe中有多少行

将评分为100的电影数量统计出来:

 

转载于:https://www.cnblogs.com/Lee-yl/p/9771794.html

你可能感兴趣的文章
Linux 64位操作系统安装配置java
查看>>
SolarCity欲为500万美国家庭搭建太阳能屋顶
查看>>
苹果进军印度市场到底有多难 连财政部长都不帮忙
查看>>
监控摄像机选型攻略之技术类型选用
查看>>
JAVA笔记——序列化
查看>>
《数据科学:R语言实现》——3.1 引言
查看>>
协作软件的前景、进展以及阵痛
查看>>
PyTorch 和 TensorFlow 哪个更好?看一线开发者怎么说
查看>>
怎么善于发现seo网站优化的问题?
查看>>
《Metasploit渗透测试手册》—第8章8.1节介绍
查看>>
《UG NX8.0中文版完全自学手册》一1.4 工具栏的定制
查看>>
合三为一,Linux 基金会欲打造顶级开源峰会
查看>>
《计算机系统:系统架构与操作系统的高度集成》——2.8 编译函数调用
查看>>
Coda 2.5 发布,Mac 编辑器软件
查看>>
Vue.js —— 轻量级 JavaScript 框架(国人开发)
查看>>
《计算机科学导论》一2.1 引言
查看>>
《Linux KVM虚拟化架构实战指南》——2.2 安装配置RHEV虚拟化所需服务器
查看>>
《大型网站服务器容量规划》一3.3 其他容量规划方法
查看>>
《极客与团队》一第一章 天才程序员的传说
查看>>
《Python爬虫开发与项目实战》——3.2 HTTP请求的Python实现
查看>>