pyspark基础知识点 |
您所在的位置:网站首页 › kdeconnect怎么用 › pyspark基础知识点 |
1. 查
1.1 行元素查询操作
像SQL那样打印列表前20元素,show函数内可用int类型指定要打印的行数: df.show() df.show(30)以树的形式打印概要: df.printSchema()获取头几行到本地: list = df.head(3) # Example: [Row(a=1, b=1), Row(a=2, b=2), ... ...] list = df.take(5) # Example: [Row(a=1, b=1), Row(a=2, b=2), ... ...]查询总行数: df.count()
取别名: df.select(df.age.alias('age_value'),'name')
查询某列为null的行: from pyspark.sql.functions import isnull df = df.filter(isnull("col_a"))输出list类型,list中每个元素是Row类: list = df.collect()#注:此方法将所有数据全部导入到本地,返回一个Array对象查询概况 df.describe().show()以及查询类型,之前是type,现在是df.printSchema() root |-- user_pin: string (nullable = true) |-- a: string (nullable = true) |-- b: string (nullable = true) |-- c: string (nullable = true) |-- d: string (nullable = true) |-- e: string (nullable = true) ...
去重set操作,跟py中的set一样,可以distinct()一下去重,同时也可以.count()计算剩余个数 data.select('columns').distinct().show()随机抽样有两种方式,一种是在HIVE里面查数随机;另一种是在pyspark之中 #HIVE里面查数随机 sql = "select * from data order by rand() limit 2000" #pyspark之中 sample = result.sample(False,0.5,0) # randomly select 50% of lines 1.2 列元素操作获取Row元素的所有列名: r = Row(age=11, name='Alice') print(r.columns) # ['age', 'name']
选择一列或多列:select df["age"] df.age df.select(“name”) df.select(df[‘name’], df[‘age’]+1) df.select(df.a, df.b, df.c) # 选择a、b、c三列 df.select(df["a"], df["b"], df["c"]) # 选择a、b、c三列重载的select方法: #同时显示id列 、id + 1列 jdbcDF.select(jdbcDF( "id" ), jdbcDF( "id") + 1 ).show( false) #还可以用where按条件选择 jdbcDF.where("id = 1 or c1 = 'b'" ).show() 1.3 排序orderBy和sort:按指定字段排序,默认为升序 train.orderBy(train.Purchase.desc()).show(5) Output: +-------+----------+------+-----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+ |User_ID|Product_ID|Gender| Age|Occupation|City_Category|Stay_In_Current_City_Years|Marital_Status|Product_Category_1|Product_Category_2|Product_Category_3|Purchase| +-------+----------+------+-----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+ |1003160| P00052842| M|26-35| 17| C| 3| 0| 10| 15| null| 23961| |1002272| P00052842| M|26-35| 0| C| 1| 0| 10| 15| null| 23961| |1001474| P00052842| M|26-35| 4| A| 2| 1| 10| 15| null| 23961| |1005848| P00119342| M|51-55| 20| A| 0| 1| 10| 13| null| 23960| |1005596| P00117642| M|36-45| 12| B| 1| 0| 10| 16| null| 23960| +-------+----------+------+-----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+ only showing top 5 rows1.4 抽样 sample是抽样函数 t1 = train.sample(False, 0.2, 42) t2 = train.sample(False, 0.2, 43) t1.count(),t2.count() Output: (109812, 109745)withReplacement = True or False代表是否有放回。fraction = x, where x = .5,代表抽取百分比 1.5 按条件筛选when / betweenwhen(condition, value1).otherwise(value2)联合使用:那么:当满足条件condition的指赋值为values1,不满足条件的则赋值为values2.otherwise表示,不满足条件的情况下,应该赋值为啥。 demo1: >>> from pyspark.sql import functions as F >>> df.select(df.name, F.when(df.age > 4, 1).when(df.age < 3, -1).otherwise(0)).show() +-----+------------------------------------------------------------+ | name|CASE WHEN (age > 4) THEN 1 WHEN (age < 3) THEN -1 ELSE 0 END| +-----+------------------------------------------------------------+ |Alice| -1| | Bob| 1| +-----+------------------------------------------------------------+demo 2:多个when串联 df = df.withColumn('mod_val_test1',F.when(df['rand'] > df.select(df.name, df.age.between(2, 4)).show() +-----+---------------------------+ | name|((age >= 2) AND (age >> train.withColumn('Purchase_new', train.Purchase /2.0).select('Purchase','Purchase_new').show(5) Output: +--------+------------+ |Purchase|Purchase_new| +--------+------------+ | 8370| 4185.0| | 15200| 7600.0| | 1422| 711.0| | 1057| 528.5| | 7969| 3984.5| +--------+------------+ only showing top 5 rows**报错:**AssertionError: col should be Column,一定要指定某现有列 有两种方式可以实现: 一种方式通过functions from pyspark.sql import functions result3 = result3.withColumn('label', functions.lit(0))但是!! 如何新增一个特别List??(参考:王强的知乎回复)python中的list不能直接添加到dataframe中,需要先将list转为新的dataframe,然后新的dataframe和老的dataframe进行join操作, 下面的例子会先新建一个dataframe,然后将list转为dataframe,然后将两者join起来。 from pyspark.sql.functions import lit df = sqlContext.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3")) from pyspark.sql.functions import monotonically_increasing_id df = df.withColumn("id", monotonically_increasing_id()) df.show() +---+---+-----+---+ | x1| x2| x3| id| +---+---+-----+---+ | 1| a| 23.0| 0| | 3| B|-23.0| 1| +---+---+-----+---+ from pyspark.sql import Row l = ['jerry', 'tom'] row = Row("pid", "name") new_df = sc.parallelize([row(i, l[i]) for i in range(0,len(l))]).toDF() new_df.show() +---+-----+ |pid| name| +---+-----+ | 0|jerry| | 1| tom| +---+-----+ join_df = df.join(new_df, df.id==new_df.pid) join_df.show() +---+---+-----+---+---+-----+ | x1| x2| x3| id|pid| name| +---+---+-----+---+---+-----+ | 1| a| 23.0| 0| 0|jerry| | 3| B|-23.0| 1| 1| tom| +---+---+-----+---+---+-----+#####**坑啊!!!**其中,monotonically_increasing_id()生成的ID保证是单调递增和唯一的,但不是连续的。所以,有可能,单调到1-140000,到了第144848个,就变成一长串:8845648744563,所以千万要注意!! 另一种方式通过另一个已有变量: result3 = result3.withColumn('label', df.result*0 ) 修改原有df[“xx”]列的所有值: df = df.withColumn(“xx”, 1) 修改列的类型(类型投射): df = df.withColumn("year2", df["year1"].cast("Int")) 修改列名: jdbcDF.withColumnRenamed( "id" , "idx" ) 2.3 过滤数据 过滤数据(filter和where方法相同): df = df.filter(df['age']>21) df = df.where(df['age']>21)多个条件 jdbcDF .filter(“id = 1 or c1 = ‘b’” ).show()对null或nan数据进行过滤: from pyspark.sql.functions import isnan, isnull df = df.filter(isnull("a")) # 把a列里面数据为null的筛选出来(代表python的None类型) df = df.filter(isnan("a")) # 把a列里面数据为nan的筛选出来(Not a Number,非数字数据) 3、合并 join / union 3.1 横向拼接rbind result3 = result1.union(result2) jdbcDF.unionALL(jdbcDF.limit(1)) # unionALL 3.2 Join根据条件 单字段Join合并2个表的join方法: df_join = df_left.join(df_right, df_left.key == df_right.key, "inner")其中,方法可以为:inner, outer, left_outer, right_outer, leftsemi.其中注意,一般需要改为:left_outer 多字段join joinDF1.join(joinDF2, Seq("id", "name")) 混合字段 joinDF1.join(joinDF2 , joinDF1("id" ) === joinDF2( "t1_id"))跟pandas 里面的left_on,right_on 3.2 求并集、交集来看一个例子,先构造两个dataframe: sentenceDataFrame = spark.createDataFrame(( (1, "asf"), (2, "2143"), (3, "rfds") )).toDF("label", "sentence") sentenceDataFrame.show() sentenceDataFrame1 = spark.createDataFrame(( (1, "asf"), (2, "2143"), (4, "f8934y") )).toDF("label", "sentence")# 差集 newDF = sentenceDataFrame1.select("sentence").subtract(sentenceDataFrame.select("sentence")) newDF.show() +--------+ |sentence| +--------+ | f8934y| +--------+ # 交集 newDF = sentenceDataFrame1.select("sentence").intersect(sentenceDataFrame.select("sentence")) newDF.show() +--------+ |sentence| +--------+ | asf| | 2143| +--------+ # 并集 newDF = sentenceDataFrame1.select("sentence").union(sentenceDataFrame.select("sentence")) newDF.show() +--------+ |sentence| +--------+ | asf| | 2143| | f8934y| | asf| | 2143| | rfds| +--------+ # 并集 + 去重 newDF = sentenceDataFrame1.select("sentence").union(sentenceDataFrame.select("sentence")).distinct() newDF.show() +--------+ |sentence| +--------+ | rfds| | asf| | 2143| | f8934y| +--------+ 3.3 分割:行转列 有时候需要根据某个字段内容进行分割,然后生成多行,这时可以使用explode方法 下面代码中,根据c3字段中的空格将字段内容进行分割,分割的内容存储在新的字段c3_中,如下所示 jdbcDF.explode( "c3" , "c3_" ){time: String => time.split( " " )} 另外一些demo: df['x1'].groupby(df['x2']).count().reset_index(name='x1') 分组汇总: train.groupby('Age').count().show() Output: +-----+------+ | Age| count| +-----+------+ |51-55| 38501| |46-50| 45701| | 0-17| 15102| |36-45|110013| |26-35|219587| | 55+| 21504| |18-25| 99660| +-----+------+ 应用多个函数: from pyspark.sql import functions df.groupBy(“A”).agg(functions.avg(“B”), functions.min(“B”), functions.max(“B”)).show()整合后GroupedData类型可用的方法(均返回DataFrame类型): avg(*cols) —— 计算每组中一列或多列的平均值 count() —— 计算每组中一共有多少行,返回DataFrame有2列,一列为分组的组名,另一列为行总数 max(*cols) —— 计算每组中一列或多列的最大值 mean(*cols) —— 计算每组中一列或多列的平均值 min(*cols) —— 计算每组中一列或多列的最小值 sum(*cols) —— 计算每组中一列或多列的总和 4.3 apply 函数 将df的每一列应用函数f: df.foreach(f) 或者 df.rdd.foreach(f) 将df的每一块应用函数f: df.foreachPartition(f) 或者 df.rdd.foreachPartition(f) 4.4 【Map和Reduce应用】返回类型seqRDDs map函数应用 可以参考:Spark Python API函数学习:pyspark API(1) train.select('User_ID').rdd.map(lambda x:(x,1)).take(5) Output: [(Row(User_ID=1000001), 1), (Row(User_ID=1000001), 1), (Row(User_ID=1000001), 1), (Row(User_ID=1000001), 1), (Row(User_ID=1000002), 1)]
其中map在spark2.0就移除了,所以只能由rdd.调用。 data.select('col').rdd.map(lambda l: 1 if l in ['a','b'] else 0 ).collect() print(x.collect()) print(y.collect()) [1, 2, 3] [(1, 1), (2, 4), (3, 9)]还有一种方式mapPartitions: def _map_to_pandas(rdds): """ Needs to be here due to pickling issues """ return [pd.DataFrame(list(rdds))] data.rdd.mapPartitions(_map_to_pandas).collect()返回的是list。 udf 函数应用: from pyspark.sql.functions import udf from pyspark.sql.types import StringType import datetime # 定义一个 udf 函数 def today(day): if day==None: return datetime.datetime.fromtimestamp(int(time.time())).strftime('%Y-%m-%d') else: return day # 返回类型为字符串类型 udfday = udf(today, StringType()) # 使用 df.withColumn('day', udfday(df.day))
有点类似apply,定义一个 udf 方法, 用来返回今天的日期(yyyy-MM-dd)。 5、删除 df.drop('age').collect() df.drop(df.age).collect() dropna函数: df = df.na.drop() # 扔掉任何列包含na的行 df = df.dropna(subset=['col_name1', 'col_name2']) # 扔掉col1或col2中任一一列包含na的行ex: train.dropna().count() Output: 166821填充NA,包括fillna train.fillna(-1).show(2) Output: +-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+ |User_ID|Product_ID|Gender| Age|Occupation|City_Category|Stay_In_Current_City_Years|Marital_Status|Product_Category_1|Product_Category_2|Product_Category_3|Purchase| +-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+ |1000001| P00069042| F|0-17| 10| A| 2| 0| 3| -1| -1| 8370| |1000001| P00248942| F|0-17| 10| A| 2| 0| 1| 6| 14| 15200| +-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+ only showing top 2 rows 6、去重 6.1 distinct:返回一个不包含重复记录的DataFrame返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。 示例: jdbcDF.distinct() 6.2 dropDuplicates:根据指定字段去重根据指定字段去重。类似于select distinct a, b操作 示例: train.select('Age','Gender').dropDuplicates().show() Output: +-----+------+ | Age|Gender| +-----+------+ |51-55| F| |51-55| M| |26-35| F| |26-35| M| |36-45| F| |36-45| M| |46-50| F| |46-50| M| | 55+| F| | 55+| M| |18-25| F| | 0-17| F| |18-25| M| | 0-17| M| +-----+------+ 7、 格式转换 pandas-spark.dataframe互转Pandas和Spark的DataFrame两者互相转换: pandas_df = spark_df.toPandas() spark_df = sqlContext.createDataFrame(pandas_df)转化为pandas,但是该数据要读入内存,如果数据量大的话,很难跑得动 两者的异同: Pyspark DataFrame是在分布式节点上运行一些数据操作,而pandas是不可能的; Pyspark DataFrame的数据反映比较缓慢,没有Pandas那么及时反映; Pyspark DataFrame的数据框是不可变的,不能任意添加列,只能通过合并进行; pandas比Pyspark DataFrame有更多方便的操作以及很强大 转化为RDD 与Spark RDD的相互转换: rdd_df = df.rdd df = rdd_df.toDF() 8、SQL操作DataFrame注册成SQL的表: df.createOrReplaceTempView("TBL1")
进行SQL查询(返回DataFrame): conf = SparkConf() ss = SparkSession.builder.appName("APP_NAME").config(conf=conf).getOrCreate() df = ss.sql(“SELECT name, age FROM TBL1 WHERE age >= 13 AND age |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |