Spark的RDD 文件读取与保存

您所在的位置：网站首页 › spark保存文件到本地 › Spark的RDD 文件读取与保存

Spark的RDD 文件读取与保存

2024-01-26 01:20| 来源: 网络整理| 查看: 265

RDD 文件读取与保存

Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。其中：（1）文件格式分为：text 文件、csv 文件、sequence 文件以及Object 文件；（2）文件系统分为：本地文件系统、HDFS、HBASE 以及数据库。（这里只介绍常见的text 文件、sequence 文件以及Object 文件）

文件介绍

text文件： text文件是文本文件。

sequence 文件： SequenceFile 文件是Hadoop 用来存储二进制形式的key-value 对而设计的一种平面文件(Flat File)。 object文件： object文件是将对象序列化后保存的文件，采用Java 的序列化机制（注：序列化要指定类型）。

案例实操文件保存 package com.atguigu.bigdata.spark.core.rdd.io import org.apache.spark.{SparkConf, SparkContext} object Spark01_RDD_IO_Save { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark01_RDD_IO_Save ") val sc = new SparkContext(sparkConf) val rdd = sc.makeRDD( List( ("a", 1), ("b", 2), ("c", 3), ("d", 4) ) ) //保存文件 rdd.saveAsTextFile("output") rdd.saveAsObjectFile("output1") rdd.saveAsSequenceFile("output2") sc.stop() } } 文件读取 package com.atguigu.bigdata.spark.core.rdd.io import org.apache.spark.{SparkConf, SparkContext} object Spark02_RDD_IO_Load { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark02_RDD_IO_Load ") val sc = new SparkContext(sparkConf) //读取文件的数据 val rdd = sc.textFile("output") println(rdd.collect().mkString(",")) val rdd1 = sc.objectFile[(String,Int)]("output1") println(rdd1.collect().mkString(",")) val rdd2 = sc.sequenceFile[String,Int]("output2") println(rdd2.collect().mkString(",")) sc.stop() } }

【本文地址】

Spark的RDD 文件读取与保存

Spark的RDD 文件读取与保存

今日新闻

推荐新闻