Spark的RDD 文件读取与保存

您所在的位置:网站首页 spark保存文件到本地 Spark的RDD 文件读取与保存

Spark的RDD 文件读取与保存

2024-01-26 01:20| 来源: 网络整理| 查看: 265

RDD 文件读取与保存

Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。其中: (1)文件格式分为:text 文件、csv 文件、sequence 文件以及Object 文件; (2)文件系统分为:本地文件系统、HDFS、HBASE 以及数据库。 (这里只介绍常见的text 文件、sequence 文件以及Object 文件)

文件介绍

text文件: text文件是文本文件。

sequence 文件: SequenceFile 文件是Hadoop 用来存储二进制形式的key-value 对而设计的一种平面文件(Flat File)。 object文件: object文件是将对象序列化后保存的文件,采用Java 的序列化机制(注:序列化要指定类型)。

案例实操 文件保存 package com.atguigu.bigdata.spark.core.rdd.io import org.apache.spark.{SparkConf, SparkContext} object Spark01_RDD_IO_Save { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark01_RDD_IO_Save ") val sc = new SparkContext(sparkConf) val rdd = sc.makeRDD( List( ("a", 1), ("b", 2), ("c", 3), ("d", 4) ) ) //保存文件 rdd.saveAsTextFile("output") rdd.saveAsObjectFile("output1") rdd.saveAsSequenceFile("output2") sc.stop() } } 文件读取 package com.atguigu.bigdata.spark.core.rdd.io import org.apache.spark.{SparkConf, SparkContext} object Spark02_RDD_IO_Load { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark02_RDD_IO_Load ") val sc = new SparkContext(sparkConf) //读取文件的数据 val rdd = sc.textFile("output") println(rdd.collect().mkString(",")) val rdd1 = sc.objectFile[(String,Int)]("output1") println(rdd1.collect().mkString(",")) val rdd2 = sc.sequenceFile[String,Int]("output2") println(rdd2.collect().mkString(",")) sc.stop() } }


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3