Mac版R语言入门(三)数据的导入 |
您所在的位置:网站首页 › csv文件导入r › Mac版R语言入门(三)数据的导入 |
R语言(三)数据的导入,包括以下几个部分的内容:
R语言问题讨论交流,欢迎关注我的新浪微博:Jenny爱学习
1.数据类型介绍 2.数据导入 3.抓取网络数据
一.数据类型 1)Excel、Spreadsheet数据:.csv格式数据 2)文本文件数据(非结构化数据,每一行长度不同):.txt格式数据 3)delim 格式读取 R语言直接读取网络数据——通过R语言内置的具有网络通讯packages,分析金融数据 4)xml包抓取网络数据 5)RCurl语言包爬取 R可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)、原生型(字节)。 存储数据的对象类型:
标量:只含有一个元素的向量.用于保存常量 f a[2] #取单个向量 [1] 2 > a[c(3,7,8)] #取多个向量 [1] 3 7 8
矩阵matrix: 1.二维数组 2.只能包含一种数据类型,每个元素拥有相同的模式(数值型、字符型或逻辑型)
mymatrix x x [,1] [,2] [,3] [,4] [,5] [1,] 1 5 9 13 17 [2,] 2 6 10 14 18 [3,] 3 7 11 15 19 [4,] 4 8 12 16 20 > x[1,] #取第二行 [1] 1 5 9 13 17 >x[3,] #取第三行 [1] 3 7 1115 19 > x[,2] #取第二列 [1] 5 6 78 >x[,4] #取第四列 [1] 13 1415 16 >x[2,3] #取第(2,3)元素 [1] 10 >x[1,c(4,5)] #取第一行,第四、第五列第元素 [1] 13 17
数组 array: 1 .维度超过2时用数组,数组中的数据只能拥有一种模式 2.数组是矩阵的一个自然推广,2维的数组相当于矩阵A two-dimensional array is the same thing as a matrix. 3.一维数组看起来像向量One-dimensionalarrays often look like vectors, but may be handled differently by somefunctions: str does distinguishthem in recent versions of R. myarray dim1 dim2 dim3 z z 数据框: 1.多种模式数据(数值型、字符型等)时,使用数据框。不同的列可以包含不同模式的数据。等价于SAS、SPSS、Stata中看到 的数据集 2.由于数据有多种模式,无法将此数据集放入一个矩阵,这种情况下,使用数据框是最佳选择
mydata patientID age diabetes status patientdata patientdata patientID age diabetes status 1 1 25 Type1 Poor 2 2 34 Type2 Improved 3 3 28 Type1 Excellent 4 4 52 Type1 Poor > patientdata[1:2] #选取数据框中的元素 patientID age 1 1 25 2 2 34 3 3 28 4 4 52 >patientdata[c("diabetes","status")] #选取数据框中的元素 diabetes status 1 Type1 Poor 2 Type2 Improved 3 Type1 Excellent 4 Type1 Poor > patientdata$age #$被用来选取一个给定数据框中的某个特定变量 [1] 25 3428 52 > table(patientdata$diabetes,patientdata$status) #生成糖尿病类型变量diabetes和病情变量status的列联表
Excellent Improved Poor Type1 1 0 2 Type2 0 1 0
列表
二.小容量批处理数据 R语言是基于内存的数据统计和分析软件,的内存会影响R的运行处理速度。当需要处理T级、Z级数据时,解决方法为算法优化或利用R的packages函数处理大数据,具体实现方法会在后面的博客中介绍给大家。
1.read.命令读取数据 【此处引用数据来自: https://figshare.com 开放数据平台】 【方法一】RConsole
>setwd("~/Desktop") #设置工作路径/目录 >getwd() #查看设置的工作路径 1) txt数据读取 >read.table("~/Desktop/Data.txt",header=TRUE)
2)csv数据读取 >read.csv("~/Desktop/Data.csv",header=TRUE) #读取excel/Spreadsheet中的数据 3)非结构化文本数据的读取 >readLines("~/Desktop/Article.txt") #非结构化文本格式的读取,按行进行数据读入
4)Excel文件的读入 excel文件的读入,依赖的扩展packages,很多是需要Java才能安装,如果是普通的excel文件,可以转换为.csv格式,可以先将excel文件转化为.csv格式的文件再进行读取。 直接读取excel文件的方法: (packages的安装方法见 本系列博客Mac版R语言入门(一)R语言入门操作http://blog.csdn.net/nicolelovesmath/article/details/53244337第四部分) 方法I:RODBC包 RODBC依赖于ODBC的驱动程序管理器,安装完RODBC之后,需要配置ODBC的驱动程序,实现连接之后,才能调用RODBC的包。此处需要注意SQL的版本和R版本的兼容。 方法II:XLSX包 XLSX包,需要安装rJAVA的程序包。与电脑环境有关,电脑安装rJava难度很大,不建议使用 方法III:XLConnect包 XLConnect安装 package安装完成
5)网络数据的访问 >read.csv("https://figshare.com/articles/Data_xlsx/4233182")
【方法二】RStudio
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |