Mac版R语言入门(三)数据的导入

您所在的位置:网站首页 csv文件导入r Mac版R语言入门(三)数据的导入

Mac版R语言入门(三)数据的导入

2023-12-30 12:00| 来源: 网络整理| 查看: 265

R语言(三)数据的导入,包括以下几个部分的内容: R语言问题讨论交流,欢迎关注我的新浪微博:Jenny爱学习

               1.数据类型介绍

               2.数据导入

               3.抓取网络数据

一.数据类型

    1)Excel、Spreadsheet数据:.csv格式数据

    2)文本文件数据(非结构化数据,每一行长度不同):.txt格式数据

    3)delim 格式读取

R语言直接读取网络数据——通过R语言内置的具有网络通讯packages,分析金融数据

    4)xml包抓取网络数据

    5)RCurl语言包爬取

R可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)、原生型(字节)。

存储数据的对象类型:

标量:只含有一个元素的向量.用于保存常量

                      f a[2]                                  #取单个向量

[1] 2

> a[c(3,7,8)]                      #取多个向量

[1] 3 7 8

 

 

 矩阵matrix:          1.二维数组

                               2.只能包含一种数据类型,每个元素拥有相同的模式(数值型、字符型或逻辑型)

 

mymatrix x x                                                  

     [,1] [,2] [,3] [,4] [,5]

[1,]    1   5    9   13  17

[2,]    2   6   10   14  18

[3,]    3   7   11   15  19

[4,]    4   8   12   16  20

> x[1,]                                           #取第二行

[1]  1 5  9 13 17

>x[3,]                                           #取第三行

[1]  3  7 1115 19

> x[,2]                                            #取第二列

[1] 5 6 78

>x[,4]                                            #取第四列

[1] 13 1415 16

>x[2,3]                                          #取第(2,3)元素

[1] 10

>x[1,c(4,5)]                                  #取第一行,第四、第五列第元素

[1] 13 17

 

 

 数组   array:   1 .维度超过2时用数组,数组中的数据只能拥有一种模式

                         2.数组是矩阵的一个自然推广,2维的数组相当于矩阵A two-dimensional array is the same thing as a matrix.

                                3.一维数组看起来像向量One-dimensionalarrays often look like vectors, but may be handled differently by somefunctions: str does distinguishthem in recent versions of R.

             myarray dim1 dim2 dim3 z z

 数据框:  1.多种模式数据(数值型、字符型等)时,使用数据框。不同的列可以包含不同模式的数据。等价于SAS、SPSS、Stata中看到

                   的数据集

                        2.由于数据有多种模式,无法将此数据集放入一个矩阵,这种情况下,使用数据框是最佳选择

          

 mydata  patientID age diabetes status patientdata patientdata

  patientID age diabetes    status

1         1 25    Type1      Poor

2         2 34    Type2  Improved

3         3 28    Type1 Excellent

4         4 52    Type1      Poor

> patientdata[1:2]         #选取数据框中的元素

  patientID age

1         1 25

2         2 34

3         3 28

4         4 52

>patientdata[c("diabetes","status")]    #选取数据框中的元素

  diabetes   status

1    Type1     Poor

2    Type2 Improved

3    Type1 Excellent

4    Type1     Poor

> patientdata$age   #$被用来选取一个给定数据框中的某个特定变量

[1] 25 3428 52

> table(patientdata$diabetes,patientdata$status)   #生成糖尿病类型变量diabetes和病情变量status的列联表

      

        Excellent Improved Poor

  Type1        1        0    2

  Type2        0        1    0

 

 

 

 

 

 列表

二.小容量批处理数据

      R语言是基于内存的数据统计和分析软件,的内存会影响R的运行处理速度。当需要处理T级、Z级数据时,解决方法为算法优化或利用R的packages函数处理大数据,具体实现方法会在后面的博客中介绍给大家。

1.read.命令读取数据

【此处引用数据来自: https://figshare.com 开放数据平台】

【方法一】RConsole   

           

>setwd("~/Desktop")   #设置工作路径/目录

>getwd()                         #查看设置的工作路径

1) txt数据读取 

>read.table("~/Desktop/Data.txt",header=TRUE)

2)csv数据读取

>read.csv("~/Desktop/Data.csv",header=TRUE)   #读取excel/Spreadsheet中的数据

3)非结构化文本数据的读取

>readLines("~/Desktop/Article.txt")  #非结构化文本格式的读取,按行进行数据读入

4)Excel文件的读入

      excel文件的读入,依赖的扩展packages,很多是需要Java才能安装,如果是普通的excel文件,可以转换为.csv格式,可以先将excel文件转化为.csv格式的文件再进行读取。

    直接读取excel文件的方法:

(packages的安装方法见 本系列博客Mac版R语言入门(一)R语言入门操作http://blog.csdn.net/nicolelovesmath/article/details/53244337第四部分)

      方法I:RODBC包

                  RODBC依赖于ODBC的驱动程序管理器,安装完RODBC之后,需要配置ODBC的驱动程序,实现连接之后,才能调用RODBC的包。此处需要注意SQL的版本和R版本的兼容。

      方法II:XLSX包

                   XLSX包,需要安装rJAVA的程序包。与电脑环境有关,电脑安装rJava难度很大,不建议使用

      方法III:XLConnect包

                 XLConnect安装

              

package安装完成

5)网络数据的访问

>read.csv("https://figshare.com/articles/Data_xlsx/4233182")

【方法二】RStudio



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3