R语言学习笔记--数据对象和简单统计-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4661858
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

相关博文

R语言学习笔记--数据对象和简单统计

分类： Python/Ruby

2012-05-09 18:58:13

文章来源：%E8%AF%AD%E8%A8%80%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0-%E6%95%B0%E6%8D%AE%E5%AF%B9%E8%B1%A1%E5%92%8C%E7%AE%80%E5%8D%95%E7%BB%9F%E8%AE%A1/
在原文上加了几个没写出的公式。

上篇讲完了R语言的一些最基本的安装和命令。这篇继续学习对象和数据类型，也会有一些简单的统计内容。

数据对象引言

R把对象分为多种类型，包括向量、因子、清单以及数据框等等。部分R函数会根据不同的对象作出不同的处理。例如，plot会随着输入的数据类型的不同而得出不同类型的图像：输入数字向量，会得到散点图；输入一组因子，会得到盒形图；输入回归模型的结果，则会得到一系列的图像分析（在R中，大部分比较复杂的分析功能，比如回归模型，都会得到一系列的结果）。这种弹性被称为“对象导向式程序编写”。

所有对象都包括数值及属性。数值是指当输入对象名称后所显示的数值，而属性则可分为三类：对于对象的长度，对于矩阵的维度以及对于数据框的行和列。

标量和向量

标量相对于向量来说比较简单，可以是由数字或者字符串组成。在R的语法中，表达文字时都必须加上引号“”。向量则是由一组一维的标量所构成的，所以标量可以认为是向量的特殊情况。除此之外，这些标量必须是同一类型（数值或者是文字）。如果一个向量同时包含了数值和文字，R会把该向量视作文字处理。

> sample=c(1,2,3,"x") > sample [1] "1" "2" "3" "x" 类型检视与转换

在不知对象的类型的时候，使用者额可以利用一系列由is.串连的功能区检视，R便会用TRUE或者FALSE以表示正确或者错误。

> is.vector(sample) [1] TRUE > is.character(sample) [1] TRUE > is.numeric(sample) [1] FALSE

除此之外，还可以用as.串连功能来变更对象的类型。

> as.numeric(1) [1] 1 > as.numeric(sample) [1] 1 2 3 NA Warning message: NAs introduced by coercion

由于sample并不属于数值类型，因此as.numeric(sample)只会显示出NA。

矩阵

矩阵和向量比较类似，只不过是二维的而已。输入矩阵如同输入向量，只需要加上二维数据即可。例如：

> matrix(c(1:9),nrow=3,ncol=3,byrow=T) [,1] [,2] [,3] [1,] 1 2 3 [2,] 4 5 6 [3,] 7 8 9

其中，byrow=T这个系数是指以行的形式来排列矩阵。当矩阵的第一行被填满的时候，余下的数字将填补下一行。这里的nrow和ncol可以简写做nr和nc。当然，我自己还是喜欢直接写3,3，也是没有问题的。

清单

清单应该说比向量的作用更大些，因为它能够将多种类型的数据储存在一起。倘若向量是一组标量的排列，那么清单则可视作一组不同形态对象的排列。

> list1=list(c("1","two","three","4"),matrix(c(1,2,3,4,5,6),nrow=2,ncol=3),c(1,2,3)) > list1 [[1]] [1] "1" "two" "three" "4" [[2]] [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 [[3]] [1] 1 2 3 数据框

到目前为止，其实很多数据类型都是很相似的，或者使我们以前就比较熟知的。数据框应该大部分人以前都是没有接触过的，下面简单介绍一下。数据框可以是多维的，而且它的行和列都是可以被重新命名的。在数据框内，和数值向量一般，空白输入是以NA来表示的。

利用指令data.frame，可以讲矩阵转化为数据框（在R中，没有函数as.frame的）。同样，利用as.matrix，便可以将数据帧转化为矩阵。但有一点非常重要，矩阵和向量一样，只能拥有一种数据类型，而数据框却能同时拥有多种。若数据框内同时含有文字，当数据框被转化为矩阵时，所有的元素都会被转化为文字。

统计分布和简单模拟

对于统计分析来说，进行模拟实验是非常有必要的。这部分后面应该还有更多更有针对性的文章。记录下R做简单模拟实验及应用相关的统计分布函数。当然，前提是需要有一些基础的概率统计的理论知识。如果没有也没关系，在实验和动手操作中学习一向是我最推崇的方法。对于一些模糊的概念，我不太推荐去系统的参考课本，直接用好wiki就可以了。

sample函数 > sample(c(-1,0,1),size=20,prob=c(1/3,1/3,1/3),replace=T) [1] 0 -1 0 0 1 0 -1 1 1 1 -1 0 -1 -1 -1 0 0 0 -1 -1

sample函数用来产生随机样本或者排列。上面这个指令产生了20个离散分布的随机样本，抽中-1,0和1的机会是均等的。当然，每次运行这条命令的时候结果都会不同，因此需要引入随机种子的概念。在R中，随机数产生器是应用随机种子产生伪随机数据。使用者在不同时间执行命令都会有不同的随机种子。当然，我们可以用set.seed()函数来设定随机种子。当随机种子是一样的时候，所产生的伪随机数据也就是相同的了。例如：

> set.seed(123) > sample(c(-1,0,1),size=20,prob=c(1/3,1/3,1/3),replace=T) [1] 0 -1 1 -1 -1 0 1 -1 1 1 -1 1 -1 1 0 -1 0 0 0 -1 > sample(c(-1,0,1),size=20,prob=c(1/3,1/3,1/3),replace=T) [1] -1 -1 1 -1 1 -1 1 1 0 0 -1 -1 -1 -1 0 1 -1 0 0 0 > sample(c(-1,0,1),size=20,prob=c(1/3,1/3,1/3),replace=T) [1] 0 1 1 1 0 0 0 1 0 -1 0 1 -1 0 1 0 0 -1 -1 1

我们开始的时候设定了随机种子为123，然后产生不同的随机排列。原因是当每次执行产生随机数据后，随机种子也会从某个特定的数学公式来改变。现在我们尝试重新将随机种子设定为123,就会产生和刚才一模一样的随机序列：

设定随机种子是非常有用的，每次产生相同的随机数据会对编写程序和除bug都有很大的帮助。下面来举个常见的小例子。假设我们进行掷硬币游戏，每次正面朝上得一分，反面朝上则减一分。这就是一种很简单的随机步行，我们可以用下面的统计模型来表示：

w(t+1)=w(t)+r(t),t=0,1,/dots,n.

r(t)等于1或者-1的概率都是1/2。dw(t)就是在时间t积累的金额。假设最初金额w(0)=0，我们就用一下命令来仿真这随机步行：

> set.seed(12345) > r=sample(c(1,-1),size=100,prob=c(1/2,1/2),replace=T) > r=c(0,r) > r [1] 0 1 1 1 1 -1 -1 -1 1 1 1 -1 -1 1 -1 -1 -1 -1 -1 -1 1 -1 [23] -1 1 1 1 -1 1 1 -1 -1 1 -1 -1 1 -1 -1 1 1 1 -1 1 -1 1 [45] 1 -1 -1 -1 -1 -1 1 1 1 -1 -1 1 -1 1 -1 -1 -1 1 -1 1 1 1 [67] -1 1 -1 1 1 1 1 -1 -1 -1 1 1 1 1 -1 1 1 -1 -1 -1 -1 1 [89] 1 1 -1 1 1 -1 1 1 1 1 1 -1 -1 > w=cumsum(r) > > w [1] 0 1 2 3 4 3 2 1 2 3 4 3 2 3 2 1 0 -1 -2 -3 -2 -3 [23] -4 -3 -2 -1 -2 -1 0 -1 -2 -1 -2 -3 -2 -3 -4 -3 -2 -1 -2 -1 -2 -1 [45] 0 -1 -2 -3 -4 -5 -4 -3 -2 -3 -4 -3 -4 -3 -4 -5 -6 -5 -6 -5 -4 -3 [67] -4 -3 -4 -3 -2 -1 0 -1 -2 -3 -2 -1 0 1 0 1 2 1 0 -1 -2 -1 [89] 0 1 0 1 2 1 2 3 4 5 6 5 4

上面的操作中，r=c(0,r)是将w(0)=0加在r前面，而w=cumsum(r)是计算r的累计和。为了能够使数据看起来更加直观，下面绘制一下这个随机步行：

画图的时候首先将w转成时间序列，然后用plot(w, type='l')函数来画图。abline(h=0)是在图中加上y=0的水平线。R的绘图部分后面还会继续学习，此处不再赘述。

统计分布

R中内置了很多常用的统计分布函数。我们可以用这些函数来产生各种类型的随机样本。R统计一共有四种基本项目：

概率密度函数
累计分布函数
分位数
伪随机数

R的命名方法是分别用d，p，q，r去表示这四个项目。例如dnorm、pnorm、qnorm、rnorm分别表正态分布的四个基本项目。下面就画一下正态分布的概率密度函数。在plot函数中参数type=”l“表示用线条来画。

> x=seq(-4,4,0.01) > plot(x,dnorm(x),type="l",main="N(0,1)密度")

qnorm()可以用来计算标准正态分布的分位数：

> q=c(0.025,0.05,0.5,0.95,0.975) > qnorm(q) [1] -1.959964 -1.644854 0.000000 1.644854 1.959964

首先定义概率向量q，然后计算相应的分位数（这些也都是假设检验常用的分位数）。我们尝试用rnorm()去产生1000个N(10,4)的随机数据，然后绘制直方图。hist(rnorm(1000, mean=10, sd=2))

我们又尝试用二项式分布为例。二项式分布的密度函数为：

f(x)=(nx)px(1−p)n−x,x=0,...,n

以下是用来绘制

n=20,p=14的二项式分布密度函数：

dbinom()传回二项式分布的密度，自变量size以及prob分别是指n和p。在plot函数中type="h"代表用杆状图来绘制，比较使用于离散的分布。
x = seq(0,20)
plot(x, dbinom(x, size=20, prob=1/4), type='h')

end

关于统计的简单绘图就说这么些吧，由于前几天在做MCM，这篇文章也就一直耽搁了好多天。

阅读(3789) | 评论(0) | 转发(0) |

上一篇：残差分析、预报和控制

下一篇：R语言学习笔记--统计模型（一）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6