目录
一. 安装与入门介绍
1. windows 下载 R 和 R studio
2. 常见问题的对应包查询
3. 解决RStudio 打开文件中文乱码
4. 相关包
5. 获取帮助、工作目录、保存 R 文件
二. R常用数据类型和数据结构
1. 数值型、字符型、逻辑型
2. 判断和转换
3. 特殊值及其判断
4. 数据结构中的常量和变量赋值
5. 向量
6. 矩阵 [本质上是存同一种数据类型的数据结构,用c会强制类型转换]
7. 列表 [区别于矩阵,维度不要求一致,不要求存同种数据类型]
8. 数据框 [特殊的列表和矩阵]
三. R基本运算和常用函数
1. 基本运算
2. 向量相关函数
3. 数据框和矩阵相关函数
4. 字符函数与分布相关函数
四. R语法结构-循环、条件、函数构建
1. 循环和条件语句
2. 函数构建
一. 安装与入门介绍
1. windows 下载 R 和 R studio
The Comprehensive R Archive Networkhttps://mirrors.ustc.edu.cn/CRAN/
RStudio Desktop - Posithttps://posit.co/download/rstudio-desktop/
2. 常见问题的对应包查询
CRAN Task Views (ustc.edu.cn)https://mirrors.ustc.edu.cn/CRAN/web/views/
3. 解决RStudio 打开文件中文乱码
File -> Reopen with Encoding -> utf-8
4. 相关包
一次安装,多次加载;用 library(包名) 加载
5. 获取帮助、工作目录、保存 R 文件
#获取帮助
help("library") #获取工作目录
getwd()
setwd("E:/R")
read.csv(file.choose())# 保存 .RData
save()
save.image()
load()# 列出当前环境中的对象
ls()
rm() # 移除某个对象
rm(list=ls()) # 移除所有对象
二. R常用数据类型和数据结构
1. 数值型、字符型、逻辑型
123,2.34; "Hello,world", '123'; TRUE, T, FALSE, F
2. 判断和转换
is.numeric(123) ; is.character('123') ; is.logical('123')
as.numeric('123') ; as.numeric(T) ; as.character(123)
3. 特殊值及其判断
NA, is.na(NA)
NULL, is.null(NULL)
NAN, is.nan(NAN) ----not a number, e.g. 0/0
Inf, -Inf, is.infinite(-Inf)
4. 数据结构中的常量和变量赋值
1)常量:
pi
letters
LETTERS
month.name
month.abb
2)变量赋值:
v1 <- 1:5 # both 1 and 5 are inclusive
v2 <- c(3,2,7,4,6)
v3 <- rep(v2, times=2)
v4 <- rep(v2, each=2)
v5 <- rep(v2, times=2, each=2)
v6 <- seq(from =2, to=9, by=3)
v7 <- seq(from =2, to=9, length.out=3)
v8 <- seq(from =2, by=3, length.out=4)v9 <- c('air','bic','cp')
rep(v9,each=3)c(T,T,F,T)
5. 向量
1)c会自动转换为同一类型
字符 > 数字 > 逻辑
2)向量长度、名称、索引
# 向量元素名称
names(v2)
names(v2) <- v9
v2# 向量长度
length(v9)# 向量索引
v8[3]
v8[c(1,3,5)]
v8[-c(1,4)] ##负号表示排除,区分于python
v2[c('aic','cp')]
v1[v1%%2==1]
6. 矩阵 [本质上是存同一种数据类型的数据结构,用c会强制类型转换]
m1 <- matrix(1:6,nrow = 2,# ncol =3,byrow = F,dimnames = list(c('r1','r2'),c('c1','c2','c3')) # 也可事后用 rownames(m1) <- c('R1','R2',...) 赋值
)
m1# matrix(NA, ncol=3, nrow=3)m2 <- matrix(c(1:6, letters[1:6]), ##强制转换成characternrow = 3,byrow = T,dimnames = list(c('r1','r2','r3'),c('c1','c2','c3','c4'))
)
m2
# 矩阵行列名称
colnames(m1)
rownames(m1)
dimnames(m2)# 矩阵维度信息
dim(m1)
ncol(m1)
nrow(m1)# 矩阵索引
m2[1,2] # 返回向量
m2[1,] # 注意:不加逗号时, m2[1] 返回第2行第1个值,而 m2['r1'] 返回 NA!
m2['r1',]
m2[,2]
m2[,'c2']m2[1:2,2:3] # 返回矩阵
m2[c(1,3), c(2,4)]
m2[c('r1','r2'),c('d2','c3')]# 矩阵转换成向量
as.vector(m1)
7. 列表 [区别于矩阵,维度不要求一致,不要求存同种数据类型]
l1 <- list( com1=v1,com2=m1)
l1# 长度信息
length(l1)# 名称
names(l1)# 列表索引
l1$com1 # 返回向量
l1[['com2']] # 返回矩阵
l1[[2]] # 返回矩阵 , 列表不能有 l1[1,2]的写法l1['com1'] # 返回列表而非元素,所以列表索引要2个框 or $
l1[2] # 返回列表# 新建成分
l1$com3 <- 3:6
l1# 释放列表
unlist(l1)
8. 数据框 [特殊的列表和矩阵]
# 数据框 (特殊的列表-自动生成行索引,初始化给出列)
df1 <- data.frame(c1 = 2:5,c2 = LETTERS[2:5]
)
df1# 维度信息
dim(df1)
ncol(df1)
nrow(df1)# 行列名称
dimnames(df1)
names(df1)
colnames(df1)
rownames(df1)# 数据框索引
df1[1:2, 2] # 返回向量
df1[,2] # 返回向量
df1[1,] # 返回数据框df1[,"c1"] # 返回向量
df1['1',] # 返回数据框# 新建列,同列表
df1$c3 <- 1:4
df1# 常见例子:生成用于网格搜索的数据框
expand.grid(mtry = 2:5,ntree = c(200, 500))
三. R基本运算和常用函数
1. 基本运算
1 + 2
3 - 2
3 * 4
8 / 5c(1:4) / c(2:5)
c(1:6) / c(2:5) # 循环扩展4 ^ 3
exp(1)
log(x=25, base=5)
sqrt(4)
abs(-5.6)
sign(-5.6)
round(3.45679,2)
signif(3.245, 2) # 保留指定位有效数字
ceiling(3.2)
floor(3.2)2 == 3
2 != 3
2 > 3
2 >= 32 %in% 2:5 # 表示在范围内(2>3) & (2 %in% 2:5)
(2>3) | (2 %in% 2:5)
!(2 %in% 2:5)
2. 向量相关函数
# 向量相关函数
v2 <- c(3,2,7,4,6,8,11,21)
max(v2)
cummax(v2)min(v2)
cummin(v2)sum(v2)
cumsum(v2)prod(v2)
cumprod(v2)mean(v2)
median(v2)
sd(v2)
var(v2)rev(v2)
sort(v2)v5 <- rep(v2, times=2)
table(v5) # 向量元素频数统计
unique(v5)# 索引函数
which(v5==7) # 返回所有的TRUE的位置
which.max(v5) # 仅返回第一个max的位置
which.min(v5)# 交差并
intersect(1:5, 4:7)
setdiff(1:5, 4:7)
union(1:5, 4:7)
3. 数据框和矩阵相关函数
dfs <- data.frame(a=1:5,b=3:7,d=letters[1:5]
)# 行列合并
df1 <- dfs[1:3,]
df1
df2 <- dfs[3:5,]
df2rbind(df1, df2) ## 要求列数、列名称相同
cbind(df1, df2) ## 要求行数相同# 行列运算
colMeans(dfs[,1:2])
colSums(dfs[,1:2])
rowMeans(dfs[,1:2])
rowSums(dfs[,1:2])# apply(x, margin, function) ### 1代表行,2代表列
apply(dfs[,1:2], 2, sd)
apply(dfs[,1:2],2,function(x){sum(is.na(x))}
)# 对象结构信息
str(dfs)
summary(dfs)
View(dfs)
head(dfs, n=2) ## 默认n=6
tail(dfs, n=2)# 矩阵运算
m3 <- matrix(c(5,7,3,4),ncol=2,byrow=T
)
m3m4 <- matrix(c(5,7,3,4,8,9),ncol=3,byrow=T
)
m4t(m3) # 矩阵转置
m3 %*% m4 # 矩阵相乘
solve(m3) # m3 %*% x = E, 矩阵求逆
solve(m3, m4) # m3 %*% x = m4
4. 字符函数与分布相关函数
# 字符函数与分布相关函数# 连接成字符向量
paste(1:5, collapse='+')
paste(1:5, letters[1:8], sep='~') # 扩散机制
paste0(1:5, letters[1:8]) # 一对一紧密相连# 字符长度
nchar(month.name)# 转大小写
toupper(month.name)
tolower(month.name)# 含有某个字符的元素的索引
grep('Ju', month.name)# 替换指定字符
gsub('e', '000', month.name)# 随机分布函数
set.seed(24)
sample(1:2, 12, replace=T) # 随机抽样
rnorm(10, mean=1, sd=2)
pnorm(1, mean=1, sd=2)
qnorm(0.5, mean=1, sd=2)
dnorm(1, mean=1, sd=2)# par(mar = c(1, 1, 1, 1)) ### fig太大时可以用这行
plot( x=seq(-5, 7, length=1000),y=dnorm(seq(-5, 7, length=1000),mean=1,sd=2),type= 'l',ylim = c(0,0.25))
abline(h=0, v=1)
四. R语法结构-循环、条件、函数构建
1. 循环和条件语句
# 例子
df <- data.frame(c1 = 2:5,c2 = 4:7,c3 = -19:-16)for (i in 1:nrow(df)) {print(sum(df[i,]))
}j = 1
while (j <= nrow(df)) {print(sum(df[j,]))j = j+1
}# next, break 等价于 python中的continue和break# 条件结构: if.. else if.. else..; ifelse
s = 40
ifelse(s %% 2 ==0, '偶数', '奇数')
2. 函数构建
# 函数构建
f1 <- function(aug1, aug2=4){res <- aug1 + aug2return (res)
}
f1(34)
f1(34,5)