r语言的统计分析,分析学优势R语言基础
r语言的统计分析,分析学优势R语言基础setwd(绝对路径):设置工作路径。getwd():获取当前工作路径。names(读取文件的存储名),如poll=read.csv("polling.csv") names(poll)rm(变量名1,变量名2,……):移除变量1,变量2……?函数名:查看函数的帮助的页面,如?sqrt
各位想学习R语言、机器学习、深度学习的朋友,想寻求相关方面资料的朋友,可以向我咨询。请文末留言。
R语言:免费、开源、使用广泛、简单易用、可视化效果好。
在美国以外的地区,使用R语言先运行Sys.setlocale("LC_ALL" "C")语句,避免出现某些格式问题。
ls():查看当前面板变量名。
names(读取文件的存储名),如poll=read.csv("polling.csv") names(poll)
rm(变量名1,变量名2,……):移除变量1,变量2……
?函数名:查看函数的帮助的页面,如?sqrt
getwd():获取当前工作路径。
setwd(绝对路径):设置工作路径。
写.csv格式的文件:write.csv(目标变量,预保持的文件名.csv)
安装包:install.packages(包名),如install.packages("caTools")
使用包:library(包名),如library(caTools)
R语言中常见的几个基本函数:(以polling.csv文件为例)
poll=read.csv("polling.csv")
str(poll):查看poll数据框的变量名,变量名类型,对象个数,变量个数。
summary(poll):查看poll数据框各变量的统计学量,sd(poll$age),age变量的方差。
股价随时间的变化图
hist(CocaCola$Date[301:432],xlab= main= xlim=c(0 100) breaks=200):直方图,有利于理解数据的分布,"CocaCola$Date[301:432]"欲画图的数据,breaks矩形的个数,每个矩形的宽度=总宽度/breaks。
hist(poll$Age xlab = "Age" ylab = "Frequency" main = "Histogram of Age" xlim = c(0 150) breaks = 10)
年龄直方图
boxplot(USDA$Sugar ylab = "Sugar (g)" main = "Boxplot of Sugar"):盒图。
boxplot(Y~X):Y为纵轴,X为横轴。
boxplot(WHO$CellularSubscribers~WHO$Region xlab="Region" ylab="Life Expectancy" main="Life Expectancy of Countries by Region")
LifeExpectancy和Region盒图
创建vector:A=c(2 3 4 5),A的下标从[1]开始,可认为创建的为列vector。
seq(0 100 2)序列:0,2,4,6,……,100。
创建dataframe:data.frame(vector1 vector2 ……)。
合并两个dataframe:rbind(dataframe1 dataframe2)。
Country = c("Brazil" "China" "India" "Switzerland" "USA")
LifeExpectancy = c(74 76 65 83 79)
dataframe1 = data.frame(Country LifeExpectancy)
dataframe1$Population = c(199000 1390000 1240000 7997 318000)
dataframe以Country LifeExpectancy Population为变量,在数据框的第一行,可使用生成.csv文件的如下命令write.csv(dataframe3 "dataframe3.csv")查看。
##
Country = c("Australia" "Greece")
LifeExpectancy = c(82 81)
Population = c(23050 11125)
dataframe2 = data.frame(Country LifeExpectancy Population)
##
dataframe3=rbind(dataframe1 dataframe2)
查看dataframe3中的变量,先读取文件df=read.csv(""dataframe3.csv""),再df["Country"],若df$Country则显示比较麻烦。
将两个数据框中的变量进行匹配:CPS = merge(CPS MetroAreaMap by.x="MetroAreaCode" by.y="Code" all.x=TRUE):其中MetroAreaCode来自于数据框CPS,Code来自于数据框MetroAreaMap,根据相应对象进行匹配;all.x=TRUE表示对CPS中相应的每一行都进行匹配。
将数据集中日期格式转换成R中的日期格式:
as.Date(strptime(日期变量,日期变量的格式))
如DateConvert = as.Date(strptime(mvt$Date "%m/%d/%y %H:%M"));DateConvert[1]显示第一个时间。
或IBM$Date = as.Date(IBM$Date "%m/%d/%y")
提取月份和周再为mvt新增两个变量:mvt$Month = months(DateConvert);mvt$Weekday = weekdays(DateConvert)。