快捷搜索:  汽车  科技

r语言的统计分析,分析学优势R语言基础

r语言的统计分析,分析学优势R语言基础setwd(绝对路径):设置工作路径。getwd():获取当前工作路径。names(读取文件的存储名),如poll=read.csv("polling.csv") names(poll)rm(变量名1,变量名2,……):移除变量1,变量2……?函数名:查看函数的帮助的页面,如?sqrt

各位想学习R语言、机器学习、深度学习的朋友,想寻求相关方面资料的朋友,可以向我咨询。请文末留言。


R语言:免费、开源、使用广泛、简单易用、可视化效果好。

在美国以外的地区,使用R语言先运行Sys.setlocale("LC_ALL" "C")语句,避免出现某些格式问题。

ls():查看当前面板变量名。

names(读取文件的存储名),如poll=read.csv("polling.csv") names(poll)

rm(变量名1,变量名2,……):移除变量1,变量2……

?函数名:查看函数的帮助的页面,如?sqrt

getwd():获取当前工作路径。

setwd(绝对路径):设置工作路径。

写.csv格式的文件:write.csv(目标变量,预保持的文件名.csv)

安装包:install.packages(包名),如install.packages("caTools")

使用包:library(包名),如library(caTools)


R语言中常见的几个基本函数:(以polling.csv文件为例)

poll=read.csv("polling.csv")

str(poll):查看poll数据框的变量名,变量名类型,对象个数,变量个数。

summary(poll):查看poll数据框各变量的统计学量,sd(poll$age),age变量的方差。

股价随时间的变化图

hist(CocaCola$Date[301:432],xlab= main= xlim=c(0 100) breaks=200):直方图,有利于理解数据的分布,"CocaCola$Date[301:432]"欲画图的数据,breaks矩形的个数,每个矩形的宽度=总宽度/breaks。

hist(poll$Age xlab = "Age" ylab = "Frequency" main = "Histogram of Age" xlim = c(0 150) breaks = 10)

r语言的统计分析,分析学优势R语言基础(1)

年龄直方图


boxplot(USDA$Sugar ylab = "Sugar (g)" main = "Boxplot of Sugar"):盒图。

boxplot(Y~X):Y为纵轴,X为横轴。

boxplot(WHO$CellularSubscribers~WHO$Region xlab="Region" ylab="Life Expectancy" main="Life Expectancy of Countries by Region")

r语言的统计分析,分析学优势R语言基础(2)

LifeExpectancy和Region盒图


创建vector:A=c(2 3 4 5),A的下标从[1]开始,可认为创建的为列vector

seq(0 100 2)序列:0,2,4,6,……,100。

创建dataframe:data.frame(vector1 vector2 ……)。

合并两个dataframe:rbind(dataframe1 dataframe2)。

Country = c("Brazil" "China" "India" "Switzerland" "USA")

LifeExpectancy = c(74 76 65 83 79)

dataframe1 = data.frame(Country LifeExpectancy)

dataframe1$Population = c(199000 1390000 1240000 7997 318000)

dataframe以Country LifeExpectancy Population为变量,在数据框的第一行,可使用生成.csv文件的如下命令write.csv(dataframe3 "dataframe3.csv")查看。

##

Country = c("Australia" "Greece")

LifeExpectancy = c(82 81)

Population = c(23050 11125)

dataframe2 = data.frame(Country LifeExpectancy Population)

##

dataframe3=rbind(dataframe1 dataframe2)

查看dataframe3中的变量,先读取文件df=read.csv(""dataframe3.csv""),再df["Country"],若df$Country则显示比较麻烦。

将两个数据框中的变量进行匹配:CPS = merge(CPS MetroAreaMap by.x="MetroAreaCode" by.y="Code" all.x=TRUE):其中MetroAreaCode来自于数据框CPS,Code来自于数据框MetroAreaMap,根据相应对象进行匹配;all.x=TRUE表示对CPS中相应的每一行都进行匹配。


将数据集中日期格式转换成R中的日期格式:

as.Date(strptime(日期变量,日期变量的格式))

如DateConvert = as.Date(strptime(mvt$Date "%m/%d/%y %H:%M"));DateConvert[1]显示第一个时间。

或IBM$Date = as.Date(IBM$Date "%m/%d/%y")

提取月份和周再为mvt新增两个变量:mvt$Month = months(DateConvert);mvt$Weekday = weekdays(DateConvert)。


猜您喜欢: