dplyr包主要用于dataframe数据格式的数据处理,可大幅提高数据处理速度,同时提供了与其它数据库的接口。
![]() |
dplyr包更是拥有R语言必学之包的美誉,今天小锐就为大家介绍dplyr包在数据处理中常用的六个函数:
filter 筛选
arrange 排列
select 选择
mutate 变形
summarise 汇总
group_by 分组
首先安装并加载dplyr包
install.packages("dplyr")
library(dplyr)
加载鸢尾花数据集
data<-iris
![]() |
筛选:filter()
根据给定的逻辑判断,筛选符合条件的子集。
data1<-filter(data,Sepal.Length>7) #筛选Sepal.Length(花萼长度)大于7的数据
![]() |
data2<-filter(data,Species=="versicolor") #筛选物种为“versicolor”的数据
![]() |
data3<-filter(data,Species!="versicolor" & Petal.Length>4.5) #筛选物种不为“versicolor”且Petal.Length(花瓣长度)大于4.5的数据
![]() |
排列:arrange()
按给定的列名对行进行排序。
data4<-arrange(data,Sepal.Length) #按Sepal.Length进行排序,默认为升序
![]() |
排列:arrange()
按给定的列名对行进行排序。
data4<-arrange(data,Sepal.Length) #按Sepal.Length进行排序,默认为升序
![]() |
排列:arrange()
按给定的列名对行进行排序。
data4<-arrange(data,Sepal.Length) #按Sepal.Length进行排序,默认为升序
![]() |
选择:select()
用列名做参数选择子数据集。
data6<-select(data,Sepal.Width:Petal.Width) #选择Sepal.Width(花萼宽度)到Petal.Width(花瓣宽度)的列
![]() |
data7<-select(data,starts_with("P")) #结合starts_with函数,选择变量名以P开头的列
![]() |
变形:mutate()
对现有的列进行运算,并作为新列添加。
data8<-mutate(data,S.L=10*Sepal.Length) #增加S.L列为Sepal.Length列的10倍
![]() |
data9<-mutate(data,L.W=Sepal.Length/Sepal.Width) #增加L.W列为Sepal.Length除以Sepal.Width的数值
![]() |
汇总:summarise()
对数据框调用其它函数进行汇总操作,返回一维的结果。
data10<-summarise(data,mean(Sepal.Length)) #求Sepal.Length的平均值
![]() |
分组:group_by()
添加了group_by()分组信息后就可对数据执行分组操作,常与summarise() 结合使用。
data11<-summarise(group_by(data,Species),mean(Sepal.Length)) #对数据按Species分组,计算Sepal.Length平均值
![]() |
今天关于R语言数据处理dplyr包的六个函数就介绍到这里,关注锐翌基因,干货持续推送!
更多R语言相关课程,在锐翌暑期培训班哟