2019-07-16浏览量:161

干货来袭,教你用dplyr包轻松处理数据!

dplyr包主要用于dataframe数据格式的数据处理,可大幅提高数据处理速度,同时提供了与其它数据库的接口。

 

 

dplyr包更是拥有R语言必学之包的美誉,今天小锐就为大家介绍dplyr包在数据处理中常用的六个函数:

filter 筛选

arrange 排列

select 选择

mutate 变形

summarise 汇总

group_by 分组

 

 首先安装并加载dplyr包

 

install.packages("dplyr")

library(dplyr)

 

加载鸢尾花数据集

 

data<-iris

 

 

筛选:filter()

 

根据给定的逻辑判断,筛选符合条件的子集。

data1<-filter(data,Sepal.Length>7)  #筛选Sepal.Length(花萼长度)大于7的数据

 

 

data2<-filter(data,Species=="versicolor")  #筛选物种为“versicolor”的数据

 

 

data3<-filter(data,Species!="versicolor" & Petal.Length>4.5)  #筛选物种不为“versicolor”且Petal.Length(花瓣长度)大于4.5的数据

 

 

排列:arrange()

 

按给定的列名对行进行排序。

data4<-arrange(data,Sepal.Length)  #按Sepal.Length进行排序,默认为升序

 

 

排列:arrange()

 

按给定的列名对行进行排序。

data4<-arrange(data,Sepal.Length)  #按Sepal.Length进行排序,默认为升序

 

 

排列:arrange()

 

按给定的列名对行进行排序。

data4<-arrange(data,Sepal.Length)  #按Sepal.Length进行排序,默认为升序

 

 

选择:select()

 

用列名做参数选择子数据集。

data6<-select(data,Sepal.Width:Petal.Width)  #选择Sepal.Width(花萼宽度)到Petal.Width(花瓣宽度)的列

 

 

data7<-select(data,starts_with("P"))  #结合starts_with函数,选择变量名以P开头的列

 

 

变形:mutate()

 

对现有的列进行运算,并作为新列添加。

data8<-mutate(data,S.L=10*Sepal.Length)  #增加S.L列为Sepal.Length列的10倍

 

 

data9<-mutate(data,L.W=Sepal.Length/Sepal.Width)  #增加L.W列为Sepal.Length除以Sepal.Width的数值

 

 

汇总:summarise()

 

对数据框调用其它函数进行汇总操作,返回一维的结果。

data10<-summarise(data,mean(Sepal.Length))  #求Sepal.Length的平均值

 

 

分组:group_by()

 

添加了group_by()分组信息后就可对数据执行分组操作,常与summarise() 结合使用。

data11<-summarise(group_by(data,Species),mean(Sepal.Length))  #对数据按Species分组,计算Sepal.Length平均值

 

 

今天关于R语言数据处理dplyr包的六个函数就介绍到这里,关注锐翌基因,干货持续推送!

更多R语言相关课程,在锐翌暑期培训班哟

下一篇