【原】R学习：R for Data Science 循环-迭代 purrr 函数代替 for 循环

公号生信小课堂 2021-10-28

展开全文

R学习往期回顾：

R学习：R for Data Science 循环-迭代（for while)）

R学习：R for Data Science 向量（1）

R学习：R for Data Science 向量（2）

R学习从Tidyverse学起，入门R语言 dplyr合并数据

R学习流程控制 if,else,ifelse

R学习从Tidyverse学起，入门R语言（tidyr和stringr）

R学习从Tidyverse学起，入门R语言（tibble，readr和dplyr）

R学习：字符串

R学习：环境和函数

R学习：数据框的基本操作

R学习：R for Data Science（五）

R学习：R for Data Science（四）

R学习：R for Data Science（三）

R学习：R for Data Science（二）

R学习：R for Data Science（一）

for循环与函数式编程

for 循环在 R 中不像在其他语言中那么重要，因为 R 是一门函数式编程语言。这意味着可以先将 for 循环包装在函数中，然后再调用这个函数，而不是直接使用 for 循环

library(tidyverse)df <- tibble( a = rnorm(10), b = rnorm(10), c = rnorm(10), d = rnorm(10))

假设想要计算每列的均值。你可以使用 for 循环来完成这个任务

output <- vector("double", length(df))for (i in seq_along(df)) { output[[i]] <- mean(df[[i]])}output

将这段代码提取出来，转换成一个函数：

col_mean <- function(df) { output <- vector("double", length(df)) for (i in seq_along(df)) { output[i] <- mean(df[[i]]) } output}

还可以算每列的中位数和标准差

col_median <- function(df) { output <- vector("double", length(df)) for (i in seq_along(df)) { output[i] <- median(df[[i]]) } output}col_sd <- function(df) { output <- vector("double", length(df)) for (i in seq_along(df)) { output[i] <- sd(df[[i]]) } output}

通过添加支持函数应用到每列的一个参数，我们可以使用同一个函数完成与 col_mean()、col_median() 和 col_sd() 函数相同的操作：

col_summary <- function(df, fun) { out <- vector("double", length(df)) for (i in seq_along(df)) { out[i] <- fun(df[[i]]) } out}col_summary(df, median)col_summary(df, mean)

将函数作为参数传入另一个函数的这种做法是一种非常强大的功能，它是促使 R 成为函数式编程语言的因素之一。
我们将学习和使用 purrr 包，它提供的函数可以替代很多常见的 for 循环应用。 R 基础包中的应用函数族（apply()、 lapply()、 tapply() 等）也可以完成类似的任务，但 purrr 包中的函数更一致，也更易于学习。

使用 purrr 函数代替 for 循环的目的是将常见的列表处理问题分解为独立的几个部分。
· 对于列表中的单个元素，你能找到解决问题的方法吗？如果找到了解决方法，那么你就可以使用 purrr 将这种方法扩展到列表中的所有元素。

· 如果你面临的是一个非常复杂的问题，那么如何将其分解为几个可行的子问题，然后循序渐进地解决，直至完成最终的解决方案？使用 purrr，你可以解决很多子问题，然后再通过管道操作将这些问题的结果组合起来。

映射函数

先对向量进行循环、然后对其每个元素进行一番处理，最后保存结果。这种模式太普遍了，因此 purrr 包提供了一个函数族来替你完成这种操作。每种类型的输出都有一个相应的函数：
· map() 用于输出列表；
· map_lgl() 用于输出逻辑型向量；
· map_int() 用于输出整型向量；
· map_dbl() 用于输出双精度型向量；
· map_chr() 用于输出字符型向量。