R語言并行運算(snow包)

2019-11-10 20:18:50

字體：大中小

供稿：網(wǎng)友

snow包

snow包主要運行于傳統(tǒng)的集群計算。它主要用于蒙特卡洛模擬（Monte Carlo simulations），boostrapping，交叉驗證（cross validation），集成機(jī)器學(xué)習(xí)算法（ensemble machine learning algorithms）和K均值聚類（K-Means clustering）等，并且也很好支持并行隨機(jī)數(shù)的生成。 snow包的安裝一般應(yīng)用install.packages('snow'). 要使用snow包進(jìn)行并行運算，首先要創(chuàng)建一個集群對象，主要用于與內(nèi)核的交互，一般傳遞與snow包中函數(shù)的第一個參數(shù)。基本的集群創(chuàng)建函數(shù)為makeCluster()，它能創(chuàng)建任何類型的集群，例如，在本地機(jī)器上創(chuàng)建一個4核的集群：

cl <- makeCluster(4, type="SOCK")

第一個參數(shù)為集群設(shè)定，即設(shè)定使用的CPU數(shù)；第二個參數(shù)是集群類型。 注意：在結(jié)束集群時使用stopCluster()。下面使用snow包做一個并行運算。

并行運算K均值聚類

數(shù)據(jù)是MASS包自帶的Boston數(shù)據(jù)集。 K均值函數(shù)使用stats包中的kmeans()。

library(MASS)result <- kmeans(Boston, 4, nstart = 100)

在使用并行計算前，首先看看使用lapply函數(shù)的運行情況

results <- lapply(rep(25,4), function(nstart) kmeans(Boston, 4, nstart = nstart)i <- sapply(results, function(result) result$tot.withiness)result <- results[[which.min(i)]]

使用clusterApply并行計算

library(snow)cl <- makeCluster(4, type="SOCK")ignore <- clusterEvalQ(cl, {library(MASS); NULL}) #用clusterEvalQ函數(shù)初始化內(nèi)核，在每一個內(nèi)核中載入包results <- clusterApply(cl, rep(25, 4), function(nstart) kmeans(Boston, 4, nstart=nstart)) #parallel computingi <- sapply(results, function(result) result$tot.withinss)result <- results[[which.min(i)]]

相比較clusterEvalQ而言，clusterCall更好用，它的第一個參數(shù)為集群對象，第二個參數(shù)為一個函數(shù)，并且其他的參數(shù)可以傳遞給這個函數(shù)。最終返回一個列表。

clusterCall(cl, function() { library(MASS); NULL })

clusterCall函數(shù)可以調(diào)用多個包，

worker.init <- function(packages) {for (p in packages) {library(p, character.only=TRUE)}NULL}clusterCall(cl, worker.init, c('MASS', 'boot'))

character.only=TRUE是使library把參數(shù)解釋為字符向量，否則library會重復(fù)載入名稱為p的包。

使用clusterApplyLB并行運算

clusterApplyLB與clusterApply函數(shù)相似，但clusterApplyLB的運行效率更高。在使用clusterApply并行運算時，如果每一個內(nèi)核花費不同的時間進(jìn)行運算，那么在那個運行時間長的內(nèi)核結(jié)束之前，運行時間短的內(nèi)核不能進(jìn)行下一次運算，而clusterApplyLB不同，它是在運行時間短的內(nèi)核結(jié)束之后接著就運行下一次的運算，這樣就減少了時間的浪費，因此提高了效率。為了說明clusterApplyLB的效率，我們使用控制任務(wù)時間長度的函數(shù)Sys.sleep。用snow.time收集整個執(zhí)行過程的時間信息。

set.seed(7777442)sleeptime <- abs(rnorm(10, 10, 10))tm <- snow.time(clusterApplyLB(cl, sleeptime, Sys.sleep))plot(tm)

clusterApplyLB 作為對照，我們用clusterApply函數(shù)來觀察運行時間

tm1 <- snow.time(clusterApply(cl, sleeptime, Sys.sleep))plot(tm1)

由此看出clusterApplyLB效率更高。

使用parLapply并行運算

parLapply是snow包中的一個高級函數(shù)，它比clusterApply函數(shù)更高效，如果參數(shù)x的長度與內(nèi)核的數(shù)量相等，parLapply的優(yōu)勢不明顯，如果參數(shù)x的長度遠(yuǎn)大于內(nèi)核的數(shù)量，parLapply相比于clusterApply是一個更好的選擇。應(yīng)用一個并行休眠函數(shù)的用法，首先使用clusterApply

bigsleep <- function(sleeptime, mat) Sys.sleep(sleeptime)bigmatrix <- matrix(0, 2000, 2000)sleeptime <- rep(1, 100)tm2 <- snow.time(clusterApply(cl, sleeptime, bigsleep, bigmatrix))plot(tm2)

由圖看出并不高效，因為有大量的輸入輸出時間，下面再試一試clusterApplyLB：

tm3 <- snow.time(clusterApplyLB(cl, sleeptime, bigsleep, bigmatrix))plot(tm3)

clusterApplyLB 由上圖看出，運算集中在第1、2和3個內(nèi)核上，第4個內(nèi)核上運算的時間非常少，及運算效率差，但總體還是比clusterApply函數(shù)要好一些。看看最終的函數(shù)parLapply：

tm4 <- snow.time(parLapply(cl, sleeptime, bigsleep, bigmatrix))plot(tm4)

parLapply 由此看出，傳輸交換的時間大大縮短了，因此提高了效率。

參考文獻(xiàn) $參考文獻(xiàn)$ 1. Luke Tierney, A. J. Rossini, Na Li, H. Sevcikova, package snow. 2. Q. Ethan McCallum and Stephen Weston, Parallel R.

上一篇：某次模擬考試day2t3 菊菊的數(shù)據(jù)結(jié)構(gòu)

下一篇：mysql 日期操作增減天數(shù)、時間轉(zhuǎn)換、時間戳