鍍金池/ 教程/ 數(shù)據(jù)分析&挖掘/ R語言Web數(shù)據(jù)
R語言列表
R語言隨機(jī)森林
R語言矩陣
R語言邏輯回歸
R語言數(shù)據(jù)幀
R語言數(shù)據(jù)重塑
R語言概述
R語言包
R語言字符串
R語言CSV文件
R語言運(yùn)算符
為什么使用R語言做統(tǒng)計?
R語言Web數(shù)據(jù)
R語言二進(jìn)制文件
R語言XML文件
R語言JSON文件
R語言因子
R語言容易學(xué)習(xí)嗎?
R語言基礎(chǔ)語法
R語言向量
R語言教程
R語言正態(tài)分布
R語言平均值,中位數(shù)和眾數(shù)
R語言變量
R語言條形圖
R語言決策樹
R語言開發(fā)環(huán)境安裝配置
R語言數(shù)組
R語言數(shù)據(jù)類型
R語言非線性最小二乘法
R語言直方圖
R語言卡方檢驗
R語言泊松回歸
R語言決策結(jié)構(gòu)
R語言盒形圖(箱形圖)
R語言協(xié)方差分析
R語言二項分布
R語言餅狀圖
R語言循環(huán)
R語言散點圖
R語言線性回歸
R語言時間序列分析
R語言線形圖
R語言在現(xiàn)實中的應(yīng)用
R語言生存分析
R語言多元(多重)回歸
R語言函數(shù)
R語言Excel文件
R語言連接數(shù)據(jù)庫(MySQL)

R語言Web數(shù)據(jù)

許多網(wǎng)站為用戶提供一些公開的數(shù)據(jù)。 例如,世界衛(wèi)生組織(WHO)以CSV,txt和XML文件的形式提供關(guān)于健康和醫(yī)療信息的報告。 使用R程序,我們可以從這些網(wǎng)站以編程方式提取特定的數(shù)據(jù)。 用于從網(wǎng)絡(luò)中廢棄數(shù)據(jù)的R中的一些包是 - RCurlXMLstringr,用于連接URL,識別文件所需的鏈接并將其下載到本地環(huán)境。

安裝R包

需要以下包才能處理URL和鏈接到文件。 如果它們在R環(huán)境中不可用,則可以使用以下命令安裝它們。

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

準(zhǔn)備輸入數(shù)據(jù)

我們將訪問URL天氣數(shù)據(jù),并使用R來下載2015年天氣的CSV文件。

例子

我們將使用函數(shù)getHTMLLinks()來收集文件的URL。然后將使用函數(shù)download.file()將文件保存到本地系統(tǒng)。由于我們將為多個文件一次又一次地應(yīng)用相同的代碼,所以將創(chuàng)建一個被多次調(diào)用的函數(shù)。文件名作為參數(shù)以R列表對象的形式傳遞給此函數(shù)。

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

驗證文件下載

運(yùn)行上述代碼后,可以在當(dāng)前R工作目錄中找到以下文件。

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"