Pythonとかいろいろのこと

angelaのプログラミング勉強ブログ

rvest

Pythonではないけど、Rのライブラリ、rvest使ってみたので、簡単に備忘録。
rvestはWebのスクレイピング

もっといろいろ出来そうだけど、簡単にWebのテーブルを抜き出すときは

topmedal <- read_html("http://www.sports-reference.com/olympics/")
topmedal_table <- html_table(topmedal)[[1]]
colnames(topmedal_table) = topmedal_table[1,]
topmedal_table <- topmedal_table[-1,]
topmedal_df <- data.frame(topmedal_table[-1,])
head(topmedal_df)
head(topmedal_table)

てな感じになる。ページに複数のテーブルがあるときは、html_tableで抜き出すと、リストになって入っているので、1個目のテーブルを指定するときは、上のコードのように1としているという訳。

そして、何気にこのテーブル、セルの結合がヘッダーのところでしてあるんだけど、とりあえずそれでも読んでくれる。ただしヘッダーは結合されたセルがヘッダーになってるので、そこを修正している。

とりあえず、これはちょこちょこ使いそうなので、メモ。

ここ2ヶ月ほど、Pythonの学習が止まってしまった。またぼちぼち始めなくては・・・