rvest
Pythonではないけど、Rのライブラリ、rvest使ってみたので、簡単に備忘録。
rvestはWebのスクレイピング。
もっといろいろ出来そうだけど、簡単にWebのテーブルを抜き出すときは
topmedal <- read_html("http://www.sports-reference.com/olympics/") topmedal_table <- html_table(topmedal)[[1]] colnames(topmedal_table) = topmedal_table[1,] topmedal_table <- topmedal_table[-1,] topmedal_df <- data.frame(topmedal_table[-1,]) head(topmedal_df) head(topmedal_table)
てな感じになる。ページに複数のテーブルがあるときは、html_tableで抜き出すと、リストになって入っているので、1個目のテーブルを指定するときは、上のコードのように1としているという訳。
そして、何気にこのテーブル、セルの結合がヘッダーのところでしてあるんだけど、とりあえずそれでも読んでくれる。ただしヘッダーは結合されたセルがヘッダーになってるので、そこを修正している。
とりあえず、これはちょこちょこ使いそうなので、メモ。
ここ2ヶ月ほど、Pythonの学習が止まってしまった。またぼちぼち始めなくては・・・