ペンギンデータセットで機械学習/データサイエンスをはじめよう〜ダウンロード編【Python/palmerpenguins】
目次
こんにちは。
さて、データサイエンスに精通している皆さんなら既にご存知だと思いますが、機械学習の入門に使用する代表的なデータセットと言えば一昔前まではアイリスデータセットが有名でしたが、近年はペンギンデータセットが代表的な存在となりつつあります。(嘘を嘘とry)
そんなわけで今回は機械学習の初学者が学ぶべきペンギンデータセットでデータサイエンスとはなんたるかの基礎をおさらいしましょう。
という記事です。
よろしく。
ちなみに本記事ではプログラムにPython3を使います。
今回は第一弾として、データのダウンロードをします。第二弾で加工を行いますが、まずは生データをダウンロードしてみましょう。
まずはペンギンデータセット(palmerpenguins)を知ろう。
こちらが件のpalmerpenguins。
https://allisonhorst.github.io/palmerpenguins/
冒頭に偉大なる使命を記した一文。
The goal of palmerpenguins is to provide a great dataset for data exploration & visualization, as an alternative to iris.
カッコよすぎな件。ついていきます、兄貴。
データセットには、3種類のペンギンたちが登場します。

ヒゲペンギン、ジェンツーペンギン、アデリーペンギン。
ちなみにデータセットの名前についているPalmer
とはパーマー半島のことで、南極にある地域の名前です。つまり、分析として使うのはこのパーマー半島のペンギンの調査データです。
データセットには、嘴の長さ、嘴の太さ、フリッパーの長さ、性別、種類などが入っています。
ちなみにフリッパーとは羽のことです。羽というか手?
ペンギンデータセットのダウンロード
で、Pythonで使うにはまずデータをロードする。Github(https://github.com/allisonhorst/palmerpenguins)のdata-raw/penguins.R
にRのコードがあるので、こちらを参考にPythonでデータフレームにロードします。
import pandas as pd
url = [
# Adelie penguin data
'https://portal.edirepository.org/nis/dataviewer?packageid=knb-lter-pal.219.3&entityid=002f3893385f710df69eeebe893144ff',
# Gentoo penguin data
'https://portal.edirepository.org/nis/dataviewer?packageid=knb-lter-pal.220.3&entityid=e03b43c924f226486f2f0ab6709d2381',
# Chinstrap penguin data
'https://portal.edirepository.org/nis/dataviewer?packageid=knb-lter-pal.221.2&entityid=fe853aa8f7a59aa84cdd3197619ef462',
]
df = pd.concat([
pd.read_csv(url[0]),
pd.read_csv(url[1]),
pd.read_csv(url[2])
])
今後はローカルで使いたいのでCSVファイルに書き出しておきます。
df.to_csv('penguins_raw.csv')
生データなのでraw
。
palmerpenguinsのデータを確認・加工する
さて、ダウンロードしたはよいものの、どんなデータが入っているのか気になりますね。
以下の記事にデータの確認と加工方法をまとめました。
ペンギンデータセットでデータエンジニアリングの基礎を学ぼう【Python/Pandas/palmerpenguins】
続きは↑をどうぞ。
まとめ
というわけで機械学習データセットの定番、palmerpenguins
の生データをダウンロードしました。
続きの記事でデータ加工が学べますので、ぜひこちらも御覧ください〜
みんなでペンギンデータセットを盛り上げていきましょう!