ペンギンデータセットで機械学習/データサイエンスをはじめよう〜ダウンロード編【Python/palmerpenguins】

2021-09-03
Main Image

目次

こんにちは。

さて、データサイエンスに精通している皆さんなら既にご存知だと思いますが、機械学習の入門に使用する代表的なデータセットと言えば一昔前まではアイリスデータセットが有名でしたが、近年はペンギンデータセットが代表的な存在となりつつあります。(嘘を嘘とry)

そんなわけで今回は機械学習の初学者が学ぶべきペンギンデータセットでデータサイエンスとはなんたるかの基礎をおさらいしましょう。

という記事です。

よろしく。

ちなみに本記事ではプログラムにPython3を使います。

今回は第一弾として、データのダウンロードをします。第二弾で加工を行いますが、まずは生データをダウンロードしてみましょう。

まずはペンギンデータセット(palmerpenguins)を知ろう。

こちらが件のpalmerpenguins

https://allisonhorst.github.io/palmerpenguins/

冒頭に偉大なる使命を記した一文。

The goal of palmerpenguins is to provide a great dataset for data exploration & visualization, as an alternative to iris.

カッコよすぎな件。ついていきます、兄貴。

データセットには、3種類のペンギンたちが登場します。

3種類のペンギンたち

ヒゲペンギン、ジェンツーペンギン、アデリーペンギン。

ちなみにデータセットの名前についているPalmerとはパーマー半島のことで、南極にある地域の名前です。つまり、分析として使うのはこのパーマー半島のペンギンの調査データです。

データセットには、嘴の長さ、嘴の太さ、フリッパーの長さ、性別、種類などが入っています。

ちなみにフリッパーとは羽のことです。羽というか手?

ペンギンデータセットのダウンロード

で、Pythonで使うにはまずデータをロードする。Github(https://github.com/allisonhorst/palmerpenguins)のdata-raw/penguins.RにRのコードがあるので、こちらを参考にPythonでデータフレームにロードします。

import pandas as pd

url = [
  # Adelie penguin data
  'https://portal.edirepository.org/nis/dataviewer?packageid=knb-lter-pal.219.3&entityid=002f3893385f710df69eeebe893144ff',
  # Gentoo penguin data
  'https://portal.edirepository.org/nis/dataviewer?packageid=knb-lter-pal.220.3&entityid=e03b43c924f226486f2f0ab6709d2381',
  # Chinstrap penguin data
  'https://portal.edirepository.org/nis/dataviewer?packageid=knb-lter-pal.221.2&entityid=fe853aa8f7a59aa84cdd3197619ef462',
]

df = pd.concat([
  pd.read_csv(url[0]),
  pd.read_csv(url[1]),
  pd.read_csv(url[2])
])

今後はローカルで使いたいのでCSVファイルに書き出しておきます。

df.to_csv('penguins_raw.csv')

生データなのでraw

palmerpenguinsのデータを確認・加工する

さて、ダウンロードしたはよいものの、どんなデータが入っているのか気になりますね。

以下の記事にデータの確認と加工方法をまとめました。

ペンギンデータセットでデータエンジニアリングの基礎を学ぼう【Python/Pandas/palmerpenguins】

続きは↑をどうぞ。

まとめ

というわけで機械学習データセットの定番、palmerpenguinsの生データをダウンロードしました。

続きの記事でデータ加工が学べますので、ぜひこちらも御覧ください〜

みんなでペンギンデータセットを盛り上げていきましょう!

ads【オススメ】未経験からプログラマーへ転職できる【GEEK JOBキャンプ】
▼ Amazonオススメ商品
ディスプレイライト デスクライト BenQ ScreenBar モニター掛け式
スマートLEDフロアライト 間接照明 Alexa/Google Home対応

Author

Penta

都内で働くITエンジニアもどき。好きなものは音楽・健康・貯金・シンプルでミニマルな暮らし。AWSクラウドやデータサイエンスを勉強中。学んだことや体験談をのんびり書いてます。TypeScript / Next.js / React / Python / AWS / インデックス投資 / 高配当株投資 More profile

Location : Tokyo, JPN

Contact : Twitter@penguinchord

Recommended Posts

Copy Right / Penguin Chord, ペンギンコード (penguinchord.com) 2022 / Twitter@penguinchord