【まとめ記事】 データサイエンティスト スキルチェックリストの用語の意味を調べてみる 【データサイエンス】
目次
こんにちは。
データサイエンスを勉強している一般人です。
データサイエンティスト協会なるところが「データサイエンティストスキルチェックリスト」なる資料を公開していました。
見てみると「なんか聞いたことある気がする」用語から「よくわからん!」用語まで色々書いてあったので、勉強がてらまとめてみようと思います。ググればすでにまとめている人もいそうですが、自分であれこれ調べて自分なりにまとめていきたいと思います。
ボリュームがかなり多いので何回かに記事を分ける予定です。
この記事群を読んでいけばデータサイエンティストという人材に求められている知識の片鱗がわかったり、データサイエンティストと名乗る人たちの会話に役立つかもしれません。何かのご参考に。
データサイエンティスト スキルチェックリストとは?
一般社団法人 データサイエンティスト協会という協会が公開している「データサイエンティストに必要とされるスキルをまとめた」資料。
初心者にとってはデータサイエンティストの全体像把握や勉強計画の参考になり、すでにある程度精通している方にとっても、客観的な評価やスキルアップの指針になるような構成としているようです。リーダーやマネージャーにとっては部下の育成にも使えそうですね。
年々改定されているようで、2021年11月に「Ver.4.00」が公開されました。
チェックリストの構成は「データサイエンス(DS)」「ビジネス(BZ)」「データエンジニア(DE)」という3つの分野があり、それぞれの項目数はDS:282、DE:159、BZ:131、合計572項目あります。また、各項目についている「★」マークの数でスキルレベルが表されています。
資料は以下ページ内のリンクからエクセルでダウンロードできます。
2021年度版「データサイエンティスト スキルチェックリストver.4」およびデータサイエンス領域タスクリスト ver.3」を発表
こんな感じの項目リスト。
「データサイエンス力」の用語の意味まとめ
基礎数学力
- 順列 - permutation / 組み合わせ - combination
- 条件付き確率 - conditional probability
- 期待値 - expected value
- 独立 - independence
- 分散 - variance
- 標準偏差 - standard deviation
- 四分位数 - quartile / パーセンタイル - percentile
- 母平均 - population mean
- 不偏分散 - unbiased variance
- 標準正規分布 - standard normal distribution
- 相関関係と因果関係 - correlation / causality
- 尺度水準 - scales of measurement
- ピアソンの相関係数 - Pearson correlation coefficient
- 確率分布 - probability distribution
- 二項分布 - binominal distribution
- ポアソン分布 - poisson distribution
- クラメールの連関係数 - Cramer's coefficient of association
- 指数関数 - exponential function
- 対数関数(log関数) - logarithm function
- ベイズの定理 - Bayes' theorem
- ベイズ推論 - Bayesian inference / ベイズ推定 - Bayesian estimation
- 自己情報量 - self-information
- エントロピー - entropy
- カルバック・ライブラー情報量 - Kullback–Leibler divergence
- フィッシャー情報量 - Fisher information
- 尤度 - likelihood / 尤度関数 - likelihood function
- 最尤推定 - maximum likelihood estimation
- 十分統計量 - sufficient statistic
- フィッシャー・ネイマンの分解定理 - Fisher–Neyman factorization theorem
その他
絶賛執筆中。記事が増えたらここに追加します。Stay tuned!
まとめ
というわけで、データサイエンティスト協会が公開している「データサイエンス スキルチェックリスト」についてご紹介しました。
用語の意味については調べて記事にまとめていきます。
知識チェックリストではなく「スキル」チェックなので、実践に活用できて意味があると思いますが、このシリーズを通して前提知識を装備していきたいです。
それでは〜
関連記事
他にもデータサイエンスに役立つかもしれない記事を書いてます。よければご参考に!
ペンギンデータセットでデータサイエンス入門 〜 機械学習の基本・単回帰編【Python/scikit-learn/教師あり学習】