データサイエンティスト

【初心者向け】データサイエンティスト python必要知識

データサイエンティスト
スポンサーリンク

データ分析する意味とは?

そもそもですが、なぜデータ分析をする必要があるのでしょうか?

まず、データ分析とは、数値等の情報を収集し、分類、整理、取捨選択し、価値のある意味を見出すです。

このデータ分析した結果より、客観的な情報に基づいた判断ができます。

例えば、あのレストラン美味しいと1人の友達が言っているのと100人の知らない人が食べログで星4をつけるのであれば、星4の方が客観的な判断と思えて、行きたくなりますよね!

そんな感じで、データ分析により、良い判断材料になると言えるでしょう(^ ^)

 

データサイエンティストとは

一般社団法人データサイエンティスト協会では以下のようになってます。

「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」

簡単にいうと、多くのデータを分析し、その結果をビジネスの課題等に利用するという感じです。

最近ではインタネット等の普及に伴い、さらに多くのデータを取得できる状況になったため、そのデータをどのように使うかが大事になってくると言われてます。

そのため、データ活用できる人材が必要になると言われてます。

経済産業省「ITベンチャー等によるイノベーション促進のための人材育成・確保モデル事業」の2018年の調査によると以下のような見込みが不足すると考えています。

 

2018 年2020 年2025 年2030 年
22 万人30 万人36 万人45 万人 

 

IT 人材需給の試算結果

このようにデータ分析人材の需要は今後も伸び続けると考えられます。

スポンサーリンク

データ分析の流れって?

それではどのようにデータ分析の流れを考えていきましょう。

 

① 課題は何かを把握する。

データ分析において、まず課題を見つけて、その課題改善のためにどのような情報が逆算することは多いと思います。

 

スポンサーリンク

② データ収集

どのようなデータが必要かすでにあるデータだけでいいのか、新たにデータが必要なのかを検討する必要があります。

 

③ データ分析の前処理

この前処理がデータ分析する上の一番のメインとなると思います。

完全なデータ(欠損、外れ値もない綺麗なデータ)は、ほぼないと思ってます。

分析できる用のデータに加工して行く必要があるのです。

 

④ データ分析

統計的な手法が必要だったりします。

例えば、相関関係、回帰分析等。

また最近ではデータ分析を効率化する手段として、GUIツールの活用やAzure等のクラウド上でできたり、色々な方法もあります。

 

 

 

pythonとデータ処理の流れ

データ分析をする際にpythonのライブラリを使うことがあると思いますが、どのような流れでどのライブラリを使うのかが私自身、あまり理解できていなかったので、まとめてみました!

データ処理と使用するpythonライブラリの関係を図でまとめました。

  1. データ入手とデータ前処理  ⇒使用するputhonライブラリ:NumPy/Pandas
  2. データ可視化        ⇒Matplotlib
  3. アルゴリズム選択・モデル構築⇒scikit-learn
  4. モデル精度評価       ⇒統計的評価

 

データ処理とライブラリの関係

 

こんなイメージでしょうか!

 

もしライブラリの特徴とかを知りたい方は以下の記事もみてみてください(^ ^)

関連記事

機械学習入門 便利な部品が入っている道具箱みたいなイメージです。Pythonには2つの種類のライブラリがあります。 標準ライブラリ:付属していてすぐに使え[…]

機械学習ライブラリ

 

まとめ

データ分析ってほとんどデータの前処理が必要なので、まず NumPy や Pandas を使いこなす事が必要なのかなと思いました。

あとは統計の知識も必要って事かなと!

 

それでは今日はここまで。

プログラミングを始めようと思った際は独学で勉強すると挫折する可能性が高いため、スクールも考えてもいいと思います!

データサイエンティストを目指すおすすめ

現役エンジニアから学ぶデータサイエンスコース  / データサイエンスの基礎「Pythonコース」
Excelでできる分析

「業務改善も何から始めていいのか、わからない」という声をお助け!
Excelからはじめるデータ分析ステップはこちらをご覧ください 

  

 

 

 

スポンサーリンク