- お役立ち記事
- データ分析で用いられるPandas、MatplotlibおよびSeabornによるデータの可視化
データ分析で用いられるPandas、MatplotlibおよびSeabornによるデータの可視化
目次
Pandasによるデータ分析の基本
データ分析の世界では、Pandasは非常に重要な役割を果たしています。
Pythonのデータ操作ライブラリであるPandasを使うことにより、大量のデータを効率的に操作し、分析することが可能になります。
Pandasでは、構造化データを扱う機能が豊富に揃っており、特にデータフレーム(DataFrame)という二次元配列形式が多く利用されています。
データのフィルタリング、ソート、集計、欠損値の処理など、日常的なデータ操作はPandasで簡単に実現できます。
Pandasを使ったデータフレームの作成
データフレームの作成はPandasの基本機能です。
まず、PythonにPandasをインストールし、CSVやExcelファイルからデータを読み込めば、すぐにデータフレームを作成できます。
例えば、以下のようなコードでCSVからデータを読み込みます。
“`python
import pandas as pd
data = pd.read_csv(‘data.csv’)
print(data.head())
“`
このコードは、CSVファイルを読み込み、データフレームとして表示します。
`head()`メソッドを使えば、データの最初の5行を確認できます。
データフィルタリングと操作
Pandasを使用すると、データのフィルタリングや特定の条件に基づいた操作が容易にできます。
例えば、特定の列の値が一定の条件を満たす行だけを選びたい場合、以下のようにコードを書きます。
“`python
filtered_data = data[data[‘column_name’] > value]
“`
このコードで、`column_name`が`value`より大きい行をフィルタリングできます。
データの操作は、例えば新しい列を追加したり、既存の列のデータを更新したりする操作もPandasで簡単に実現します。
Matplotlibによるグラフの作成
Matplotlibは、Pythonにおける非常に柔軟なデータビジュアライゼーションライブラリです。
ラインチャート、ヒストグラム、散布図、棒グラフなど、さまざまなグラフを作成できます。
基本的なラインチャートの作成
ラインチャートを作成するためには、まずMatplotlibをインストールし、使用を開始する必要があります。
以下のコード例では、簡単なラインチャートを作成します。
“`python
import matplotlib.pyplot as plt
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
plt.plot(x, y)
plt.title(‘Simple Line Chart’)
plt.xlabel(‘X-axis’)
plt.ylabel(‘Y-axis’)
plt.show()
“`
このコードを実行すると、x軸とy軸に基づいたシンプルなラインチャートが描かれます。
カスタマイズとアノテーション
Matplotlibでは、グラフのカスタマイズも非常に簡単です。
例えば、異なる色やマーカーを指定することで、視覚的な魅力を持たせることができます。
“`python
plt.plot(x, y, marker=’o’, linestyle=’–‘, color=’r’)
“`
また、アノテーションを追加することで、グラフに重要な情報を盛り込むことも可能です。
これにより、データの洞察をより明確に伝えることができます。
Seabornによる高度なデータビジュアライゼーション
SeabornはMatplotlibの拡張機能を提供するPythonのデータビジュアライゼーションライブラリです。
統計的データを美しく、かつ容易に視覚化することができ、データ分析者に人気があります。
Seabornでのヒートマップ作成
ヒートマップは、データの密集度や相関関係を視覚化するのに役立つグラフィックです。
以下の例では、Seabornを用いてヒートマップを作成します。
“`python
import seaborn as sns
import numpy as np
data = np.random.rand(10, 12)
sns.heatmap(data, annot=True, cmap=’coolwarm’)
plt.title(‘Heatmap Example’)
plt.show()
“`
このコードは、ランダムに生成した10×12の行列データからヒートマップを生成します。
`annot=True`パラメータにより、各セルに数値を表示することも可能です。
ペアプロットによる多変量データの視覚化
ペアプロットは、多変量データの関係性を視覚的に表す優れた方法です。
Seabornにより、すべての変数ペア間の散布図を一度に作成することが可能です。
“`python
sns.pairplot(data=data_frame)
plt.show()
“`
こうしたプロットを用いることで、データ間の相関や分布、潜在的な外れ値を視覚的に把握することができます。
Pandas、Matplotlib、Seabornの統合
これらのツールを統合して使用することで、強力なデータ分析および可視化機能を提供でき、実用的でインサイトに富んだレポートの作成を行うことができます。
データのクリーニング、変換、可視化といった一連のプロセスをスムーズに実行できるよう、個々の特性を理解し、適切な場面で組み合わせて使用することが重要です。
統合の基本的な流れの例
1. データのロードと前処理:
“`python
import pandas as pd
data = pd.read_csv(‘data.csv’)
data.dropna(inplace=True) # 欠損値の削除
“`
2. 基本的な統計分析:
“`python
print(data.describe())
“`
3. データの視覚化:
“`python
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(data[‘column_name’], kde=True)
plt.show()
“`
この流れを把握することで、データ分析能力は格段に向上し、ビジネスにおける意思決定がより科学的な根拠に基づいて行えるようになります。
資料ダウンロード
QCD調達購買管理クラウド「newji」は、調達購買部門で必要なQCD管理全てを備えた、現場特化型兼クラウド型の今世紀最高の購買管理システムとなります。
ユーザー登録
調達購買業務の効率化だけでなく、システムを導入することで、コスト削減や製品・資材のステータス可視化のほか、属人化していた購買情報の共有化による内部不正防止や統制にも役立ちます。
NEWJI DX
製造業に特化したデジタルトランスフォーメーション(DX)の実現を目指す請負開発型のコンサルティングサービスです。AI、iPaaS、および先端の技術を駆使して、製造プロセスの効率化、業務効率化、チームワーク強化、コスト削減、品質向上を実現します。このサービスは、製造業の課題を深く理解し、それに対する最適なデジタルソリューションを提供することで、企業が持続的な成長とイノベーションを達成できるようサポートします。
オンライン講座
製造業、主に購買・調達部門にお勤めの方々に向けた情報を配信しております。
新任の方やベテランの方、管理職を対象とした幅広いコンテンツをご用意しております。
お問い合わせ
コストダウンが利益に直結する術だと理解していても、なかなか前に進めることができない状況。そんな時は、newjiのコストダウン自動化機能で大きく利益貢献しよう!
(Β版非公開)