データ理解を進めるグラフの着目ポイント【Level / Trend / Variability】

グラフを出された時に、皆さんはまず何から着目しますか?

この記事では、そんな時に着目すべきポイントを3つ紹介していきます。

着目すべき3つのポイント

グラフを眺める時、次の三つに着目すると、データ理解を進めることができます。

  1. Level / 値の大きさ
  2. Trend / 傾向
  3. Variability / ばらつき

より具体的に上記の3つを理解しやすい図は下記の通りです。

from turtle import width
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame(
    {
        "level": [68, 70, 67, 70, 75, 70],
        "trend": [30, 50, 60, 80, 90, 110,],
        "variability": [40, 110, 50, 90, 30, 100],
    },
    index=["4月", "5月", "6月", "7月", "8月", "9月"])

plt.rcParams["font.size"] = 20
fig, axes = plt.subplots(1, 3, figsize=(30, 8))
for index, col_name in enumerate(df):
    axes[index].plot(df.index, df.loc[:, col_name], marker="o", color="k", markersize=10 , linewidth=5)
    axes[index].set_ylim([0, 120])
    axes[index].set_xlabel("月")
    axes[index].set_ylabel("本の売上数(冊)")

ここからより詳しく各工程でどのような視点を持ってグラフからデータ理解するかを説明していきます。

1. Level / 値の大きさ

まず、Levelでは値の大きさを確認していきます。

具体的には、次のような視点で考察をしていきます。

  • どれくらいの範囲の値をとっているのか?
  • その値のオーダーは妥当なのか?
  • 上限値や下限値などは存在するか?

場合によっては、正常値の範囲を調査して、データ収集の段階で桁がずれていたということが発覚することもあります。そのため、この工程はとても重要になります。

2. Trend / 傾向

次に、Trendではデータ変動の傾向を確認していきます。

具体的には、次のような視点で考察をしていきます。

  • 増加傾向もしくは減少傾向のあるか?
  • 周期はあるか?
  • データ区間によって傾向の違いはあるか?

この工程は、まず目視で定性的に確認するだけでも大丈夫です。そこで、仮説が得られたとしたら、それを検証するような実験や統計的仮説検定を実施するとなお良いでしょう。

3. Variability / ばらつき

最後に、Variabilityではデータのばらつきを確認していきます。

具体的には、次のような視点で考察をしていきます。

  • 分散の大きさは?
  • 信頼区間もしくは信用区間の範囲は?
  • どのデータ区間でも分散は一定か?

特定の事象がどれほどブレなく生じているを知ることで、その事象の不確実性を簡易的に理解することができます。

最後に

いかがだったでしょうか?

もしもこの記事を通して、これからデータを眺める時に役立てば幸いです。

この他にも、Twitterにて「データサイエンティスト / エンジニアに役立つ情報を発信中」です。

参考文献

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA