データ理解を進めるグラフの着目ポイント【Level / Trend / Variability】

はじめまして、データサイエンティストのますみです!

グラフを出された時に、皆さんはまず何から着目しますか?

この記事では、そんな時に着目すべきポイントを3つ紹介していきます。

着目すべき3つのポイント

グラフを眺める時、次の三つに着目すると、データ理解を進めることができます。

  1. Level / 値の大きさ
  2. Trend / 傾向
  3. Variability / ばらつき

より具体的に上記の3つを理解しやすい図は下記の通りです。

from turtle import width
import pandas as pd
import matplotlib.pyplot as plt

df = pd.DataFrame(
    {
        "level": [68, 70, 67, 70, 75, 70],
        "trend": [30, 50, 60, 80, 90, 110,],
        "variability": [40, 110, 50, 90, 30, 100],
    },
    index=["4月", "5月", "6月", "7月", "8月", "9月"])

plt.rcParams["font.size"] = 20
fig, axes = plt.subplots(1, 3, figsize=(30, 8))
for index, col_name in enumerate(df):
    axes[index].plot(df.index, df.loc[:, col_name], marker="o", color="k", markersize=10 , linewidth=5)
    axes[index].set_ylim([0, 120])
    axes[index].set_xlabel("月")
    axes[index].set_ylabel("本の売上数(冊)")

ここからより詳しく各工程でどのような視点を持ってグラフからデータ理解するかを説明していきます。

1. Level / 値の大きさ

まず、Levelでは値の大きさを確認していきます。

具体的には、次のような視点で考察をしていきます。

  • どれくらいの範囲の値をとっているのか?
  • その値のオーダーは妥当なのか?
  • 上限値や下限値などは存在するか?

場合によっては、正常値の範囲を調査して、データ収集の段階で桁がずれていたということが発覚することもあります。そのため、この工程はとても重要になります。

2. Trend / 傾向

次に、Trendではデータ変動の傾向を確認していきます。

具体的には、次のような視点で考察をしていきます。

  • 増加傾向もしくは減少傾向のあるか?
  • 周期はあるか?
  • データ区間によって傾向の違いはあるか?

この工程は、まず目視で定性的に確認するだけでも大丈夫です。そこで、仮説が得られたとしたら、それを検証するような実験や統計的仮説検定を実施するとなお良いでしょう。

3. Variability / ばらつき

最後に、Variabilityではデータのばらつきを確認していきます。

具体的には、次のような視点で考察をしていきます。

  • 分散の大きさは?
  • 信頼区間もしくは信用区間の範囲は?
  • どのデータ区間でも分散は一定か?

特定の事象がどれほどブレなく生じているを知ることで、その事象の不確実性を簡易的に理解することができます。

最後に

いかがだったでしょうか?
この記事を通して、少しでもあなたの困りごとが解決したら嬉しいです^^

おまけ(お知らせ)

エンジニアの仲間(データサイエンティストも含む)を増やしたいため、公式LINEを始めました🎉

「一緒に仕事をしてくれる方」「友だちとして仲良くしてくれる方」は、友だち追加をしていただけますと嬉しいです!
(仲良くなった人たちを集めて、「ボードゲーム会」や「ハッカソン」や「もくもく会」もやりたいなと考えています😆)

とはいえ、みなさんにもメリットがないと申し訳ないので、特典を用意しました!

友だち追加後に、アンケートに回答してくれた方へ「エンジニア図鑑(職種20選)」のPDFをお送りします◎

参考文献

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA