統計量(基本統計量)とは
統計量とは、そのデータの代表する値で、データの特徴を把握する手段の一つ。
統計量には以下のようなものが挙げられます。
平均値
最小値
最大値
中央値
最頻値
平方和
分散
標準偏差
上記の基本統計量には、大きく代表値と散布度に大別できます。
代表値とは、データ全体を表す値で、平均値、最小値、最大値、中央値、最頻値が該当します。
散布度とは、データの散らばりを表す値で、分散、標準偏差、範囲、歪度、尖度などが該当します。
平均値
データの合計を個数で割った値。
最小値
データに含まれる最も小さい値。
最大値
データに含まれる最も大きい値。
範囲(レンジ)
最大値と最小値の差。
中央値
標本群を昇順(小さいものから大きいもの順)に並べたとき中央に位置する値。
平方和
個々のデータと平均値の差を二乗した値の和
分散
平方和を(n-1)で割ったもの。
標準偏差
分散の平方根。
統計量をPythonで実装する
Pythonでの実装方法は次の通りです。
import numpy as np
twitter = np.array([180, 80, 30, 50, 210])
facebook = np.array([100, 120, 100, 120, 110])
# 平均値を計算
t_mean = np.mean(twitter)
f_mean = np.mean(facebook)
# 最小値を計算
t_minimum = np.min(twitter)
f_minimum = np.min(facebook)
# 最大値を計算
t_maximum = np.max(twitter)
f_maximum = np.max(facebook)
# 範囲を計算
t_range = t_maximum - t_minimum
f_range = f_maximum - f_minimum
# 中央値を計算
t_median = np.median(twitter)
f_median = np.median(facebook)
print("平均値(Twitter, Facebook):(" + str(t_mean) + "," + str(f_mean) + ")")
print("最小値(Twitter, Facebook):(" + str(t_minimum) + "," + str(f_minimum) + ")")
print("最大値(Twitter, Facebook):(" + str(t_maximum) + "," + str(f_maximum) + ")")
print("範囲(Twitter, Facebook):(" + str(t_range) + "," + str(f_range) + ")")
print("中央値(Twitter, Facebook):(" + str(t_median) + "," + str(f_median) + ")")
# 出力結果
"""
平均値(Twitter, Facebook):(110.0,110.0)
最小値(Twitter, Facebook):(30,100)
最大値(Twitter, Facebook):(210,120)
範囲(Twitter, Facebook):(180,20)
中央値(Twitter, Facebook):(80.0,110.0)
"""
分散と標準偏差をPythonで求める
データのばらつきを表す基本統計量(分散、標準偏差)をPythonで求めてみましょう。
import numpy as np
twitter = np.array([180, 80, 30, 50, 210])
facebook = np.array([100, 120, 100, 120, 110])
# 分散を計算
t_var = np.var(twitter)
f_var = np.var(facebook)
# 標準偏差を計算
t_std = np.std(twitter)
f_std = np.std(facebook)
print("分散(Twitter, Facebook):(" + str(t_var) + "," + str(f_var) +")")
print("標準偏差(Twitter, Facebook):(" + str(t_std) + "," + str(f_std) +")")
# 出力結果
"""
分散(Twitter, Facebook):(5160.0,80.0)
標準偏差(Twitter, Facebook):(71.8331399843,8.94427191)
"""
Pythonやデータ分析を効率よく学ぶには?
データ分析を効率よく学ぶには、普段からPythonを利用している現役のデータサイエンティストや機械学習エンジニアに質問できる環境で学ぶことです。
質問し放題かつ、体系的に学べる動画コンテンツでデータ分析技術を学びたい方は、オンラインで好きな時間に勉強できるAI Academy Bootcampがオススメです。受講料も業界最安値の35,000円(6ヶ月間質問し放題+オリジナルの動画コンテンツ、テキストコンテンツの利用可能)なので、是非ご活用ください。
[…] 基本統計量とは […]