【統計】分散とは

分散とは

分散(variance)とは、データのばらつきの大きさを表す値です。分散を使うことで、データ全体がどの程度平均値から離れて分布しているかを調べることができますので、データの特性を理解したいときに活用できます。分散が小さいとデータは平均値に近く集まっていることを表し、分散が大きいと、データが平均値から離れてひろがっていることを表します。

分散の求め方

分散は、偏差(それぞれの数値と平均値の差)を二乗し、それらを足し合わせデータの個数で割ることで求められます。

そのため、分散は以下の式で表せます。

Pythonで分散を求める

Pythonで分散を求めるには、それぞれの数値と平均値の差を二乗し、それらを足し合わせデータの個数で割ることで求められます。

scores = [90,80,40,60,90]
s = sum(scores)
N = len(scores)
mean = s // N

V1 = 0
for i in scores:
	V1 = V1 + (1/len(scores)) * (i - mean)**2

print(V1) # 376.0

上記のように、式になぞって独自の関数を作成する以外にも、numpyのvar()を利用することでも分散を計算できます。

import numpy as np
scores = [90,80,40,60,90]
# 分散(variance)
v = np.var(scores)
print("分散", v) # 分散 376.0

Pythonや統計を効率よく学ぶには?

Pythonや統計を効率よく学ぶには、普段からPythonや統計学を用いて業務をしている現役のデータサイエンティストに質問できる環境で学ぶことです。
質問し放題かつ、体系的に学べる動画コンテンツでデータ分析技術を学びたい方は、オンラインで好きな時間に勉強できるAI Academy Bootcampがオススメです。受講料も業界最安値の35,000円(6ヶ月間質問し放題+オリジナルの動画コンテンツ、テキストコンテンツの利用可能)なので、是非ご活用ください。