반응형
Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

Hellow gyu`s world

[정규분포]Excel로 Histogram 그리고 정규분포선 추가하기. 본문

데이터 분석

[정규분포]Excel로 Histogram 그리고 정규분포선 추가하기.

규팍규 2019. 4. 10. 19:19
반응형

RAW DATA : 대학교 수업 시간에 제공받은 아파트 DATA

먼저 raw_data를 살펴보면 굉장히 간단하다.

Tartget을 총 3개( 하한,상한,중간값)으로 잡을 수 있고 건설업체의 경우만 factor로 전처리하여 나머지 변수들을 그대로 사용하여 간단한 다중회귀분석이나 디시젼트리를 구현할 수 있을것 같다.

하지만 지금은 평수에 관한 histogram과 정규분포선을 그릴것이므로 평수에만 초점을 맞추겠다.

 

Excel

  먼저 히스토그램을 그리기 위해서는 계급구간의 도수분포표를 만들어야한다. 도수분표포를 만들기 위해

최대값, 최소값, 평균값, 표준편차를 구할것이다

 최대값 : =MAX(구간)    /     최소값 : =MIN(구간)    / 평균값 : =AVERAGE(구간)  / 표준편차 : =STDEV.P(구간)

샘플을 뽑아낸게 아닌 이 자료에 있는 모든 평수를 이용하는것이기때문에 나는 전수조사로 파악하여 모집단의 표준편차를 구하는 STDEV.P 함수를 사용하였다.

이제 좌측의 표를 구할것인데 계급구간은 (최대값 - 최소값) / 구간의 개수 로 구해줘야하지만

이 rawdata의 경우 사실 약 250개 정도밖에 안되는 작은 값이라 최대 최소 평균을 보고 임의로 계급구간을 설정해주었다. 빈도수를 구하는 함수는 COUNTIFS함수를 사용하였다.

최소평수가 14, 최대평수가 80인걸 고려하여

 =COUNTIFS(평수,">="&계급구간_01, 평수,"<"&계급구간_02)

이렇게 사용하였고, 계급구간 마지막표에는 90을 적어서 에러가 나지 않게 하였다.

그럼 이제 도수분포표가 완성이 되었고, 정규분포선을 그리기 위해 정규분포를 구하였다.

함수는 =NORM.DIST(계급구간,$평$균,$S$D, 0) 을 이용하였다. 그럼 좌측의 표가 완성된다.

이제 히스토그램과 정규분포선을 먼저 그려보면

 

HISTOGRAM + 정규분포선

이렇게 나온다. 구하는 법을 이야기하기 전에 먼저 그래프에 대해 이야기를 하면 사실 정규분포선을 안 그려도 이 자료는 정규분포가 아니라는것을 알 수 있다......ㅜㅜ

 먼저 히스토그램을 그리는 법은 매우 간단하다. 도수분표표를 선택하고 차트를 누르면 세로막대차트가 나온다. 그걸 선택 한 후 TITLE과 X축 Y축만 잘 설정해주면 끝이다. 그다음 정규분포선을 그리는법은 HISTOGRAM이 나오면 HISTOGRAM의 막대기를 선택하고, 우클릭을 하여 데이터를 추가한다. 이름은 정규분포 내용은 정규분포값을 선택한다. 그 이후 계열옵션 -> 데이터계열옵션지정에서 보조축으로 선택하고, 다시 막대기를 우클릭하여 데이터를 혼합(막대+선)으로 선택해주면 된다. 매우간단하다~~! 

 

반응형