*조건부 확률, 공분산에 대한 개념을 아셔야 이 포스팅*을 이해하실 수 있으실 겁니다.
유한 수정 계수 :
평균이 $\mu$, 분산이 $\sigma^2$인 "무한" 모집단에서 크기가 $n$인 표본을 추출 할 때의 표본평균의 분산은 $\frac{\sigma^2}{n}$ 이지만, 평균이 $\mu$, 분산이 $\sigma^2$이며, 크기가 $N$인 "유한" 모집단에서 크기가 $n$인 표본을 추출 할 때, 그 표본평균의 분산은 $\frac{N-n}{N-1} \frac{\sigma^2}{n}$입니다. 이때 $\frac{\sigma^2}{n}$ 의 앞에 붙는 계수인 $\frac{N-n}{N-1}$을 유한 수정 계수라고 합니다.
(모집단으로부터 크기가 n인 표본을 추출 할 때, 이는 복원 추출이 아닌 비복원 추출입니다. 예를 들어서, 명재와 동현이가 포함된 50명의 학급으로부터 표본 2명을 추출 시에, 표본을 이루는 원소로 이루어진 집합의 형태가 {명재, 동현}은 있지만 {명재, 명재}는 없을 테니깐요. 표본 내에 중복되는 원소가 없다는 뜻입니다.)
*확률 변수 $X_i = (\text{크기가 n인 표본을 추출하는 과정에서 i번째 뽑힌 원소})$라고 설정하고 이야기를 시작하겠습니다.(확률 변수 $X_i$는 이 포스팅 내에서 계속 쓸 것이기 때문에 잘 봐두세요!)
이에 대한 설명을 차근차근 이어나가려고 하는데, 아래와 같은 순서로 이어나가려고 합니다.
🔑1 : 무한모집단에서 크기가 n인 표본을 추출할 시, $i$번째 뽑히는 원소 $X_i$와 $j$번째 뽑히는 원소 $X_j$는 서로 독립이다.
🔑2 : 유한모집단에서 크기가 n인 표본을 추출할 시, $i$번째 뽑히는 원소 $X_i$와 $j$번째 뽑히는 원소 $X_j$는 서로 독립이 아니다.
🔑3 : 유한 수정 계수 증명 1
🔑4 : 유한 수정 계수 증명 2
시작해 보겠습니다😉
-🔑1 : 무한모집단에서 크기가 n인 표본을 추출할 시, $i$번째 뽑히는 원소 $X_i$와 $j$번째 뽑히는 원소 $X_j$는 서로 독립이다-
고등학교 확률과 통계에서 표본을 추출하는 것은 무한 모집단에서 표본을 추출하는 것이었습니다.
모집단으로부터 표본을 하나씩 차례차례 추출해 나간다고 할 때, 만약 모집단이 무한하다면,
하나 하나를 뽑아 나가더라도, 남아 있는 모집단 원소들의 평균과 분산(특성치들)이 변화하지 않을 것입니다.
어느 정도 직관적으로도 모집단의 특성치에 변화가 없을 것이라 예상되지만, 평균이 변하지 않는다는 것을 수학적으로 보여드리자면
$\lim_{N \to \infty} \frac{\sum_{k=1}^N x_k}{N} = \mu$일 때, 모집단을 구성하는 어떤 특정한 원소 $x_i$가 빠지더라도, $\lim_{N \to \infty} \frac{x_1 + x_2 + x_3 + \cdots + x_{i-1} + x_{i+1} + \cdots + x_N}{N} = lim_{N \to \infty} [\frac{\sum_{k=1}^N x_k}{N}-\frac{x_i}{N}] = lim_{N \to \infty} \frac{\sum_{k=1}^N x_k}{N} - lim_{N \to \infty} \frac{x_i}{N} = \mu - 0 = \mu$
여기서 $x_i$하나만 뽑지 않고, 크기가 n 유한한 표본을 추출하더라도 $\lim_{N \to \infty} \frac{\sum_{k=1}^n x_k}{N} =0$이 유한한 크기 n에 대하여 반드시 성립하므로, 추출하는 표본의 크기가 얼마나 되든, 남아있는 원소들(사실 남아있는 원소가 무한하므로 셀수가 없죠)의 평균이 $\mu$에서 변하지 않음을 알 수 있습니다. 같은 방법으로 분산 또한 변하지 않음을 보일 수 있죠.($\lim_{N \to \infty} \frac{(x_i-\mu)^2}{N} = 0$이니까요)
무한모집단에서 크기가 n인 표본을 추출 시에, $i$번째에 뽑히는 원소와 $j$번째에 뽑히는 원소가 서로 독립임을 가정 할 수 있기 때문에, 서로 독립인 두 확률변수 $X_1$, $X_2$에 대하여, $Var(X_1 + X_2) = Var(X_1) + Var(X_2)$가 성립하므로,
$Var(\bar{X}) = Var(\frac{X_1 + X_2 + \cdots + X_n}{n})= \frac{1}{n^2} Var(X_1 + X_2 + \cdots + X_n)$
$= \frac{1}{n^2}(Var(X_1) + Var(X_2) + \cdots + Var(X_n)) = \frac{1}{n^2} [ \sigma^2 + \sigma^2 + \cdots + \sigma^2]= \frac{1}{n^2} [n \sigma^2] = \frac{\sigma^2}{n}$
이 식이 고등학교 확률과 통계에서 배운 내용입니다.
-🔑2 : 유한모집단에서 크기가 n인 표본을 추출할 시, $i$번째 뽑히는 원소 $X_i$와 $j$번째 뽑히는 원소 $X_j$는 서로 독립이 아니다-
하지만 유한 모집단에서는 이야기가 다릅니다. 예를 들어서 크기가 100(=N)인 모집단에서 크기가 50(=n)인 표본을 추출 하는 경우를 생각해보죠. 크기가 50인 표본을 하나하나 차례로 추출 할 시에, 맨 처음 100명에서 표본 원소 1개를 추출할 때 그 원소가 가지는 수에 대한 기댓값과 분산, 표본 크기 50명 중 49명까지 추출을 하고, 남은 51명에서 마지막 표본 원소를 추출 할 때 그 원소가 가지는 수에 대한 특성치가 무조건 같을 것이라고 보장 할 수 없을 것입니다.
즉, $i<j$인 자연수 $i,j$에 대하여, 유한모집단으로부터 $i$번째에 뽑히는 원소 $X_i$와 $X_j$가 서로 독립이 아니라는 것입니다.
예를 들어 1,2,3,4,5 로 이루어진 모집단으로부터 크기가 2인 표본을 추출할 시에, 첫 번째로 뽑히는 원소 $X_1 = 5$이면, $X_2$는 절대로 5가 될 수 없습니다. 첫 번째로 뽑히는 원소가 무엇인지에 따라서, 두 번째로 뽑힐 수 있는 원소가 달라지고, 이는 즉 $X_2$는 $X_1$에 의해 영향을 받기에, $X_1$과 $X_2$는 독립이 아닙니다.
자연수 $i$, $j$ ($i < j$)에 대하여, $X_i$와 $X_j$가 서로 독립이 아님을 조건부 확률을 이용하여 증명해 보겠습니다.
크기가 N인 모집단 내에서 특정 원소 $x^{**}$, $x^*$에 대하여,
①$Pr(X_j = x^{**}, X_i = x^*)$,
②$Pr(X_j = x^{**}) \cdot Pr(X_i = x^*)$
두가지를 구해보겠습니다.(독립이라면, 이 둘이 같은 값을 가져야 하겠죠)
①$Pr(X_j = x^{**}, X_i = x^*) = \underline{Pr(X_j = x^{**} | X_i = x^*)} \cdot Pr(X_i = x^*)$
$Pr(X_j = x^{**} | X_i = x^*)$ 를 다음과 같이 구하겠습니다.
$$\therefore Pr(X_j = x^{**} | X_i = x^*) = \frac{{}_{N-2} {\rm P} {}_{j-2}}{{}_{N-1} {\rm P} {}_{j-2}} \cdot \frac{1}{N-j+1} = \frac{(N-2)!/(N-j)!}{(N-1)!/(N-j+1)!} \cdot \frac{1}{N-j+1}$$
$$ = \frac{(N-2)!(N-j+1)!}{(N-1)!(N-j)!} \cdot \frac{1}{N-j+1} = \frac{(N-2)!(N-j+1)!}{(N-1)!(N-j+1)!} = \frac{1}{N-1}$$
(확인 : 이 식에서 $\frac{{}_{N-2} {\rm P} {}_{j-2}}{{}_{N-1} {\rm P} {}_{j-2}}$는 $i$번째에 $x^*$가 있는 상황에서 $(j-1)$ 번째 까지 $x^{**}$가 등장하지 않는 확률을 의미하고,
$\frac{1}{N-j+1}$은 $j$ 번째에 $x^{**}$가 뽑힐 확률을 의미하는 것 이해하시죠?)
이렇게
$$Pr(X_j = x^{**} | X_i = x^*) = \frac{1}{N-1}$$
임이 밝혀졌습니다.
$Pr(X_i = x^*)$도 마저 구해보죠.
$Pr(X_i = x^*)$ => ($i-1$) 번째 까지 $x^*$가 뽑히지 않고, $i$ 번째에 $x^*$가 뽑힐 확률 = ($i-1$)개의 칸이 $x^*$를 제외한 값으로 채워지고, $i$번째 칸이 ($i-1$)번째 칸 까지 채워진 ($i-1$)개의 원소를 제외한 것들 중 $x^*$로 채워질 확률
$$Pr(X_i = x^*) = \frac{{}_{N-1} {\rm P} {}_{i-1}}{{}_{N} {\rm P} {}_{i-1}} \cdot \frac{1}{N-i+1} = \frac{(N-1)!/(N-i)!}{N!/(N-i+1)!} \cdot \frac{1}{N-i+1} = \frac{(N-1)!(N-i+1)!}{N!(N-i)!} \cdot \frac{1}{N-i+1} = \frac{1}{N}$$
$\therefore Pr(X_j = x^{**} | X_i = x^*) = \frac{1}{N-1}$ , $Pr(X_i = x^*) = \frac{1}{N}$
이렇게
①$Pr(X_j = x^{**}, X_i = x^*) = \underline{Pr(X_j = x^{**} | X_i = x^*)} \cdot Pr(X_i = x^*) = \frac{1}{N-1} \cdot \frac{1}{N} = \frac{1}{N(N-1)}$ 임이 밝혀졌습니다.
위의 과정에서 $Pr(X_i = x^*)$의 의미는 임의의 자연수 $i$에 대하여 $i$번째 뽑히는 표본 원소가 어떤 특정한 값일 확률을 의미하고, 이 식이 $i$의 값에 관계 없이 $\frac{1}{N}$의 확률 값을 가지므로, $Pr(X_i = x^*)$의 확률이나, $Pr(X_j = x^{**})$의 확률 모두 $\frac{1}{N}$의 값을 가지게 됩니다.
②$\therefore Pr(X_j = x^{**}) \cdot Pr(X_i = x^*) = \frac{1}{N} \cdot \frac{1}{N} = \frac{1}{N^2}$
결과적으로 $Pr(X_j = x^{**}, X_i = x^*) = \frac{1}{N(N-1)} \neq Pr(X_j = x^{**}) \cdot Pr(X_i = x^*) = \frac{1}{N^2}$
이렇게 유한 모집단에서 표본을 추출할 시에 $X_i$와 $X_j$가 독립이 아님임이 밝혀졌습니다.
아무튼 🔑2에서 결론적으로 나온 두개의 식
$Pr(X_k = x^*) = \frac{1}{N}$, $Pr(X_j = x^{**}, X_i = x^*) = \frac{1}{N(N-1)}$
은 아래 증명과정에서도 계속 쓸 것이라 반드시 이해하고 넘어가셔야 합니다.
🔑3 : 증명 1 : 유한모집단에서 추출한 표본평균 $\bar{X}$에 대하여, $Var(\bar{X})= \frac{N-n}{N-1} \frac{\sigma^2}{n}$
시작전 헷갈리지 말아야 할 점은, 크기가 N인 모집단을 원소나열법으로 표기하면 {$x_1$, $x_2$, $x_3$, $\cdots$, $x_N$}으로 나타낼 수 있고, 이 모집단으로부터 크기가 n인 표본을 차례로 추출 할 때, 확률변수 $X_i$는 $i$ 번째로 추출된 모집단의 원소입니다.
모집단의 원소들은 소문자 $x$, 표본 추출시 $i$ 번째로 추출되는 표본은 대문자 $X_i$입니다.
증명하기 위해서 몇가지 식을 미리 정리해두겠습니다.
먼저 기본적으로 모집단의 평균인 $\mu$와 분산 $\sigma^2$의 식을 정리해두면,(분산 식을 잘 보셔야합니다)
$\mu = E(X) = \frac{\sum_{k=1}^N x_k}{N}$,
$\sigma^2 = E(X^2)-[E(X)]^2 = \frac{\sum_{k=1}^N {x_k}^2}{N} - [\frac{\sum_{k=1}^N x_k}{N}]^2 = \frac{\sum_{k=1}^N {x_k}^2}{N} - \frac{(\sum_{k=1}^N x_k)^2}{N^2} = \frac{\sum_{k=1}^N {x_k}^2}{N} - \frac{(x_1 + x_2 + x_3 + \cdots + x_N)^2}{N^2} $
$= \frac{\sum_{k=1}^N {x_k}^2}{N} - \frac{{x_1}^2 + {x_2}^2 + \cdots + {x_N}^2 + 2(x_1 x_2 + x_1 x_3 + \cdots + x_1 x_N + \cdots + x_{N-1} x_N)}{N^2} = \frac{\sum_{k=1}^N {x_k}^2}{N} - \frac{\sum_{k=1}^N {x_k}^2 + 2 \sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}$
----------------------------------------------------------------------------------------------------------------------
*참고
여기서 $(x_1 + x_2 + x_3 + \cdots + x_N)^2 = \sum_{k=1}^N {x_k}^2 + 2 \sum_{j>i}^N \sum_{i=1}^N x_i x_j$으로 표기하는 것이 고등학교 과정에서는 잘 나오지 않는 표기 형태이기에 간단히만 설명드리겠습니다.(일일이 설명하려니깐 주제에서 벗어나는 설명이 너무 장황해지는 것 같아서..)
$(x_1 + x_2 + x_3 + \cdots + x_N)^2 = (x_1 + x_2 + x_3 + \cdots + x_N)(x_1 + x_2 + x_3 + \cdots + x_N)$
$ = {x_1}^2 + {x_2}^2 + \cdots + {x_N}^2 + (\underline{x_1 x_2 + x_2 x_1 + x_1 x_3 + x_3 x_1 + \cdots + x_1 x_N + x_N x_1 + \cdots + x_{N-1} x_N + x_N x_{N-1}})$
여기서 밑줄 친 $x_1 x_2 + x_2 x_1 + x_1 x_3 + x_3 x_1 + \cdots + x_1 x_N + x_N x_1 + \cdots + x_{N-1} x_N + x_N x_{N-1}$ 해당 부분을 두가지 방법으로 표현할 수 있습니다.
$$x_1 x_2 + x_2 x_1 + x_1 x_3 + x_3 x_1 + \cdots + x_1 x_N + x_N x_1 + \cdots + x_{N-1} x_N + x_N x_{N-1} = \sum_{j \neq i}^N \sum_{i=1}^N x_i x_j = 2 \sum_{j > i}^N \sum_{i=1}^N x_i x_j$$
여기서 첫번째 식 $\sum_{j \neq i}^N \sum_{i=1}^N x_i x_j = \sum_{j \neq i}^N x_j (\sum_{i=1}^N x_i) = \sum_{j \neq i}^N (x_1 x_j + x_2 x_j + x_3 x_j + \cdots + x_N x_j)$로 표현할 수 있고,
$\sum_{j \neq i}^N (x_1 x_j + x_2 x_j + x_3 x_j + \cdots + x_N x_j)$의 의미는 곱해져 있는 형태의 각 항 $x_1 x_j$, $x_2 x_j$, $\cdots$, $x_N x_j$ 들 내에서 앞에 곱해져 있는 $x_i$에서의 $i$값과 같지 않은 모든 1부터 N까지의 자연수를 $j$에 넣어 모두 합친다는 것을 의미합니다. 그래서,
$\sum_{j \neq i}^N (x_1 x_j + x_2 x_j + x_3 x_j + \cdots + x_N x_j) = \sum_{j \neq 1}^N x_1 x_j + \sum_{j \neq 2}^N x_2 x_j + \sum_{j \neq 3}^N x_3 x_j + \cdots + \sum_{j \neq N}^N x_N x_j$
$= (x_1 x_2 + x_1 x_3 + x_1 x_4 + \cdots + x_1 x_N) + (x_2 x_1 + x_2 x_3 + x_2 x_4 + \cdots + x_2 x_N)$
$+ (x_3 x_1 + x_3 x_2 + x_3 x_4 + \cdots + x_3 x_N) + \cdots + (x_N x_1 + x_N x_2 + x_N x_3 + \cdots + x_N x_{N-1})$
이렇게 표현이 됩니다.
이 전개식에서는 동류항이 각각 2개씩 쌍을 이루며 존재합니다.(예를 들어 첫 번째 괄호 안의 $x_1 x_3$와 세 번째 괄호 안의 $x_3 x_1$은 동류항이므로, 중복되는 항(동류항)이 2개로 쌍을 이룸)
마찬가지의 방법으로 두번째 식 $2 \sum_{j > i}^N \sum_{i=1}^N x_i x_j$를 $2 \sum_{j > i}^N (x_1 x_j + x_2 x_j + x_3 x_j + \cdots + x_N x_j)$로 풀어서 봤을 때,
$\sum_{j > i}^N (x_1 x_j + x_2 x_j + x_3 x_j + \cdots + x_N x_j)$의 의미는 곱해져 있는 형태의 각 항 $x_1 x_j$, $x_2 x_j$, $\cdots$, $x_N x_j$ 들 내에서 앞에 곱해져 있는 $x_i$에서의 $i$값보다 큰 모든 1부터 N까지의 자연수를 $j$에 넣어 모두 합친다는 것을 의미합니다. 그래서,
$2 \sum_{j > i}^N (x_1 x_j + x_2 x_j + x_3 x_j + \cdots + x_N x_j) = 2(\sum_{j > 1}^N x_1 x_j + \sum_{j > 2}^N x_2 x_j + \cdots + \sum_{j > N-1}^N x_{N-1} x_j + \sum_{j > N}^N x_N x_j)$
$= 2[(x_1 x_2 + x_1 x_3 + \cdots + x_1 x_N) + (x_2 x_3 + x_2 x_4 + \cdots + x_2 x_N) + \cdots + (x_{N-1} x_N) + 0]$의 형태로 정리됨을 알 수 있습니다.
이 전개식에서는 각 항끼리 중복되는 부분(합쳐지지 않은 동류항)이 없습니다.
또한 $2 x_i x_j$ 형태의 항의 갯수가 총 ${}_{N} {\rm C} {}_{2} = \frac{N(N-1)}{2}$개로 나타납니다. (서로 다른 N개 중 2개를 뽑는 경우의 수)
----------------------------------------------------------------------------------------------------------------------
이제 크기가 N인 모집단으로부터 크기가 n인 표본을 추출할 때 $k$번째로 추출되는 표본 원소의 확률변수 $X_k$에 대한 몇가지 식을 정리하겠습니다. 위에서 구한 $Pr(X_k = x^*)$ ($k$번째로 추출된 원소가 어떤 모집단의 특정 원소 $x^*$일 확률은) $k$의 값에 관계 없이 $\frac{1}{N}$임을 구했으므로,
$E(X_k) = \sum_{i=1}^N x_i Pr(X_k = x_i) = \sum_{i=1}^N x_i \cdot \frac{1}{N} = \mu$
즉 $k$번째로 추출된 원소의 기댓값은 모집단의 평균인 $\mu$와 동일합니다.
$Var(X_k) = E(X_k^2) - (E(X_k))^2 = \sum_{i=1}^N x_i^2 Pr(X_k^2 = x_i^2) - \mu^2 = \sum_{i=1}^N x_i^2 \cdot \frac{1}{N} - \mu^2 = \sigma^2$
$(\because Pr(X_k^2 = x_i^2) = Pr(X_k = x_i) = \frac{1}{N})$
$Cov(X_i, X_j) = E[(X_i-\mu_{X_i})(X_j-\mu_{X_j})] = E[X_i X_j - \mu_{X_i} X_j - \mu_{X_j} X_i + \mu_{X_i} \mu_{X_j}]$
$ = E[X_i X_j] - E[\mu_{X_i} X_j] - E[\mu_{X_j} X_i] + E[\mu_{X_i} \mu_{X_j}] = E[X_i X_j] - \mu_{X_i}E[X_j] - \mu_{X_j}E[X_i] + \mu_{X_i} \mu_{X_j}$
$= E[X_i X_j] - \mu E[X_j] - \mu E[X_i] + \mu^2 = E[X_i X_j] - \mu^2 -\mu^2 + \mu^2 = E[X_i X_j] - \mu^2$
$(\because \mu_{X_i} = \mu_{X_j} = E[X_i] = E[X_j] = \mu)$ (k번째로 뽑히는 원소의 평균이나 기댓값 모두 $i$, $j$값에 관계 없이 모집단의 평균 $\mu$와 같음)
$Cov(X_i, X_j) = E[X_i X_j] - \mu^2 = \frac{2}{N(N-1)}[\sum_{j>i}^N \sum_{i=1}^N x_i x_j] - \mu^2$
($ \because Pr(X_i X_j = x^* \cdot x^{**}) = Pr(X_i = x^*, X_j = x^{**}) + Pr(X_i = x^{**}, X_j = x^*) = \frac{1}{N(N-1)} + \frac{1}{N(N-1)} = \frac{2}{N(N-1)}$
$E[X_i X_j] = \sum_{j>i}^N \sum_{i=1}^N x_i x_j \cdot Pr(X_i X_j = x^* \cdot x^{**}) = \sum_{j>i}^N \sum_{i=1}^N x_i x_j \cdot \frac{2}{N(N-1)}$)
위의 과정으로 확률변수 $X_k$에 대한 식을 정리하면,
$$E(X_k)= \mu^2, Var(X_k)=\sigma^2, Cov(X_i,X_j) = \frac{2}{N(N-1)}[\sum_{j>i}^N \sum_{i=1}^N x_i x_j] - \mu^2$$
으로 정리되었습니다. 여기서 중요한 점은 $X_k$의 기댓값, 평균, 서로 다른 원소끼리의 공분산 모두 $i$, $j$값에 관계없이(몇 번째로 추출되었는지에 전혀 상관없이) 어떤 상수라는 것입니다. 공분산 식이 얼핏 보면 정해지지 않은 값으로 보일 수 있지만, 모집단의 원소는 정해진 상수들이고, 이 모집단의 서로 다른 두 원소를 택해서 곱한 것들을 모두 합친 것에 $\frac{2}{N(N-1)}$라는 상수를 곱하고, 거기서 모집단의 평균인 $\mu$라는 상수의 제곱을 뺀 것이니깐요.
이렇게 정리한 모든 식들에 대해서 정리하면,
**모집단의 평균과 분산에 대한 식으로 $\mu = \frac{\sum_{i=1}^N x_i}{N}$, $\sigma^2 = \frac{\sum_{k=1}^N {x_k}^2}{N} - \frac{\sum_{k=1}^N {x_k}^2 + 2 \sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}$
**확률변수 $X_k$에 대한 식으로 $E(X_k)= \mu^2, Var(X_k)=\sigma^2, Cov(X_i,X_j) = \frac{2}{N(N-1)}[\sum_{j>i}^N \sum_{i=1}^N x_i x_j] - \mu^2$
이렇게 다섯개의 "상수값"을 이용하여, 이제 정말로 $Var(\bar{X})$를 구하겠습니다.
$Var(X_1 + X_2 + X_3 + \cdots + X_n) = \sum_{i=1}^n Var(X_i) + 2 \cdot \sum_{j>i}^n \sum_{i=1}^n {\color{blue}Cov(X_i, X_j)}$
$= n\sigma^2 + 2\cdot {\color{blue}Cov(X_i, X_j)} \cdot {\color{red}\sum_{j>i}^n \sum_{i=1}^n (1)} = n\sigma^2 + 2 {\color{blue}[\frac{2}{N(N-1)}\sum_{j>i}^N \sum_{i=1}^N x_i x_j - \mu^2]} \cdot {\color{red}{\sum_{j>i}^n \sum_{i=1}^n (1)}}$
$=n\sigma^2 + 2 [\frac{2}{N(N-1)}\sum_{j>i}^N \sum_{i=1}^N x_i x_j - \mu^2] \cdot {\color{red}\frac{n(n-1)}{2}}= n\sigma^2 + n(n-1) \cdot [\frac{2}{N(N-1)}\sum_{j>i}^N \sum_{i=1}^N x_i x_j - \mu^2]$
여기서 $\mu^2 =(\frac{\sum_{i=1}^N x_i}{N})^2 = \frac{(\sum_{i=1}^N x_i)^2}{N^2} = \frac{\sum_{i=1}^N x_i^2 + 2 \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}$이므로 $\mu$의 자리에 해당 식을 대입하면,
$n\sigma^2 + n(n-1) \cdot [\frac{2}{N(N-1)}\sum_{j>i}^N \sum_{i=1}^N x_i x_j - \mu^2] = n\sigma^2 + n(n-1) \cdot [\frac{2}{N(N-1)}\sum_{j>i}^N \sum_{i=1}^N x_i x_j - \frac{\sum_{i=1}^N x_i^2 + 2 \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}]$
$= n\sigma^2 + n(n-1) \cdot \frac{2N \sum_{j>i}^N \sum_{i=1}^N x_i x_j - (N-1) \sum_{i=1}^N x_i^2 - 2(N-1)\sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2(N-1)}$
$= n\sigma^2 + \frac{n(n-1)}{(N-1)} \cdot [\frac{1-N}{N^2} \sum_{i=1}^N x_i^2 + \frac{2 \sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}] = n\sigma^2 + \frac{n(n-1)}{N-1} \cdot {\color{brown}[\frac{\sum_{i=1}^N x_i^2 + 2\sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2} - \frac{\sum_{i=1}^N x_i^2}{N}]}$
$ = n\sigma^2 + \frac{n(n-1)}{N-1} \cdot {\color{brown}[-\sigma^2]} = n\sigma^2 - n\sigma^2 \cdot \frac{n-1}{N-1} = n\sigma^2 \cdot (1-\frac{n-1}{N-1}) = n\sigma^2 \cdot \frac{N-n}{N-1}$
$$\therefore Var(\bar{X})= Var(\frac{X_1 + X_2 + \cdots + X_n}{n}) = \frac{1}{n^2} Var(X_1 + X_2 + \cdots + X_n) = \frac{1}{n^2} \cdot \frac{N-n}{N-1} \cdot n\sigma^2 = \frac{N-n}{N-1} \cdot \frac{\sigma^2}{n}$$
🔑4 : 증명 2 : 유한모집단에서 추출한 표본의 평균 $\bar{X}$에 대하여, $Var(\bar{X})= \frac{N-n}{N-1} \frac{\sigma^2}{n}$
위에서 했던 증명 1과 다르게, 확률변수 $X_k$에 대한 식을 정리하지 않고, 바로 $Var(\bar{X})$를 구할 수도 있습니다.
$\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}$ 이고, $E(\bar{X}) = \mu$임을 알고 있고, 분산 $Var(\bar{X}) = E(\bar{X}^2) - E(\bar{X})^2$ 이므로 여기서 $E(\bar{X}^2)$를 구해보죠
Step 1.
$E(\bar{X}^2) = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot [(\frac{x_1 + x_2 + \cdots + x_{n-1} + x_n}{n})^2 + (\frac{x_2 + x_3 + \cdots + x_{n} + x_{n+1}}{n})^2 + \cdots + (\frac{x_{N-n+1} + x_{N-n+2} + \cdots + x_N}{n})^2]$
위 식의 우변을 살펴보면, 대괄호 []안의 $(\frac{x_1 + x_2 + \cdots + x_{n-1} + x_n}{n})^2$ 각 항들은,
N개의 원소로 이루어진 모집단으로 부터 n개의 표본을 추출하는 경우, 모든 ${}_{N} {\rm C} {}_{n}$의 경우에서 나온 원소들에 대한 평균의 제곱 들의 합이라고 볼 수 있습니다.
모집단의 집합을 원소나열법으로 {$x_1, x_2, x_3, \cdots, x_N$}라고 나타냈을 때, n개의 원소를 추출하는 ${}_{N} {\rm C} {}_{n}$개의 경우들 중 한가지 경우인 $x_1, x_2, \cdots x_n$의 경우로 추출했다면,
$x_1, x_2, \cdots x_n$들의 평균 $\bar{X} = \frac{x_1 + x_2 + \cdots x_n}{n}$이 되고,
$\bar{X}^2 = (\frac{x_1 + x_2 + \cdots x_n}{n})^2$이 되며, 이렇게 $\bar{X}^2 = (\frac{x_1 + x_2 + \cdots x_n}{n})^2$이 될 확률은
(추출한 원소가 ($x_1$, $x_2$, $\cdots$, $x_n$)인 경우의 수)/(서로 다른 N개 중 n개를 뽑는 경우의 수) = $\frac{1}{{}_{N} {\rm C} {}_{n}}$이 됩니다.
그러므로 $E(\bar{X}^2) = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot [(\frac{x_1 + x_2 + \cdots + x_{n-1} + x_n}{n})^2 + (\frac{x_2 + x_3 + \cdots + x_{n} + x_{n+1}}{n})^2 + \cdots + (\frac{x_{N-n+1} + x_{N-n+2} + \cdots + x_N}{n})^2]$
이라는 식이 나왔고, 여기서 대괄호 [] 안의 $(\frac{x_1 + x_2 + \cdots + x_{n-1} + x_n}{n})^2$ 꼴의 항의 갯수는 총 ${}_{N} {\rm C} {}_{n}$개 입니다.
$$E(\bar{X}^2) = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot [(\frac{x_1 + x_2 + \cdots + x_{n-1} + x_n}{n})^2 + (\frac{x_2 + x_3 + \cdots + x_{n} + x_{n+1}}{n})^2 + \cdots + (\frac{x_{N-n+1} + x_{N-n+2} + \cdots + x_N}{n})^2]$$
Step 2.
$E(\bar{X}^2) = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot [(\frac{x_1 + x_2 + \cdots + x_{n-1} + x_n}{n})^2 + (\frac{x_2 + x_3 + \cdots + x_{n} + x_{n+1}}{n})^2 + \cdots + (\frac{x_{N-n+1} + x_{N-n+2} + \cdots + x_N}{n})^2]$
$ = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot \frac{1}{n^2} [(x_1 + x_2 + \cdots + x_{n-1} + x_n)^2 + (x_2 + x_3 + \cdots + x_{n} + x_{n+1})^2 + \cdots + (x_{N-n+1} + x_{N-n+2} + \cdots + x_N)^2]$
-위 식을 전개했을 때, $x_i$의 계수는 ${}_{N-1} {\rm C} {}_{n-1}$입니다.
(${}_{N} {\rm C} {}_{n}$)개의 항을 전개시 $x_i^2$은 $x_i$가 포함된 항으로부터 $x_i^2$ 형태로 나오므로, 위 (${}_{N} {\rm C} {}_{n}$)개 항 중 $x_i$를 포함하는 항의 갯수
=$N$개 중 특정 $x_i$를 포함하여 총 $n$개의 표본을 추출하는 경우의 수 = $x_i$를 뽑아 놓고, 나머지 $(N-1)$개 중 $(n-1)$개를 뽑는 경우의 수
=${}_{N-1} {\rm C} {}_{n-1}$)
-위 식을 전개 했을 때, $x_i x_j$ $(i \neq j)$ 의 계수는 $2 {}_{N-2} {\rm C} {}_{n-2}$입니다.
(${}_{N} {\rm C} {}_{n}$)개의 항을 전개시 $x_i x_j$ $(i \neq j)$는 $x_i$와 $x_j$를 포함하는 항으로 부터 $2 x_i x_j$의 형태로 나오므로,
위 (${}_{N} {\rm C} {}_{n}$)개 항 중 $x_i$와 $x_j$ 두 개를 포함하는 항의 갯수 = ${}_{N-2} {\rm C} {}_{n-2}$
$$\therefore (x_1 + x_2 + \cdots + x_{n-1} + x_n)^2 + (x_2 + x_3 + \cdots + x_{n} + x_{n+1})^2 + \cdots + (x_{N-n+1} + x_{N-n+2} + \cdots + x_N)^2$$
$$= {}_{N-1} {\rm C} {}_{n-1} \cdot \sum_{i=1}^N x_i^2 + 2 \cdot {}_{N-2} {\rm C} {}_{n-2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j $$
$$\therefore E(\bar{X}^2) = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot \frac{1}{n^2} [{}_{N-1} {\rm C} {}_{n-1} \cdot \sum_{i=1}^N x_i^2 + 2 \cdot {}_{N-2} {\rm C} {}_{n-2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j ]$$
Step 3.
$Var[\bar{X}] = E[\bar{X}^2]-(E[X])^2$ 식 정리하기
$Var[\bar{X}] = E[\bar{X}^2]-(E[X])^2 = \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot \frac{1}{n^2} [{}_{N-1} {\rm C} {}_{n-1} \cdot \sum_{i=1}^N x_i^2 + 2 \cdot {}_{N-2} {\rm C} {}_{n-2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j ] - \mu^2$
$= \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot \frac{1}{n^2} [{}_{N-1} {\rm C} {}_{n-1} \cdot \sum_{i=1}^N x_i^2 + 2 \cdot {}_{N-2} {\rm C} {}_{n-2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j ] - \frac{(\sum_{i=1}^N x_i)^2}{N^2}$
$= \frac{1}{{}_{N} {\rm C} {}_{n}} \cdot \frac{1}{n^2} [{}_{N-1} {\rm C} {}_{n-1} \cdot \sum_{i=1}^N x_i^2 + 2 \cdot {}_{N-2} {\rm C} {}_{n-2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j ] - \frac{\sum_{i=1}^N x_i^2 + 2 \sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}$
$=\frac{(N-n)!n!}{N!} \cdot \frac{1}{n^2} \cdot \frac{(N-1)!}{(N-n)!(n-1)!}\sum_{i=1}^N x_i^2 + 2 \cdot \frac{(N-n)!n!}{N!} \cdot \frac{1}{n^2} \cdot \frac{(N-2)!}{(N-n)!(n-2)!} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j$
$- \frac{1}{N^2} \cdot \sum_{i=1}^N x_i^2 - \frac{2}{N^2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j$
$= {\color{blue}\frac{1}{Nn} \cdot \sum_{i=1}^N x_i^2} {\color{red}+ \frac{2(n-1)}{N(N-1)n} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j} {\color{blue}- \frac{1}{N^2} \cdot \sum_{i=1}^N x_i^2} {\color{red}- \frac{2}{N^2} \cdot \sum_{j>i}^N \sum_{i=1}^N x_i x_j}$
$={\color{blue}\frac{N-n}{N^2n} \cdot [\sum_{i=1}^N x_i^2]} + {\color{red}\frac{2N(n-1)-2n(N-1)}{N^2(N-1)n}[\sum_{j>i}^N \sum_{i=1}^N x_i x_j]}$
$=\frac{1}{N^2(N-1)n} \cdot [(N-n)(N-1)\sum_{i=1}^N x_i^2 - 2(N-n)\sum_{j>i}^N \sum_{i=1}^N x_i x_j]$
$=\frac{N-n}{(N-1)n}[\frac{(N-1)\sum_{i=1}^N x_i^2}{N^2}-\frac{2\sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}] =\frac{N-n}{(N-1)n}[\frac{\sum_{i=1}^N x_i^2}{N} - \frac{\sum_{i=1}^N x_i^2 + 2\sum_{j>i}^N \sum_{i=1}^N x_i x_j}{N^2}]$
$=\frac{N-n}{(N-1)n}[\frac{\sum_{i=1}^N x_i^2}{N} - \frac{(\sum_{i=1}^N x_i)^2}{N^2}] = \frac{N-n}{(N-1)n}[\frac{\sum_{i=1}^N x_i^2}{N} - (\frac{\sum_{i=1}^N x_i}{N})^2]$
$= \frac{N-n}{(N-1)n} \cdot \sigma^2 = \frac{N-n}{N-1} \cdot \frac{\sigma^2}{n}$
$$\therefore Var[\bar{X}] = \frac{N-n}{N-1} \cdot \frac{\sigma^2}{n}$$
이렇게 증명을 마치겠습니다.
유한 수정 계수는 모집단의 크기(N)에 비해 추출되는 표본의 크기(n)가 무시할 수 없을 정도로 클 때 표본분산 앞에 붙여줌으로써 표본평균 추정의 정밀도를 높이는 데에 사용됩니다.
$\frac{N-n}{N-1} \leq 1$이므로, 유한 수정 계수를 표본 평균의 분산 $\frac{\sigma^2}{n}$앞에 곱해주면, 분산의 크기가 줄어들게 되므로, 동일 신뢰도 내에서 더 정밀한(구간의 크기가 더 작아지는) 신뢰구간을 얻을 수 있습니다.
-만약 모집단의 크기 $N=10000$이고, 추출되는 표본의 크기 $n=20$이라면, 유한 수정 계수의 값은 $\frac{10000-20}{10000-1} \approx 0.9980$으로, 표본 평균의 신뢰구간을 줄이는 데에 큰 기여를 하지 못하기 때문에 이런 경우에는 유한 수정 계수는 생략되기도 합니다.
-반면에 모집단의 크기 $N=10000$이고, 추출되는 표본의 크기 $n=2000$이라면, 유한 수정 계수의 값은 $\frac{10000-2000}{10000-1} \approx 0.8000$으로, 표본 평균의 신뢰구간의 크기가 꽤 고려할 만한 수준으로 줄어들기 때문에 이러한 경우에 유한 수정 계수를 고려하여 표본평균의 분산을 계산합니다.
일반적으로 모집단의 크기 대비 표본의 크기가 5% 이상일 때($\frac{n}{N} \geq 0.05$) 유한 수정 계수를 고려한 표본평균의 분산을 이용합니다.
사실 학부 과정에서 큰 비중으로 다루어지는 주제가 아니기에 제 교수님은 그냥 간단히 언급만 하고 넘어가셔서, 제 스스로 호기심이 들어서 증명해놓았던 것을 정리해서 올립니다.
충분히 고등학교 과정에서 배운 확률과 이항정리 개념만 가지고도 증명이 가능하기에(물론 식 정리하기가 쉽지만은 않지만요🥲), 가볍게 생각해본다는 느낌으로 한 번 봐주시면 좋을 것 같습니다.
이상 포스팅을 마치겠습니다.