이런 책도 읽고 정리해 볼 수 있음을 증거로 남깁니다. 밑 줄 가져와 보겠습니다.
6 시그마 101가지 이야기
Q33 Gage R&R 시 5.15를 곱하는 이유
Gage R&R 시 5.15를 곱하는 이유는 측정 시스템의 변동으로 인해 발생하는 분포의 99%를 포함하는 구간과 제품의 Tolerance를 비교하기 위해서다.
표준편차는 평균적인 산포를 나타내는 값이다. 그러나 우리가 Gage R&R에서 비교하고자 하는 것은 측정 시스템에서 발생하는 변동의 구간이다. 즉, Cp값을 구할 때 분모에 ± 3 sigma로 나누어주는 이유와 동일하다. 단지 Cp값은 산포의 범위를 99.73%를 포함하는 범위를 취한 것이다.
Gage R&R에서도 5.15만을 사용하지 않으며 산업 특성에 따라 달리 적용하기도 한다.
- Ford: 6 (표준정규분포의 99.73%를 포함하는 구간)
- GM/LGE:5.15 (표준정규분포의 99%를 포함하는 구간)
- ASTM : 4 (표준정규 분포의 95.44%를 포함하는 구간)
%Study나 %Process의 경우에는 분자와 분모 모두에 곱해 지므로 5.15라는 값은 큰 의미가 없다. 하지만 %Tolerance는 어떤 상수를 곱하느냐에 따라 결과가 달라지며, 상수 값이 커질수록 %Tolerance 값은 나빠진다.
모든 제품에 일률적으로 5.15를 곱하는 것보다는 제품의 중요도에 따라 달리 적용하는 것도 좋은 방법이다. 중요한 제품인 경우에는 6을, 중요하지 않은 경우는 4를, 일반적인 경우에는 5.15를 곱하면 될 것이다.
6 시그마 101가지 이야기
159
Q41 군내 변동과 군간 변통
군내 변동과 군간 변동의 정의에 대해 살펴보면
• 군내 변동이란 : 동일한 조건에서 측정된 집단내에서 발생하는 변동
• 군간 변동이란 : 서로 다른 조건에서 측정되었다고 생각되는 집단들 간의 변동
이며, 그림으로써 설명하며 다음과 같다.
공정 측정 결과(세로축)
표본(Sample)
Black Noise (군간 변동)
White Noise (군내 변동)
시간(가로축)
군내 변동과 군간 변동을 구분하는 이유를 예로써 설명을 하면
협력회사의 품질을 확인하기 위해서 매 Lot 마다 5개씩 샘플을 뽑아서 조사한다. 총 10개 Lot를 조사할 경우, 5개씩 10개의 데이터를 얻는다.
160
이럴 경우, 5개 데이터간에 산포가 있고, 5개 데이터의 평균 간에도 산포가 있다.
5개 평균이 변하는 것은 Lot가 변함에 따라 발생하고 있음을 알고 있지만, 5개 데이터가 변하는 이유는 Lot 내에서 우리 가 알 수 없는 원인에 의해 발생한다.
이렇듯, 군내변동과 군간 변동을 구분함으로써 변동이 발생하는 원인을 보다 자세히 알아낼 수 있다.
6 시그마에서 변동을 분해할 수 있도록 표본 추출 할 때는 가능한 이상적 표본 추출(Rational Subgrouping)을 수행할 것을 요구하고 있다.
Rational Subgrouping 이란 Subgroup내에는 군내변동만이 존재하고 Subgroup 간에는 군간변동만이 존재하도록 grouping 하는 방법이다.
군간변동과 군내변동을 발생시키는 원인을
-군내변동의 원인: 우연 원인 (Chance cause)
-군간변동의 원인 : 이상원인 (Abnormal causes)이라고 한다.
우연원인은 작업자의 숙련도, 주위 환경 등과 같이 통제 불가능한 인자에 의한 것으로 다수의 사소한 인자에 의해 발생하며, 우연원인의 산포를 감소시키는 방향은 주로 기술적으로 개선되어야 하는 경우가 많다.
이상원인은 평소와는 달리 산발적이고 예측 불가능하게 나타난다. 이것은 소수의 주요 원인으로 주로 관리적으로 제거되는 경우가 많다.
182
Q47 왜 1.5o Shift를 가정했을까?
Q43 [Zst, ZIt, Zbench]에서 Zlt를 설명하면서, 우리가 6 시그마 수준으로 개선했을 경우, 시간이 흐름에 따라서 평균이 목표치로 부터 1.50가 이동한다고 설명하였다.
이에 대해서는 Gilson (1951년), Bender(1965년). Evans(1972년) 등이 연구/설계 단계의 공차를 이용하여 설명 을 하였다. 즉, 연구/설계 단계에서 발생한 산포는 공정단계에 이르면 목표치(Target) 값에서 약 1.50 정도 움직인다는 연구 결과였다.
이러한 연구 결과를 6 시그마의 창시자인 마이클 해리가 받아들여, 일반 공정(생산)에서 특별한 원인이 없을 경우 95% 신뢰수준에서 약 1.4~1.80 정도의 Shift가 생긴다는 것을 확인하였다.
이후, 마이클 해리는 전형적인 공정에서의 변동을 1.50정도로 가정하고 사용하고 있다.
하지만, 때로는 연구/설계 단계에서 1.30을 사용하기도 한다. 즉, 변동의 크기가 1.50라고 고정된 것이 아니라, 상황에 따라 조금씩 다르다는 것이다. 그러나, 개선 후에 시간의 흐름이 따라 분명 변동이 발생한다는 것이고, 6 시그마 활동의 목표는 단기가 아닌, 장기 관점에서 관리가 되어야 함은 두 말할 나위 없을 것이다.
194
Q51 모집단과 표본
연구 조사하고자 하는 대상에 대해 최소한의 비용과 시간을 들여 보다 정확한 정보를 통해 결론을 도출하는 것이 가장 효율적인 방법일 것이다. 그러나 정확한 정보를 수집하기 위해서는 많은 시간과 비용이 필요하며 전수조사를 수행하는 것이 적절하지 못하거나 불가능하게 되는데 이런 경우 전체의 모습인 모집단을 파악하기 위해 표본을 추출하여 조사하는 방법인 표본조사를 택하게 된다. 즉 표본의 데이터를 근거로 하여 모집단의 모습을 추측하고자 하는 것이 통계의 목적일 것이다.
그렇다면, 모집단과 표본은 어떻게 정의할 것인가?
모집단(Population)이란 조사자가 최종적으로 그 성질을 밝히고자 하는 대상을 말하며, 모집단의 특성을 수치화한 것을 "모수"라 한다. 모수에는 모평균과 모분산, 모비율(p)이 있다.
표본(Sample)은 모집단에 대한 정보를 얻기 위해 모집단에서 수집한 일부를 말하며, 표본을 관측하여 얻어진 데이터로부터 모수를 추정하기 위해 계산된 값을 "통계량"이라 한다. 통계량에는 표본평균)와 표본분산(S), 표본비율()이 있다.
모집단 (유한 또는 무한) ~ 모집단의 특성: 모수
표본 ~ 표본의 특성: 통계량
196
구간의 폭이 넓어지게 되며 이 경우에는 모수의 값을 가늠하기 어려워지게 되고, 반대로 신뢰 수준이 낮을수록 구간의 폭이 좁아지게 되며 이 경우에는 구간이 모수를 포함할 가능성이 상대적으로 떨어지게 되므로 좋은 구간추정이라고 할 수 없다.
95% 신뢰수준이란 100번의 표본을 추출했을 때 95번은 모평균이 구간 내에 포함되고 나머지 5번은 포함되지 않을 확률을 의미한다. 신뢰수준의 반대의 개념인 유의 수준(a)은 포함되지 않는 경우인 5번이 발생할 확률로
[유의 수준(a)=1-신뢰 수준]으로 정의된다.
따라서, 신뢰 수준에 의해 구간추정의 표본오차의 크기가 결정되게 된다.
다음은 상황에 따른 구간추정 공식에 대해 정리하였다.
Q54
203
위의 설명을 기업에서 물건을 만들어서 양품, 불량 여부를 검사하여 소비자에게 전달하는 과정에서 생각해 보면,
가설을 "만들어진 물건이 양품이다" 라고 설정한 경우 양품인데도 불량품이라고 판정하는 확률인 를 "생산자 위 험", 불량품인데도 양품이라고 판정하는 확률인 B를 "소비자 위험" 이라고 부른다. 또한 이는 통계적 가설검정에서 귀무가설과 대립가설의 채택과 기각을 판정하는데 있어서 의사 결정의 판단 기준으로 사용된다.
예를 들어 가설검정에서의 의사결정을 하기 위한 "유의 (有意)수준"을 의미한다. 가설검정에서 귀무가설과 대립가설을 설정해 놓고, 표본에서 얻어진 근거를 바탕으로 귀무가설이 발생할 확률(P-Value)을 파악하였을 때, 이 가능성이 매우 작다면 귀무가설을 기각하고 대립가설을 채택해야 할 것이다.
그렇다면 이러한 의사결정을 어느 기준에서 할 것인가? 이 기준을 결정할 때 사용하는 것이 a(알파)이다. a 의 근본적인 의미를 보면, 예를 들어 귀무가설이 참인데 의사결정을 참이 아니라고 잘못 판단할 과오의 정도이다. 유의수준(a)를 10%로 설정해 놓고 가설검정의 의사결정을 하고자 할 경우에, 내가 내린 의사결정이 10%는 과오를 범할 수 있다는 전제하에서 의사결정을 한다는 의미이다. 이 말은 다른 표현으로 한다면 (1-a)의 신뢰도, 즉 90%의 신뢰도를 가지고 의사 결정을 한다는 의미이기도 하다.
205
Q55 : 유의 수준(a)은 어떻게 결정해야 하는가?
유의 수준(a)은 어떻게 결정해야 하는가?
0.1, 0.05, 0.01 어떤 것이 좋을까?
결론부터 얘기하자면, 이는 경험적으로 결정하는 것이다.
물론 기존 데이터가 제대로 수집되어 있다면, 분포의 모양을 보고 결정할 수도 있지만, 그런 경우는 흔하지가 않다.
유의 수준은 귀무가설에 대한 확신 정도에 따라 좌우된다.
귀무가설에 대한 확신이 높을 경우, 낮은 유의수준을 선택하 여 귀무가설을 선택할 경우를 높게 하게 한다. 이와는 반대로 귀무가설에 대한 확신이 작을 경우, 높은 유의수준을 선택하여 대립가설을 선택할 경우를 높게 하게 한다.
예를 들어, 여러분이 매일 같이 협력회사의 제품을 검사하는 업무를 하고 있다고 가정해 보자. 여러분은 협력회사가 납품한 제품을 양품(귀무가설), 불량품(대립 가설)에 대해 의사 결정을 하는 업무를 수행하고 있으며 A 협력회사는 15년 전부터 거래를 해오면서 특별한 품질 사고가 없다고 한다면, 여러분은 A 협력회사 품질에 대해 신뢰할 것이다. 즉, 귀무가설에 대한 확신이 높다고 할 수 있다. 이 경우, 낮은 유의 수준 (a=0.01 정도)을 선택하여 작업의 효율성을 높이는 방향으로 의사 결정을 할 것이다.
이와는 반대로, B 협력회사는 이번이 첫 납품이다.
더욱이 한 달 전 큰 품질 사고가 있었다는 소식도 알고 있다면, 이럴 경 우, 여러분은 B 협력회사 품질에 대해 확신이 없을 것이다. 즉 귀무가설에 대한 확신이 낮다고 할 수 있다. 이 경우, 높은 유의 수준(a=0.1 정도)을 선택하여 불량품으로 판단할 수 있는 여 지를 크게 해야만, 납품 후 발생할 수 있는 사고를 미연에 방지할 수 있을 것이다. 이런 식으로 현장의 상황에 따라 유의 수준을 선택한다는 것임을 잊지 말기 바라며, 위의 예의 중간인 0.05를 많은 기업들이 채택하고 있는 것이 현실이다.
207
Q56 P-Value의 의미
통계적 가설검정에서 가설의 채택 및 기각의 여부를 결정하는 접근 방법으로 세 가지를 언급하면,
첫 번째가 표본으로부터 얻은 통계량 값(Z, t, F, 등)과 채택여부를 결정짓는 기준 값인 임계값 (Z, t, F, 등)을 비교하여 판단하는 방법이며, 두 번째는 신뢰 구간을 이용하여 판단하는 방법, 세 번째는 P-Value에 의해 판단하는 방법이 있다. 이 세 가지는 모두 동일한 원리에서 연동된 것이므로 어느 것을 이용하여도 동일한 결과를 얻을 수 있다.
과거에는 컴퓨터와 소프트웨어가 발달되지 않아서 P- Value를 계산하는 것이 불편하여 첫번째 및 두 번째 방법을 많이 사용하였으나, 최근에는 컴퓨터와 소프트웨어의 발달로 인해 P-Value를 바로 계산하여 주기 때문에 P-Value를 이용한 판단을 많이 활용하고 있다.
P-Value는 한마디로 말하면, 설정된 가설에서 귀무가설 (Ho)이 발생될 가능성(확률)이다.
Q54 [가설의 의미와 가설검정]의 질문에서 다루었던 예를 가지고 다시 한번 생각해 보도록 하자.
"이전에, 전구의 평균수명은 5000시간으로 알려져 있다. 그런데 최근 400개를 표본으로 조사를 해보니 평균은 4900시간이었고 표준편차는 1500시간이 있다.
유의수준 10%에서 전구의 평균수명이 5000시간이라는 가설을 검정하시오."
이 문제에서 가설의 설정은 다음과 같이 된다고 하였다.
귀무가설은 : 모집단의 평균(1)=5000시간
대립가설은 : 모집단의 평균(1) # 5000 시간으로 설정이 된다.
우리는 표본을 취하여 표본의 평균이 4900시간이라는 결과를 얻었다.
그러나 이 4900시간은 한 번의 표본에서 얻어진 결과이므로 이것으로 모집단의 진실한 평균이라고 결론지을 수는 없다. 여기서 통계학의 이론적 접근이 시도된다.
통계학에서는 이렇게 표본을 취하여 평균을 확인하는 작업을 무한대적으로 반복하여 실시해 본다고 가정한다.
그렇다면 무한대 개수만큼의 표본의 평균이 만들어질 것이다. 예를 들어 표본의 평균값이 4950, 4990, 5005, 4880, 4920, 4900,,,,∞등의 데이터가 얻어질 것이다.
이 데이터를 이용하여 분포를 형성하면 새로운 분포가 만들어진다.
즉 "표본평균의 분포가 만들어진다.
이 "표본평균의 분포"는 표본의 평균에 대한 데이터로 형성된 분포이기 때문에 표본 자체의 분포 그리고 모집단의 분포와는 다른 통계량(샘플의 평균)의 분포인 것이다.
따라서 모집단이나 표본의 분포에 비해, 평균을 중심으로 보다 더 산포가 적은 모양을 가지고 형성하게 된다.
GB-BB-MBB가 알아야 할 6 시그마 101가지 이야기
219
Q60 자유도
자유도란 매우 광범위한 영역에서 사용되어지는 표현이다. 통계학뿐만이 아니라 수학, 역학 등 다양한 분야에서 사용되어지는 표현이며 서로 다른 의미로 활용된다. 그러나 근본적인 개념은 동일한 의미를 가지고 있다. 이러한 다양한 범주에서 사용되어지는 자유도의 개념을 포괄적으로 설명할 수 있는 자유도의 설명은 매우 어려운 일이며, 다만, 통계에서 이야기하고자 하는 자유도의 개념, 특히 표준편차와 관련된 부분에 한정하여 설명하고자 한다.
통계에서는 통계량 분포의 자유도는 특정 확률 변수의 모형에서 주로 언급되며, 일반적으로 양의 정수 값을 갖지만, 특별한 경우에는 실수값으로 표현되기도 한다. 특정 통계량 또는 통계량의 분포에서의 자유도의 대략적 의미는 해당 통계량을 구하는 경우 롭게 결정되는 자료의 수로 이해함이 가장 쉽 고 직관적이다.
예를 들어, 불편 표본 분산(unbaised sample variance)을 계산하는 경우를 확인해 보자. 개의 데이터로부터 계산되는 불편 표본 분산은 다음과 같다.
주어진 통계량을 구하기 위해서는 통계 공식을 알고 있어야 하고, 따라서, 공식에서 X가 특정값이 되는 제약조건으로 인해 총 1개의 데이터 중에서 n-1개만이 자유롭게 계산됨을 쉽게 확인할 수 있다.
GB-BB-MBB가 알아야 할 6 시그마 101가지 이야기
220
즉, S'2은 [(차이의 제곱합)]이라는 선형 조합식을 계산하고, 이를 해당 자유도로 나누어 준 편차 제곱합의 평균적 의미를 갖는다고 할 수 있다. 따라서, 선형조합 형태의 통계량으로 국한되는 경우, 자유도를 다음과 같이 정의하기도 한다.
자유도 = (선형 조합에 기여한 항의 수)-(제약 조건의 수)
결국 통계적 가설 검정이나 추정이란, 모집단 전체를 대상으로 하거나 또는 모집단의 분산을 알고 검정을 하는 것이 아니라 표본을 취하여 이를 토대로 모집단을 추정하는 활동이므로 일반적으로 적은 수량의 표본 Data를 이용하여 실시한다. 모집단 전체 또는 대표본을 가지고 분산을 추정할 경우에는 표본수 n을 이용하거나 자유도 (n-1)을 이용하거나 큰 차이가 없다. 그러나 소표본을 이용하여 모집단을 추정할 경우에는 자유도를 이용하여 을 추정하는 것이 모집단의 값에 근사한다. 때문에 표본을 이용한 가설 검정에서는 추정 시 표본수 n보다 자유도 n-1을 이용한다. 이에 대한 예를 보기 위해 아래의 그림 은 평균 500, 표준편차 5인 모집단으로부터 표본의 개수를 5,10,15,20,25,30개로 변화시키고 0을 추정 계산 시에 n과 n-1로 계산해 본 결과이다. 표본수가 적은 경우에는 자유도 (n-1)를 이용하여 추정되는 표준편차가 모집단의 표준편차인 5에 근접하고 있다.
Q80 교락과 교락법은 무엇인가?
288
지금까지 실험 결과 밝혀진 사실 중의 하나가, 3차 이상의 교호작용은 거의 없거나, 있다고 해도 기술적으로 해결할 수가 없다고 한다. 따라서 3차 이상의 교호작용은 굳이 분석할 필요가 없는 것이다. 이런 3차 이상의 교호작용을 Block의 효과와 교락을 시킨다면 필요 없는 정보를 희생시키면서 실험의 횟수를 줄일 수 있는 것이다.
교락을 시키는 방법을 설명하면 다음과 같다.
STEP 1
생성자의 선정 : 먼저 Block 인자에 교락 시키고자 하는 (내 가 분석에서 포기하고자 하는) 교호작용을 선정한다.
◉ 교호작용으로부터 Block의 기준이 되는 선형 관계식을 만든다.
▶ I = ABC
▶선형관계식의 일반형
a= 인자의 수준 (0 또는 1)
x= 인자의 개수
위의 문제의 경우는 2 수준 실험이므로 수준은 0 또는 1을 사용, ABC 3차 교호작용이므로 인자의 개수는 3. 이를 선형 관계식에 대입하면 아래와 같다.
L = x1 + x2 + X3
293
Q82 직교화의 원리
282
직교성이란 인자간의 영향을 분리하는데 유리하도록 실험을 배치하는 것을 말한다. 직교성이란 원래 두 벡터가 직각을 이루는 것을 말하는데, 간단하게 직각삼각형을 이용하여 설명할 수가 있다.
이런 성격을 갖도록 인자를 배치할 경우 인자 간의 효과를 분리하기가 용이해지기 때문에 실험 시 이 직교성을 고려하여 실험을 배치한다.
2개 인자가 직교가 되어 있을 경우 아래와 같이 직각 삼각형을 이용하여 살펴보자.
위 그림의 경우 a, b 두 인자의 관계를 표현하는 것이 바로 c 이다. 직각 삼각형에서 c는 어떻게 구하는가?
C^2= a^2+b^2+cos90°다.
'2023독서정리' 카테고리의 다른 글
서른 세번째 책 : 1973년의 핀볼 - 무라카미 하루키 (0) | 2023.11.26 |
---|---|
서른 두 번째 책 : 오 해피데이 (2) | 2023.11.18 |
서른 번째 책 : 죽음의 수용소에서 - 빅터 프랭클 (1) | 2023.10.08 |
스물 아홉 번째 책 : 쇼펜하우어 아포리즘 (1) | 2023.09.24 |
스물 여덟 번째 책-길 위에서 만나는 신뢰의 즐거움, 알폰소 링기스 (0) | 2023.09.03 |
댓글