본문 바로가기

스터디 메모2 (수업)

Paul Allison, multiple regression Chapter 1 and 2

1.       다중회귀분석의 핵심은 예측과 인과관계 분석임. 예측은 독립변수들의 관찰된 값을 바탕으로 미래의 종속변수의 변화를 추정하는 것이고, 인과관계 분석에서의 핵심은 독립변수가 종속변수의 원인인지 여부를 밝히는 것임

2.       다중회귀분석의 원래 이름은 ordinary least squares multiple linear regression. 최소제곱이란 명칭은 회귀방정식을 추정하는 가지 방법임. Ordinary weighted generalized  two-stage 등과 대비된 방식으로 최소제곱을 추정하는 가장 단순한 방식을 의미함.

3.       회귀분석이 연구자들에게 각광받는 이유는 독립변수의 순수한 효과들만을 측정할 있기 때문임.

4.       Nominal category: 남자/여자, ordinal category: 매우좋음/좋음/그저그럼/나쁨/아주나쁨

5.       OLS regression coefficients 추정하는데 이는 다시 slopes intercept 나뉘어짐. 제대로 추정은 이렇게 산출된 함수가 실제 값과 작은 에러를 만드는 것이고 OLS 에러를 최소화하는 방식 하나.

6.       그렇다면 좋은 추정이냐 아니냐의 판단기준은? Coefficient of determination, 다른 이름은 R 스퀘어값. 이는 회귀식으로 추정된 SSE 독립변수를 제외한 절편의 SSE 비교함으로써 얻어짐. , R2=1-SSE(regression)/SSE(mean only). SSE= sum of squared errors

7.       회귀분석에서 발생할 있는 에러들: 측정 에러 (변수가 정확하게 측정될 있는 가능성), 샘플링 에러 (샘플이 모집단을 얼마나 대표할까?), 통제되지 않은 혼란변수. 이런 에러들은 체계적인 오류이고, random error 그대로 무작위로 발생하는 오류로, 예를 들어서 실제로 독립변수가 아무런 영향력이 없는데 변수의 계수는 0 아닐 경우, 앞의 체계적인 오류가 아니라면 이는 random error 설명될 있다. 다만 이때 이것이 진짜로 0인지 아닌지는 가설검정을 통해서 가능하다 (coefficient=0). 이때  신뢰구간을 측정함으로써  가설의 참거짓을 평가할 있으며, 신뢰구간을 계산하기 위해서는 standard error 측정해야 한다. 예컨대 종속변수인 소득에 대하여 독립변수인 연령의 coefficient 600이고 SE 210이라면 95% 신뢰구간은 600+(2.037*210)에서 600-(2*037*210) 범위가 신뢰구간이 된다.  

8.       관찰연구에서 주요 변수를 통제하는 방식 하나는 층화분석인데,  층화분석은 샘플이 작거나, 혼란요인이 여럿이거나, 층화된 그룹 간의 차이에 대한 해석이 문제가 . 따라서 대안이 다중회귀분석이 있음

9.       다중회귀분석의 문제점은 여러 가정들이 필요하다는 : 선형성 가정, 측정의 validity reliability

10.   그러나 결국 인과관계에 대한 추론이라는 것은 대안적인 설명을 배제해 나가는 과정임. 사회과학에서는 RCT 적용이 어렵고, 그렇다면 회귀분석은 좋은 대안이 있으며, 위에 존재하는 여러 문제들을 극복해 나가는 과정이 필요한

11. 각종 bias들: 중요한 혼란변수 누락, reverse causal relationship (time-ordering으로 해결 가능, 하지만 합리적인 추론을 통해서 배제할 수도 있음), 종속변수가 독립변수 혹은 주요 혼란변수에 영향을 줄 경우, 샘플수가 적을 경우 중요한 변수도 유의하지 않을 수 있음. 반대로 대규모 샘플은 중요하지 않은 변수도 유의하게 나타날 수 있으므로 p값의 크기와 slope을 확인할 것. 매개변수가 존재할 경우, 그 변수를 제외/투입하여 두가지 경우를 모두 산출하면 직접-간접적 영향을 모두 측정, 다중공선성의 threshold는 보통 0.8로 둠. correlation이 전혀 없으면 회귀분석을 할 필요가 없음, External Validity: 샘플을 통해 나타난 결과는 샘플 외부 집단에 일반화될 수 있는가?, Internal Validity: 샘플을 선택하는 과정자체에 문제가 있지는 않은가? (낮은 응답률 등)