๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ˜ŽAI/Terminology

[Notable] ๋‹ค์ค‘๊ณต์„ ์„ฑ(Multicollinearity)

by SolaKim 2025. 3. 4.

๋‹ค์ค‘๊ณต์„ ์„ฑ(Multicollinearity) ์ด๋ž€?

: ํšŒ๊ท€ ๋ถ„์„์—์„œ ๋…๋ฆฝ ๋ณ€์ˆ˜๋“ค ๊ฐ„์— ๊ฐ•ํ•œ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ์‹ฌํ•˜๋ฉด ํšŒ๊ท€ ๊ณ„์ˆ˜์˜ ์‹ ๋ขฐ์„ฑ์ด ๋‚ฎ์•„์ง€๊ณ , ์˜ˆ์ธก ๋ชจ๋ธ์˜ ํ•ด์„์ด ์–ด๋ ค์›Œ์ง„๋‹ค.

 

๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚ค๋Š” ์ด์œ 

  • ํšŒ๊ท€ ๊ณ„์ˆ˜์˜ ๋ถˆ์•ˆ์ •์„ฑ
    • ๋…๋ฆฝ ๋ณ€์ˆ˜๋“ค์ด ๊ฐ•ํ•œ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋ฉด, ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜๋ฅผ ์กฐ๊ธˆ๋งŒ ๋ณ€๊ฒฝํ•ด๋„ ํšŒ๊ท€ ๊ณ„์ˆ˜๊ฐ€ ํฌ๊ฒŒ ๋ณ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ•ด์„์˜ ์–ด๋ ค์›€
    • ์–ด๋–ค ๋…๋ฆฝ ๋ณ€์ˆ˜๊ฐ€ ์ข…์† ๋ณ€์ˆ˜์— ์‹ค์ œ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค.
  • ํ†ต๊ณ„์  ์œ ์˜์„ฑ ๋ฌธ์ œ
    • ํšŒ๊ท€ ๊ณ„์ˆ˜์˜ p-value ๊ฐ€ ๋†’์•„์ ธ ์œ ์˜ํ•˜์ง€ ์•Š๊ฒŒ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋‹ค์ค‘๊ณต์„ ์„ฑ ์˜ˆ์‹œ

1. ์‹ค์ƒํ™œ ์˜ˆ์‹œ: ๋ถ€๋™์‚ฐ ๊ฐ€๊ฒฉ ์˜ˆ์ธก

์•„ํŒŒํŠธ ๊ฐ€๊ฒฉ์„ ์˜ˆ์ธกํ•˜๋Š” ํšŒ๊ท€ ๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ด…์‹œ๋‹ค. ๋…๋ฆฝ ๋ณ€์ˆ˜๋กœ ๋‹ค์Œ์„ ํฌํ•จํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.

  • ์ „์šฉ๋ฉด์  (ใŽก)
  • ๋ฐฉ ๊ฐœ์ˆ˜
  • ๊ฑฐ์‹ค ๊ฐœ์ˆ˜

์—ฌ๊ธฐ์„œ "์ „์šฉ๋ฉด์ "๊ณผ "๋ฐฉ ๊ฐœ์ˆ˜"๋Š” ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ€์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ํฝ๋‹ˆ๋‹ค. ๋ฐฉ์ด ๋งŽ์„์ˆ˜๋ก ๋ณดํ†ต ์ „์šฉ๋ฉด์ ๋„ ์ปค์ง€๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ์ˆ˜ํ•™์  ์˜ˆ์‹œ: ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ์˜ ๋‹ค์ค‘๊ณต์„ ์„ฑ

์•„๋ž˜์™€ ๊ฐ™์€ ํšŒ๊ท€ ๋ฐฉ์ •์‹์„ ๊ณ ๋ คํ•ด ๋ด…์‹œ๋‹ค.

์—ฌ๊ธฐ์„œ,

  • Y : ์•„ํŒŒํŠธ ๊ฐ€๊ฒฉ
  • X1 : ์ „์šฉ๋ฉด์ 
  • X2 : ๋ฐฉ ๊ฐœ์ˆ˜

๋งŒ์•ฝ X๊ฐ€ X1๊ณผ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋ฉด, ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ VIF (Variance Inflation Factor, ๋ถ„์‚ฐํŒฝ์ฐฝ๊ณ„์ˆ˜)๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋‹ค์ค‘๊ณต์„ ์„ฑ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•

  1. ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์€ ๋ณ€์ˆ˜ ์ œ๊ฑฐ
    • ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์˜ˆ: "์ „์šฉ๋ฉด์ "๊ณผ "๋ฐฉ ๊ฐœ์ˆ˜"๊ฐ€ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ€์ง„๋‹ค๋ฉด, ๋‘˜ ์ค‘ ํ•˜๋‚˜๋ฅผ ์ œ๊ฑฐ.
  2. ๋ณ€์ˆ˜ ๋ณ€ํ™˜ (์ฐจ์› ์ถ•์†Œ)
    • PCA(์ฃผ์„ฑ๋ถ„ ๋ถ„์„) ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์ค‘๊ณต์„ ์„ฑ์ด ๋†’์€ ๋ณ€์ˆ˜๋ฅผ ํ•˜๋‚˜์˜ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋กœ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ์ •๊ทœํ™” ๋ฐฉ๋ฒ• ์‚ฌ์šฉ
    • ๋ฆฟ์ง€ ํšŒ๊ท€ (Ridge Regression)์™€ ๊ฐ™์€ ์ •๊ทœํ™” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด ๋‹ค์ค‘๊ณต์„ ์„ฑ์„ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.