2026. 6. 2. 20:00ㆍTIL
📢 오늘의 목표
🚩실전 프로젝트를 진행하면서 데이터 분석 역량을 기른다.
📅 TIL
❇️데이터 인사이트 도출
오늘은 반도체 웨이퍼 공정 데이터(EV, OES, RFM)를 이용한 비지도 학습 기반 이상 탐지 파이프라인 전체를 처음부터 끝까지 구축했습니다.
시작은 데이터 전처리였습니다. 세 가지 센서 데이터는 각기 다른 특성을 가지고 있었는데, EV는 웨이퍼당 100행, OES는 38행, RFM은 28행으로 행 수가 달랐습니다. MPCA에 3D 텐서를 입력하려면 웨이퍼 간 행 수가 동일해야 하기 때문에, 초과 시에는 균등 다운샘플링, 부족 시에는 선형 보간으로 통일했습니다. 이상치는 제거가 아닌 IQR k=3 기준 Winsorizing으로 처리했는데, 시계열 연속성을 깨지 않기 위해서입니다. 데이터 구조상 calibration이 84%, fault가 16%의 심한 불균형이 있었고, fault 유형별로 웨이퍼가 단 1개씩이라는 점이 이후 모든 분석 설계에 영향을 미쳤습니다.
EDA와 통계 검정 단계에서는 예상치 못한 발견이 많았습니다. 가장 인상적이었던 것은 Cancellation Effect였습니다. Vat Valve라는 변수 하나를 두고, 어떤 fault는 올리고 어떤 fault는 내리는 방향으로 작용하다 보니 전체를 풀링하면 평균 차이가 0에 수렴해 p값이 0.05를 넘어버렸습니다. p가 안 나온다는 것이 신호가 없다는 뜻이 아니라 방향이 섞여 있다는 뜻일 수 있다는 교훈이었습니다. 또한 행 단위 시계열 데이터는 자기상관(lag-1 ρ=0.96)으로 인해 독립 표본이 아니어서, 행 수(12,800)를 표본 수로 쓰면 검정력이 과도하게 높아지는 문제도 확인했습니다. 그룹 간 분포 차이는 Kruskal-Wallis로 검증했는데, W29·W31·W33의 calibration 분포가 Cohen's d 기준으로 2에서 최대 37까지 벌어져 있다는 결과가 나왔습니다. 이것이 단순한 통계적 사실로 끝나지 않고, 이후 로컬 모델이 전역 모델보다 성능이 좋아야 하는 근거가 되었습니다.
MPCA를 직접 구현하면서 두 가지 핵심 버그를 맞닥뜨렸습니다. 첫 번째는 SVD에서 Vt 대신 U를 써야 한다는 것이었습니다. mode-n unfolding 후 SVD를 하면 M = U·S·Vt가 나오는데, 시간 축의 투영 기저는 right singular vectors(Vt)가 아니라 left singular vectors(U)입니다. 두 번째는 역투영 방향의 실수였는데, 순방향 투영에서 moved @ U.T를 쓴다면 재구성을 위한 역투영은 moved @ U여야 합니다. 이 두 가지 차이를 직접 shape 오류로 마주하고 수학적으로 추적해서 수정한 과정이 MPCA 알고리즘 자체를 깊게 이해하는 계기가 되었습니다.
모델 비교에서는 PCA, MPCA, TLD(Tucker 분해), PARAFAC 네 가지를 DS1~DS3 데이터셋 위에서 전역 모델 1개와 로컬 모델 3개(W29/W31/W33) 구조로 학습했습니다. 결과는 예측대로 로컬이 전역을 크게 앞섰습니다. PCA 기준 전역 F1이 0.710이었는데 로컬 평균은 0.963으로 약 19%p 향상이었습니다. 알고리즘 간 특성도 뚜렷하게 갈렸는데, PCA는 소표본에서 가장 안정적이었고, MPCA는 Precision이 1.0으로 오탐이 없었지만 Recall이 낮았으며, TLD는 전역 모델에서 FP가 63~69개로 폭증했고, PARAFAC은 W31에서 F1=0으로 완전히 실패했습니다. 임계값 선택이 단순한 하이퍼파라미터 조정이 아니라 "오탐 비용 대 미탐 비용"의 비율이라는 도메인 판단임도 명확해졌습니다.
마지막으로 미탐지 fault 원인 분석이 오늘의 가장 실무적인 내용이었습니다. BCl3 -5, He Chuck, TCP +10이 대부분의 모델에서 탐지되지 않았는데, 세 가지 원인이 모두 달랐습니다. BCl3 -5는 RF 매칭 회로의 비대칭 반응 때문이었습니다. 같은 BCl3 계열인 +5는 z=14.2σ로 탐지되는데 -5는 z=1.3σ에 그쳤는데, 유량 감소가 증가보다 임피던스 변화를 훨씬 작게 일으키는 비대칭 특성 때문이었습니다. He Chuck은 물리적 경로가 너무 길었습니다. "He 압력 이상 → 냉각 불량 → 온도 상승 → 플라즈마 화학 변화 → RF 임피던스 변화"라는 4단계를 거치면서 신호가 감쇠했습니다. TCP +10은 비선형 임계 효과였는데, TCP +30이 z=66.6σ인데 +10은 z=1.5σ로 파워 3배 차이에 신호가 45배 차이가 났습니다. RF 매칭 회로가 ±10W 범위에서 능동 보정을 하다가 임계값 이상에서 비선형적으로 급변하는 구조였습니다. 그런데 세 가지 모두 OES 센서에서는 10~25% 수준의 명확한 신호가 확인됐습니다. RFM 단독 모델의 구조적 한계이고, OES를 통합한 DS5나 DS6 모델이 필요한 이유가 데이터로 증명된 셈입니다.
오늘 전체를 관통하는 한 가지 교훈을 꼽으면, 모델 성능 숫자만 보는 것으로는 부족하다는 점입니다. 왜 이 센서가 이 fault에 둔감한지를 물리적으로 이해해야, 어떤 센서를 추가해야 하는지 어떤 모델 구조가 맞는지까지 답이 나옵니다. 분석 → 통계 검정 → 모델 설계 → 구현 → 성능 측정 → 원인 진단이 하나의 논리적 흐름으로 연결된 하루였습니다.
'TIL' 카테고리의 다른 글
| 20260601 TIL (0) | 2026.06.01 |
|---|---|
| 20260529 TIL (0) | 2026.05.29 |
| 20260527 TIL (0) | 2026.05.27 |
| 20260526 TIL (0) | 2026.05.26 |
| 20260522 TIL (0) | 2026.05.22 |