20260529 TIL

2026. 5. 29. 20:04TIL

📅 TIL

❇️인사이트 도출


반도체 공정 데이터를 활용하여 공정 이상(Fault)을 탐지하고 분석하는 과정을 다각도로 수행했다. 주요 분석 단계와 결과는 다음과 같다.

데이터 로딩 및 초기 탐색: EV, RFM, OES 세 가지 유형의 공정 데이터를 불러와 head() 함수를 통해 각 데이터셋의 기본 구조를 확인했다.

 

EV 데이터셋 정상 데이터 분석 (Wafer별):
fault_name이 'calibration'인 정상 데이터를 웨이퍼별(29, 31, 33)로 분류하고, 각 웨이퍼의 데이터 분포를 히스토그램으로 시각화하여 주요 센서 변수들의 특성을 파악했다.

 

Kruskal-Wallis H-검정: 각 웨이퍼 간 수치형 변수의 분포 차이를 통계적으로 검정하여 16개의 변수에서 유의미한 차이가 있음을 확인했다. 이는 웨이퍼별로 공정 특성이 다를 수 있음을 시사한다.

 

Box Plot 시각화: 통계적으로 유의미한 차이를 보인 변수들에 대해 박스 플롯을 그려 웨이퍼별 분포 차이를 시각적으로 확인했다.
시계열 라인 플롯: 정상 상태의 EV 센서 변수들이 시간에 따라 어떻게 유지되는지 시각적으로 확인하여 안정적인 공정 조건을 파악했다.

 

EV 데이터셋 정상 vs 이상 데이터 비교:
calibration 데이터와 fault 데이터의 통계량을 비교하여 이상 상태에서 각 변수들의 평균, 표준편차, 범위 등에 어떤 변화가 발생하는지 분석했다.

 

특정 EV 변수(RF Btm Pwr, Cl2 Flow, TCP Load)에 대해 정상 및 이상 데이터의 히스토그램을 비교하여 시각적인 분포 차이를 확인했다.

 

시계열 라인 플롯: calibration 데이터와 fault 데이터의 주요 EV 센서 변수들을 웨이퍼별로 시계열 비교하여, 이상 발생 시 각 변수들의 변화 패턴을 관찰했다. 이를 통해 이상 상황에서 비정상적인 추세나 변동성이 나타남을 확인했다.

 

이상치 탐지 (Isolation Forest):
크루스칼-월리스 검정에서 유의미한 차이를 보인 변수들을 사용하여 RobustScaler로 스케일링한 후 Isolation Forest 모델을 훈련했다.

 

전체 ev 데이터셋에 대한 이상치 스코어 분포를 시각화하여, 'calibration' 데이터와 'fault' 데이터의 스코어가 뚜렷하게 분리되는 경향을 확인했다. 이는 모델이 이상치를 잘 탐지하고 있음을 시사한다.

 

OES 데이터 분석:

 

히트맵 시각화: calibration OES 데이터의 파장별 강도 변화를 시간 축에 따라 히트맵으로 시각화하여 특정 파장의 시간적 변화 패턴을 파악했다.

 

평균 스펙트럼 비교: calibration과 fault 상태의 평균 OES 스펙트럼을 비교하여, 이상 상태에서 특정 파장의 강도가 변화하는 것을 확인했다. 이는 Fault 유형과 관련된 화학종 변화를 시사한다.

 

웨이퍼별 평균 스펙트럼 비교: 각 웨이퍼에 대해 calibration과 fault 상태의 평균 OES 스펙트럼을 비교하여 웨이퍼 고유의 특성 및 Fault 패턴의 일관성을 분석했다.

 

다중 센서 데이터 간 상관관계 분석:
EV, RFM, OES 데이터셋의 주요 수치형 변수들을 통합하여 데이터셋 간의 교차 상관관계를 계산했다.

 

히트맵 시각화: EV-RFM, EV-OES, RFM-OES 변수 간의 상관관계 히트맵을 통해 다양한 센서 유형 간의 복합적인 관계를 파악하고, 잠재적인 공정 이상 감지를 위한 유의미한 변수 조합을 탐색했다.

 

PCA를 이용한 데이터 축소 및 심층 분석:
EV, RFM, OES 데이터셋의 통합 수치형 변수들에 대해 PCA를 적용하여 2개의 주성분으로 데이터를 축소하고 2D 산점도로 시각화했다.
PCA 산점도에서 'calibration' 데이터와 'fault' 데이터가 어느 정도 분리되는 경향을 확인했다.
PCA 공간에서 'calibration' 중심으로부터 가장 멀리 떨어진 상위 5개 'fault' 데이터 포인트를 식별하고, 이들의 원본 특징 값을 'calibration' 평균과 비교하여 이상을 유발하는 핵심 변수를 심층 분석했다.

 

지도 학습 모델 (RandomForestClassifier) 구현 및 평가:
fault_name을 타겟 변수(0: calibration, 1: fault)로 인코딩하고, RobustScaler와 SimpleImputer를 사용하여 데이터를 전처리한 후 훈련 세트와 테스트 세트로 분리했다.
class_weight='balanced'를 설정한 RandomForestClassifier를 훈련하고 평가했다.

 

모델 평가 결과: 정확도는 0.91로 높게 나타났으나, 'Fault (1)' 클래스의 재현율이 0.48로 낮아 실제 이상 상황 중 약 절반만을 감지하는 한계를 보였다. 이는 False Negative가 높음을 의미하며, 공정 이상 탐지의 중요한 개선점으로 식별되었다.

 

F1-Score 개선 전략: 클래스 불균형 해소를 위한 SMOTE, ADASYN 등의 고급 리샘플링 기법, 도메인 지식을 활용한 특징 엔지니어링, 그리고 특징 선택을 통한 모델 성능 개선 방안을 제시했다.

 

결론: 이 분석은 다양한 센서 데이터를 통합하여 공정 이상을 탐지하고 그 특성을 이해하기 위한 포괄적인 접근 방식을 보여주었다. 특히 통계적 검정, 시각화, 비지도 및 지도 학습 모델을 통해 이상 징후를 식별하고 핵심 변수를 파악하는 데 성공했다. 향후 'Fault' 클래스의 재현율을 높이기 위한 추가적인 전처리 및 모델 튜닝 전략을 적용하여 공정 이상 탐지 시스템의 성능을 더욱 개선할 수 있을 것이다.

'TIL' 카테고리의 다른 글

20260602 TIL  (1) 2026.06.02
20260601 TIL  (0) 2026.06.01
20260527 TIL  (0) 2026.05.27
20260526 TIL  (0) 2026.05.26
20260522 TIL  (0) 2026.05.22