20260527 TIL

2026. 5. 27. 19:58TIL

📢 오늘의 목표

🚩실전 프로젝트를 진행하면서 데이터 분석 역량을 기른다.


📅 TIL

❇️과제 기획서 작성

프로젝트 제목


  • 금속 에칭 데이터를 이용한 반도체 공정 데이터셋 이상탐지 AI 분석 프로젝트

팀 구성


  • 팀명*:* First Class
  • 박승환, 김한이, 유지수, 이승재, 박정운 </aside>

프로젝트 목표

  • 대시보드의 주요 기능 및 목표를 설정하세요.
  • ev_data, oes_data, rfm_data 3종 데이터셋을 통합 분석하여 플라즈마 에칭 공정의 정상/이상 패턴을 머신러닝으로 분류하고, Tableau 기반 인터랙티브 FDC 대시보드로 실시간 모니터링 체계를 구축한다.
    • 반도체 결함 분석 대시보드
      • 주요 기능
        • 3개 데이터셋(ev_data / oes_data / rfm_data) 통합 이상탐지 모니터링
        • 공정 변수별 실시간 이상 패턴 시각화 및 fault 유형 분석
        • PCA 기반 차원 축소를 통한 정상/이상 군집 분리 시각화
        • Isolation Forest, XGBoost, Random Forest 모델 성능 비교
        • fault 유형별 민감 변수 및 탐지 난이도 분석
        • Tableau 기반 인터랙티브 FDC(Fault Detection & Classification) 대시보드 구현
        • 주요 RF·Pressure·TCP 파라미터 시계열 추세 분석 및 이상 알람 제공
      • 목표
        • 3개 데이터셋(장비 센서 / OES 스펙트럼 / RF 매칭) 통합 EDA 및 이상 패턴 시각화
        • PCA 기반 차원 축소 및 정상/이상 분리도 분석
        • Isolation Forest, XGBoost 기반 이상탐지 모델 구현 및 성능 비교
        • 20종 fault 유형별 탐지 난이도 분류 및 핵심 민감 변수 도출
        • Tableau 대시보드로 공정 이상 현황 실시간 모니터링 체계 제시

  • SMART 목표 작성 가이드
    • 구체적(Specific): 목표는 명확하고 구체적이어야 합니다.
      • 예: "지역별 매출 데이터를 분석하여 가장 낮은 매출 지역을 식별."
    • 측정 가능(Measurable): 목표 달성 여부를 측정할 수 있어야 합니다.
      • 예: "5개 이상의 인사이트를 도출하여 보고서에 포함."
    • 달성 가능(Achievable): 현실적으로 달성 가능한 목표이어야 합니다.
      • 예: "제공된 데이터셋을 활용하여 태블로에서 시각화 작업을 수행."
    • 관련성(Related): 프로젝트의 전반적인 목표와 관련이 있어야 합니다.
      • 예: "마케팅 우선 지역 설정과 매출 증대 전략에 활용 가능."
    • 시간 기반(Time-bound): 명확한 마감 기한을 설정해야 합니다.
      • 예: "7일 이내에 대시보드를 완성하고 최종 발표." </aside>

문제 정의


  • 분석 및 시각화의 중점
    • 프로젝트에서 해결하려는 핵심 질문을 1~2문장으로 작성하세요:
      • 플라즈마 에칭 공정에서 발생하는 복합 공정 이상(fault)을 다변량 데이터 기반으로 조기에 탐지하고, 정상 상태와 이상 상태를 효과적으로 구분할 수 있는 핵심 변수와 패턴을 도출하고자 한다.
      • 장비 센서(ev_data), OES 스펙트럼(oes_data), RF 매칭(rfm_data) 데이터를 통합 분석하여 기존 단변량 SPC 방식으로 탐지하기 어려운 공정 이상을 머신러닝 기반으로 식별하고 시각화한다.
  • 문제의 필요성 및 중요성
    • 플라즈마 에칭은 선폭·잔류막·식각 균일도를 결정하는 핵심 공정으로, 조건의 미세한 변화가 웨이퍼 전체 수율에 즉각 영향을 미침
    • 3종 데이터에 걸쳐 총 220개 이상의 다변량 변수가 동시 변화하므로 사람의 실시간 모니터링은 불가능하며, 머신러닝 자동화가 필수
    • 기존 단변량 SPC 관리도는 변수 간 복합 이상을 탐지하지 못하는 한계 존재 — 다변량 FDC 체계 구축 필요
    • 이상 탐지 1건당 불량 웨이퍼 로트 손실(장당 수백만 원 이상)을 사전 방지할 수 있어 경제적 파급 효과가 큼 </aside>

데이터 활용 계획


- *데이터 출처*
    - 스파르타코딩클럽 반도체 공정 이상탐지 프로젝트 제공 데이터셋
    - 플라즈마 에칭 공정 기반 FDC(Fault Detection & Classification) 학습용 데이터
    - 데이터 구성:
        
        #### 1. ev_data (Equipment Variable Data)
        
        데이터 크기: 약 12,829 rows × 23 columns
        
        특징:
        
        - 실제 장비 센서 및 공정 파라미터 데이터
        - 시간 흐름 기반 시계열 특성 보유
        - RF/TCP/Pressure 계열 변수 중심
        
        주요 컬럼
        
        `Time` : 공정 시간
        
        `Step Number` : 공정 단계 번호
        
        `BCl3 Flow` : BCl3 가스 유량
        
        `Cl2 Flow` : Cl2 가스 유량
        
        `Pressure` : Chamber 압력
        
        `RF Pwr` : RF Power
        
        `RF Tuner` : RF Matching 조정값
        
        `RF Load` : RF Load 값
        
        `RF Impedance` : RF 임피던스
        
        `TCP Top Pwr` : TCP 상부 전력
        
        `TCP Impedance` : TCP 임피던스
        
        `He Press` : Helium Pressure
        
        `Endpt A` : Endpoint Detection 신호
        
        #### 2. oes_data (Optical Emission Spectroscopy Data)
        
        데이터 크기: 약 4,786 rows × 131 columns
        
        특징:
        
        - 플라즈마 방출광 스펙트럼 데이터
        - 파장(Wavelength) 기반 강도값 구성
        - Plasma 상태 변화를 민감하게 반영
        
        주요 컬럼
        
        `250.0`, `261.8`, `272.2` 등:
        
        - 특정 파장(nm)에서 측정된 광 방출 세기(Intensity)
        
        고차원 스펙트럼 데이터 특성상 PCA 차원 축소 필수
        
        TCP Power 변화 및 Plasma 상태 이상 탐지에 활용
        
        3. rfm_data (RF Matching Data)
        
        데이터 크기: 약 3,519 rows × 73 columns
        
        특징:
        
        - RF Matching 회로 전압·전류·전력 데이터
        - RF 안정성과 impedance matching 상태 반영
        
        주요 컬럼
        
        `TIME` : 측정 시간
        
        `S1V1 ~ S1V5` : Sensor Group 1 Voltage
        
        `S1I1 ~ S1I5` : Sensor Group 1 Current
        
        `S1P1 ~ S1P5` : Sensor Group 1 Power
        
        `S2V1 ~ S2V5` : Sensor Group 2 Voltage
        
        `S2I 계열` : Current 센서값
        
        `S2P 계열` : Power 센서값
        
        #### 3. rfm_data (RF Matching Data)
        
        데이터 크기: 약 3,519 rows × 73 columns
        
        특징:
        
        - RF Matching 회로 전압·전류·전력 데이터
        - RF 안정성과 impedance matching 상태 반영
        - Plasma 에너지 전달 효율 및 RF 부하 상태 분석 가능
        - 정상/이상 상태 분리도가 높아 이상탐지 성능 우수 예상
        
        주요 컬럼
        
        `TIME`
        
        - 측정 시간
        
        `STEP`
        
        - 공정 단계 번호
        
        `S1V1 ~ S1V5`
        
        - Sensor Group 1 Voltage
        
        `S2V1 ~ S2V5`
        
        - Sensor Group 2 Voltage
        
        `S1I1 ~ S1I5`
        
        - Sensor Group 1 Current
        
        `S2I1 ~ S2I5`
        
        - Sensor Group 2 Current
        
        `S1P1 ~ S1P5`
        
        - Sensor Group 1 Power
        
        `S2P1 ~ S2P5`
        
        - Sensor Group 2 Power
        
        RF Matching 관련 변수
        
        - RF 임피던스 및 Matching 상태 반영 변수
        
        활용 방향
        
        RF Matching 기반 이상탐지 모델 구축
        
        Voltage·Current·Power 패턴 기반 fault 탐지
        
        PCA 기반 정상/이상 클러스터 분리 분석
        
        RF 계열 핵심 민감 변수 도출
        
        Arc·Power Drift·Impedance Mismatch 조기 탐지 가능
        

 *데이터 전처리 계획*

- 결측치 및 이상치 확인 후 제거 또는 보간 처리
- StandardScaler 기반 데이터 표준화 수행
- 불필요 변수 및 상수형 변수 제거
- fault 유형 라벨 정리 및 정상/이상 클래스 이진화
- PCA 적용을 위한 차원 축소 및 주요 성분 추출
- 학습/평가 데이터셋 분리 및 클래스 불균형 여부 확인
- 상관관계 분석을 통한 중복 변수 제거 및 민감 변수 선별

*대시보드 구성 계획*
    - *대시보드에 포함될 시각화 유형*
        - PCA 산점도 — 정상/이상 클러스터 분포 (PC1 vs PC2)
        - 히트맵 — fault 유형 × 주요 변수의 이상 강도
        - 막대 차트 — 데이터셋별 이상 탐지 성능 비교 (F1-score)
        - 라인 차트 — 시간(Step) 흐름에 따른 주요 센서 트렌드
        - 도넛 차트 — fault 유형별 비율 분포
    - *주요 KPI 정의*
        - 이상탐지 F1-score: 모델별 이상 클래스 F1
        - fault별 PCA 분리도: calibration 중심과의 Euclidean 거리
        - 변수 민감도 지수: (이상 평균 - 정상 평균) / 전체 표준편차
        - 데이터셋별 이상률: 각 CSV 내 fault 샘플 비중

예상 결과물 및 기대 효과


  • 대시보드 주요 구성
    • 최종적으로 제작할 대시보드의 구성을 간략히 설명하세요.
      • 상단: 3개 데이터셋 이상 현황 요약 KPI 카드 (총 샘플, 이상률, 탐지 F1)
      • 중단 좌: PCA 2D 산점도 — 정상(회색)/이상(빨강) 클러스터, fault 유형별 색상 구분
      • 중단 우: fault 유형별 PCA 분리도 막대 차트 — TCP/Pr/RF 계열 탐지 용이성 비교
      • 하단 좌: ev_data 주요 센서(RF Tuner, RF Pwr, Pressure) 시계열 트렌드
      • 하단 우: 모델 성능 비교 테이블 (Isolation Forest vs XGBoost vs Random Forest)
  • 기대 효과
    • 프로젝트 완료 후 얻게 될 데이터 인사이트와 활용 가능성을 제시하세요.
      • rfm_data가 PC1 기준 정상/이상 분리도 최대(0.22 vs -1.18)로 단독 모델 성능 가장 우수 예상 — RF 매칭 센서 중점 모니터링 권고
      • oes_data는 TCP 파워 계열(+30, +50) 이상에 특히 민감, OES 스펙트럼 기반 TCP 이상 조기 탐지 가능
      • ev_data는 RF Tuner·Vat Valve 변수가 민감 변수로 확인 — 장비 파라미터 기반 1차 알람 기준 설정에 활용
      • 3종 데이터 통합 모델은 개별 모델 대비 탐지 커버리지 확대 및 오탐률 감소 기대
      • 본 프로젝트 결과를 토대로 스파르타반도체 FDC 룰셋 업데이트 및 지능형 알람 임계값 설정에 직접 적용 가능 </aside>

 

프로젝트 일정 계획


  • 실전 프로젝트

일정 단계 주요 작업 담당

Day 1 데이터 이해 및 문제 정의 3개 CSV 구조 파악 / fault 분포 분석 / 핵심 질문 설정 / 참고자료 조사 유지수, 이승재
Day 2 EDA 및 기초 시각화 기술통계 확인 / 변수 분포 히스토그램 / 이상률 시각화 / 상관관계 히트맵 박승환, 김한이
Day 3~Day5 데이터 전처리 StandardScaler 표준화 / 결측·이상치 처리 / 이진 레이블 생성 / 상수 변수 제거 박승환, 박정운, 김한이
Day 6 PCA 및 차원 축소 PCA 적용 / 누적 설명 분산 분석 / PC1~3 기반 정상·이상 분리도 도출 / 시각화 박승환, 유지수
Day 7 변수 민감도 분석 fault 유형별 민감 변수 선별 / 분리도 랭킹 / ev·oes·rfm 비교 분석 유지수, 이승재
Day 8 Isolation Forest 모델링 비지도 이상탐지 모델 구현 / contamination 파라미터 튜닝 / 성능 평가 박승환, 유지수, 이승재
Day 9 XGBoost / RF 모델링 지도학습 분류 모델 학습 / F1·Precision·Recall 평가 / Feature Importance 도출 박승환, 유지수, 이승재
Day 10 모델 성능 비교 및 해석 3개 모델 성능 비교 테이블 / 오분류 분석 / 탐지 난이도별 분석 전원
Day 11 Tableau 대시보드 구성 KPI 카드 / PCA 산점도 / 센서 트렌드 / fault 분포 / 모델 성능 시각화 김한이, 박정운
Day 12 대시보드 최적화 인터랙션 필터 설정 / 시각화 정제 / FDC 알람 임계값 시각화 김한이, 박정운
Day 13 최종 인사이트 정리 및 발표 자료 제작 핵심 발견사항 정리 / 공정 개선 제안 / 발표 슬라이드 작성 전원 참여
Day 14 최종 발표 및 피드백 최종 결과물 발표 / 질의응답 / 피드백 반영 및 문서 마무리 전원 참여

역할 분담

  • 데이터 전처리 및 EDA: 박승환, 김한이, 박정운
  • 탐색적 데이터 분석 및 문제 정의: 유지수, 이승재
  • 머신러닝 모델링 (이상탐지): 박승환, 유지수, 이승재
  • 대시보드 제작 및 디자인 (Tableau): 김한이, 박정운
  • 발표 자료 준비 및 문서 작성: 김한이 (전원 참여)

회의 내용

 

우리가 해야할게 의도적으로 값을 바꿨을 때 떨림이나 변동이 있는지 확인

데이터 별로 웨이퍼 수가 다르다.(129/126/126)

개별로 보면 제거x, 시계열 분석하면 데이터 갯수 통일

CL> 가스 유량을 바꾼거

우리가 해야할 것

Fault name > 실제 결함이 아니라 레시피를 어떻게 바꿨나에 대한 데이터

TCP를 바꿨을 떄 어떻게 바뀌나 RFM을 바꿨을 떄 어떻게 바뀌나

Fault name 기준에서 두드러지는 바뀌는 값

도메인 지식을 바탕으로

OES 칼럼 131개 > 129개 행 이름이 파장 3세트

RFM 데이터에 대한 이해

칼럼 명에 대한 이해

S 센서 위치

ev 데이터에서 확인해야하는 것

CL_2 flow가 비례해서 증가

시계열 데이터를 통해 결함의 추이를 보는 게 좋을 것 같다.

우리 방향성 레시피 데이터를 기반해서 연동 되는 값들을 찾아내고 > 3가지 엑셀 시트에서 각각 수행하고 어떤 관측 데이터를 기반으로 했을 때 효과적으로 변동을 잡아 내는 것이 효과적인가. 레시피를 바꿨을 때 유의미하게 바뀌는 것을 보기 위해서

Fault name > 5~6개 변수를 바꿨을 때 뭐가 가장 많이 변하고 어떤 관측 장비를 썼을 때 효과적으로 변하는지

'TIL' 카테고리의 다른 글

20260601 TIL  (0) 2026.06.01
20260529 TIL  (0) 2026.05.29
20260526 TIL  (0) 2026.05.26
20260522 TIL  (0) 2026.05.22
20260519 TIL  (1) 2026.05.19