고복잡도 공정에서 ML/DL 모델을 운영하기 위해서는 수백 수천종류의 센서 데이터를 기반으로 정교한 모델을 개발하고, 지속적인 데이터 검증 및 모델 개선을 통해 안정적으로 서빙할 수 있어야 합니다. 글로벌 반도체 소재 장비 기업은 제조 산업에서 축적된 마키나락스의 Core ML 기술로 핵심 공정에 최적화된 이상탐지 모델을 개발하고, MLOps 솔루션(MakinaRocks Link™ & Runway™)을 통해 실시간 추론 및 지속적인 모델의 개선/배포가 가능한 워크플로우를 구현할 수 있었습니다.

 

 

 

Situation

  • 반도체 리드 프레임 제조 핵심 공정의 고장은 예기치 못한 제조 공정 중단 뿐 아니라 매출 저하, 제품 신뢰도 하락 등의 문제를 발생시킬 수 있습니다.
  • 장비의 물리적 상태를 판단하기 위해 카메라, 외부 센서 등의 추가적인 장치를 설치하는 경우, 확대 적용에 제약이 있다고 판단하였습니다.
  • 또한 제조 공정내 핵심 모듈의 센서데이터를 수집하는 경우, 대당 약 70여종의 데이터를 복합적으로 해석하고 확대적용시 수작업 모니터링이 불가능하다 판단하여 ML/DL 모델 기반 탐지 및 고장 예측을 추진하게 되었습니다.

Challenge

  • ML/DL 기반 이상탐지 모델은 데이터를 기반으로 인사이트를 제공하는데, 각 장비에서 센서 데이터를 수집 과정이 안정화되어 있지 않았습니다.
  • 초 단위로 수집되는 센서 데이터를 기반으로 한 실시간 추론이 필요하나, ML/DL 모델을 서빙 할 수 있는 환경이 부재하였습니다.
  • 데이터 검증 및 개선에 따라 잦은 ML/DL 모델 개선 및 재배포가 필요하며, 향후 확대 적용을 고려 시 다수의 ML/DL 모델 운영에 따른 복잡도가 증가할 수 있습니다.

Solution

1. 이상탐지 모델 개발 결과 구현

  • 수 개월치의 정상 운영 데이터를 오프라인으로 다운 받아, 이를 기반으로 정상 운영시의 데이터 분포를 학습한 Autoencoder 기반의 이상탐지 모델을 개발하였습니다.
  • 과거 발생한 이상 Event를 Test셋으로 활용하여 학습된 모델이 정상 상황, 이상 상황, 이상 발생 전 징후를 구분하는지 확인하고 현장 요건에 맞게 성능을 개선하였습니다.
  • MLOps를 활용해 이상탐지 모델을 배포하고, 이를 기반으로 종합적인 설비 상태를 쉽게 판단할 수 있도록 Anomaly Score 제공하였습니다.

  • Anomaly Score는 모든 데이터를 종합하여 위험도를 보여주나, 원인 분석 및 데이터 Validation을 위해서는 개별 데이터의 추세를 같이 활용할 필요가 있습니다.
  • 데이터 관점의 원인 파악과 지속적인 데이터 Validation을 위해 개별 센서 데이터의 Reconstruction 값을 제공하였습니다.
  • 정상 분포를 학습된 모델이 추론한 값(초록색)과 실제 유입되는 값(노란색)의 비교를 통해 개별 데이터의 패턴 변화를 인지할 수 있습니다.

2. MakinaRocks Runway™를 활용한 실시간 추론 환경 구현

  • 실제 데이터 기반으로 모델의 출력결과를 확인하기 위해서는 ML/DL모델의 서빙 환경 필요합니다.
  • 실시간 추론을 위해서는 Streaming DB 등 환경 필요하나 부재한 상황이었습니다.Runway™의 경우 내부적으로 Kafka 모듈을 탑재하고 있어, 저장된 DB의 값을 순차적으로 모델에 입력값으로 제공하여 실시간 추론을 구현할 수 있습니다.

3. MakinaRocks Link™를 활용한 모델 개선/배포 Workflow 구현

  • MLOps를 통해 모델을 실 적용하며 서빙하기 위해서는 개발한 모델의 재현성을 유지하며 쉽게 배포할 수 있어야 하며, 나아가 재학습을 위해서는 Pipeline 형성 및 관리가 중요합니다.
  • Link™를 활용하면 주피터노트북을 통해 자유롭게 분석 및 모델링을 진행한 후, 작업한 내용 중 Pipeline에 포함되어야 하는 부분들을 선별하고 각 부분들의 연결관계를 지정하면 MLOps 환경에서 활용 가능한 Pipeline을 자동으로 생성할 수 있습니다.
  • Link™를 통해 자동으로 생성된 Pipeline은 ‘Export to Runway’를 통해 Runway™에 자동으로 등록되고, 이후 현장 요건에 따라 설정한 요건이 발동되면 Runway™는 이 Pipeline을 활용하여 재학습을 자동으로 실행합니다. 또한 관리자는 재학습된 모델을 확인한 후 One-Click 으로 배포할 수 있습니다.