AI·DATA 특별 기고

스마트팩토리 데이터셋 구축 필요성과 해결 과제

강학주 대표(울랄라랩)
1

스마트팩토리의 지능형 공장과 AI공장


독일의 ‘인더스트리 4.0’ 산업정책의 주요 핵심은 전통 제조업에 생산시설들을 연결하고 ICT 시스템을 결합하여 지능형 공장으로 진화하자는 것이다. 지능형 공장이란 단순히 물리적 인프라(생산설비)를 자동화(Factory Automation)하는 개념을 넘어 『기획 ・ 설계 - 생산(제조) - 유통(물류) ・ 판매』까지 제조산업의 전체 프로세스를 데이터 플랫폼을 적용하여 국내외 제조산업의 다양한 변동성 요인에 대응할 수 있는 체계를 구현하는 것을 목적으로 한다. 이는 개념적으로는 생산 프로세스를 넘어서는 광범위한 영역에서 데이터 네트워크를 구성해야 하기 때문에 어려운 과제임에 틀림이 없다.

독일도 2003년 ICT융합 연구의 시작으로 2006년에 제조 IoS(Internet of Services)로 논의가 시작되었고, 2010년 사이버 물리 시스템(CPS: Cyber Physical System) 연구로 2011년에서야 인더스트리 4.0 정책이 공식적으로 발의될 정도로 장기간의 많은 노력과 범연합 연구가 필요한 쉽지 않은 과정을 거쳤다.


독일 인더스트리 4.0 콘셉트
<그림 1. 독일 인더스트리 4.0 콘셉트1)>

지능형 공장에 대한 정의와 범위를 수립하는 것은 여전히 어려운 주제이고, 최근 『기획 ・ 설계 - 생산(제조) - 유통(물류) ・ 판매』 전 과정을 한번에 해결하기 위한 포괄적 개념의 지능화 공장에서 “생산(제조)부터 (단계적)해결 방법을 모색하고 이후에 전 프로세스의 연결성을 확보해 나가는 것이 효과적이다”라는 인식이 높아지면서 생산 인프라(생산설비)를 대상으로 생산 효율성 증가를 목적으로 하는 인공지능을 빠르게 적용하는 정책으로 전환되고 있다.

수집된 제조 데이터를 머신러닝(ML-Machine Learning), 딥러닝(DL-Deep Learning)을 통해 생산공정을 최적화하고 지속적으로 진화 ・ 발전해 가는 인공지능 공장이 그것이다.

2

인공지능 발전과 제조 인공지능 응용 분야


인공지능 연구는 네트워크, IoT, 빅데이터, 처리프로세스(CPU), 스토리지, 클라우드 등 기반 기술(인프라 기술)이 고도화되면서 『문제인식 ・ 학습(데이터 수집, 처리, 분석) ・ 결과도출(의사결정)』 등 모든 단계에서 높은 연구 성과를 이루어내고 있다.

특히 인공신경망 기반의 딥러닝(DL) 기술은 이미지 판독뿐 아니라 영상을 인식하고 사람의 음성을 알아듣고 실행할 정도로 발전하였고, 알고리듬과 소프트웨어까지 오픈 플랫폼으로 개방하고 있어 발전 속도는 더 가속화하고 있다. 이제는 초기 학습 데이터셋만 있으면 소프트웨어 개발을 최소화하고 인공지능을 적용할 수 있는 환경이 되었다.

스마트팩토리가 전통 운영 기술(OT: Operational Technology)에 ICT 융합을 통한 지능화 공장을 목표로 한다면 인공지능 기술 적용은 당연한 것이고 제조 프로세스의 『기획 ・ 설계 - 생산(제조) - 유통(물류) ・ 판매』 모든 영역이 인공지능 응용 분야이다.

다만 80%가 넘는 대기업 납품 중심의 중소 제조공장 비율과 수출 의존성이 높은 제조산업의 구조, 그리고 중소 제조공장의 투자 가능한 리소스 등을 고려한다면 생산(제조) 영역(생산관리, 품질관리, 설비관리 등)이 인공지능 적용에서 우선순위가 높은 응용 분야일 것이다.

3

제조공장 품질관리 인공지능 적용 사례


생산 영역에서의 품질관리는 스마트팩토리 영역에서도 가장 빠르게 인공지능이 적용되고 있는 분야이다. 이미지 프로세싱 기술(컴퓨터 비전 기술)을 이용한 품질관리는 스마트팩토리의 인공지능 적용 성과가 높은 분야로 스마트팩토리 이전부터 오랫동안 활발하게 진행되어 왔지만, 이미지 장치(카메라)는 비용이 하락해도 판독률을 높이기 위한 판독 이미지 데이터셋 구축과 높은 커스터마이징 비용 때문에 중소 제조공장은 도입에 부담을 느껴 왔다.


Landing.AI의 LandingLens 솔루션
<그림 2. Landing.AI의 LandingLens 솔루션2)>

2017년 인공지능 분야의 권위자로 알려진 앤드류 응(Andrew Ng) 교수가 설립한 Landing.AI라는 스타트업은 판독 이미지 데이터셋 구축에 머신러닝 기술을 접목하여 인식률과 판독률을 높일 뿐만 아니라 도입 기간, 비용 등 공장의 부담을 최소화했다.

각기 다른 공장의 인프라 환경에 따른 양품과 불량을 판독하기 위한 이미지 데이터셋 구축과 판독률을 높이기 위해 이미지 프로세싱에 인공지능 기술을 접목한 머신 비전(Machine Vision) 기술을 활용하였다. 랜딩렌즈(LandingLens)는 간단한 양품의 초기 이미지 데이터셋만 있으면 스스로 양품과 불량을 구분하는 고도화된 이미지 데이터셋을 구축할 수 있는 인공지능 솔루션이다.3) 머신 비전 기술은 품질관리를 넘어 작업관리, 안전관리 등 제조산업의 다양한 분야로 확대되고 있는 대표 기술이다.

4

인공지능 적용에 필요한 데이터셋


랜딩렌즈 같이 인공지능 솔루션은 기초 데이터셋를 기반으로 학습하여 진화한다. 이에 기초 데이터셋은 질적 학습 데이터가 필요하다. 질적 학습 데이터의 확보는 인공지능의 성능을 결정짓는 첫 번째 요건이 된다는 것은 사람의 학습 과정과 흡사하다. 그렇기 때문에 학습 데이터의 높은 품질이 결국 적용되는 분야에서 인공지능 성능을 만들어 내기도 한다.


제조 데이터셋은 학습 데이터, 검증 데이터, 테스트 데이터 3가지가 필요
<그림 3. 제조 데이터셋은 학습 데이터, 검증 데이터, 테스트 데이터 3가지가 필요>

제조 데이터셋은 학습 데이터, 검증 데이터, 테스트 데이터 3가지 데이터로 구성된다. 학습 데이터는 공장 현장에서 목적성에 맞게 수집해야 하는 데이터로 결과를 추론하기 위한 머신러닝 학습 모델을 만들게 된다. 이렇게 만들어진 머신러닝 학습 모델은 검증 데이터를 통해 검증하고, 검증된 모델은 테스트 데이터를 통해 최종 확인을 거쳐 시스템에 적용하게 된다.

수학 문제를 학습하는 사람으로 비유하면, 학습 데이터는 다양한 연습문제를 통해 공식을 만들어내거나 익히는 것이고, 검증 데이터는 익힌 공식을 검토하는 모의고사와 같은 과정으로 틀린 문제는 공식을 재학습하는 과정이고, 최종적으로 실전 시험을 통해 최종 확인하는 것이 테스트 데이터가 된다.


제조공장의 인공지능 개발 프로세스
<그림 4. 제조공장의 인공지능 개발 프로세스>

제조공장에서 인공지능 시스템 도입을 위해서는 『1. 문제정의 ・ 2. 데이터 준비 ・ 3. 전처리 ・ 4. 데이터 모델링 및 검증 ・ 5. 결과도출 및 적용』 과 같은 5ESKRP가 필요하며, 5단계 가운데 가장 어려움을 겪는 단계가 2~4번까지 부분으로 많은 비용과 시간이 필요하다.

이뿐만 아니라 제조공장이 업종에 따라 다른 공정>라인>설비를 갖추고 있고, 동종 업종이라고 하더라도 각기 다른 운영 환경과 인력이 존재하는 만큼 정형화되지 않기 때문에 2~4번 과정을 수행하기 위한 공장 도메인에 대한 높은 이해도가 필요하다.

반면에 정확한 학습 모델을 가지고 있다고 하면 그 문제가 조금 다르다고 하더라도 부담을 대폭 줄일 수 있다. 예를 들어 수학 문제에서 덧셈의 원리와 공식이 정확하고 1, 2데이터가 주어지면 3이라는 결과를 풀어낼 수 있다면, 3, 4 같은 다른 데이터가 주어지더라도 7이라는 결과를 추론할 수 있는 원리와 같다. 만약 7이라는 결과물이 틀렸다고 하더라도 공식(학습 모델)을 재수정하여 결과를 만들어 낼 수 있다. 이를 위해 1, 2 또는 3, 4 같은 데이터셋이 필요한 것이다. 이후 시험시간에 6, 7 같은 또 다른 데이터가 주어져도 풀어낼 수 있는 것과 같다.

5

제조 데이터 데이터셋 공유 사례


전 세계 거의 대부분의 제조공장은 스마트팩토리 이전에는 데이터를 수집하고 있지 않거나, 수집하더라도 설비마다 또는 희발성으로 데이터를 관리하고 있었다. 그래서 스마트팩토리 초기에는 데이터를 수집하는 데 집중되었다.

스마트팩토리 열풍이 벌써 10년을 맞이하고 있는 지금, 대부분의 공장이 데이터를 수집하고 분류해야 하는 것에 동의하고 있고 나름대로 그 방법을 찾아가고 있지만 어떻게 활용할 것인가에 대한 과제는 여전히 남아 있다. 스스로 학습하고 진화하는 지능형 공장이 스마트팩토리 본질임을 다시 환기시키면, 결국 가장 효과적인 방법론은 인공지능을 접목하는 것이 남은 과제의 해법이 될 것이다.

국내의 경우 초기에 스마트팩토리 정책을 시행하면서 스마트공장 공급기업 등록요건 규제로 스타트업의 참여를 제한하는 잘못이 있었다. 정책 흐름상 참여 기업의 신뢰성 보장도 필요했겠지만, 인공지능 같은 새로운 혁신기술을 개발 적용에 스타트업 참여를 제한하는 규제로 인해 스마트팩토리 관련 스타트업이 자생할 수 있는 환경 조성이 다른 국가들에 비해 늦어질 수밖에 없었다. 하지만 2018년 스타트업 참여에 제한이 되었던 관련 단일 프로젝트 1억 이상 실적, 재무제표 등의 규제가 해지되어 지금은 스마트업도 참여할 수 있는 기반이 되었다.

2014년 이후 2018년 약 5년 동안 스마트팩토리 정책은 데이터 기반보다 단위 솔루션 공급에 집중되었고, 스마트팩토리 스타트업이 활성화하지 못한 탓에 데이터 기반의 스마트팩토리 연구는 주변 국가들보다 뒤처지는 모습이다.

제조 데이터와 데이터셋을 마련하여 공유하는 것은 관련 스타트업 육성과 함께 인공지능 기술을 빠르게 성장시킬 수 있는 기반과 영양분이 된다. 독일 보쉬(Bosch)의 경우 데이터 분석 및 데이터셋 해커톤 서비스 캐글을 통해 자사 공장의 생산라인 데이터셋을 공개4) 하고 4년 동안 2만 6,126개의 프로젝트가 진행되었고, 이 중 1,599개의 알고리듬을 확보할 수 있었다. 현재 1,370개 팀이 공개된 데이터셋을 통해 프로젝트를 경합하고 있다.


보쉬 제조공정 데이터셋 오픈 사례
<그림 5. 보쉬 제조공정 데이터셋 오픈 사례>

6

제조 데이터의 데이터셋 구축을 위한 새로운 인식 필요


스마트팩토리의 빠른 성장과 국가적 성공적인 적용을 전제로 하는 인공지능 연구는 다양한 데이터셋 발굴과 공유가 필수적이다. 하지만 먼저 3가지 인식 변화가 필요하다.

6-1. 제조공장 데이터는 공유가 힘들다?

제조공장에서 공장 내 데이터는 일종의 자사의 노하우를 보유하고 있는 중요한 자산으로 보호되어야 한다는 인식이 강하다. 기존에 데이터를 수집 보유한 경험이 없음에도 향후 데이터를 수집한다면 외부로 공유하지 않겠다는 의견이 절대적이다. 하지만 보쉬 사례만 보더라도 자사가 확보해야 할 알고리듬과 소프트웨어 개발을 위해 자신들의 데이터를 공유할 뿐만 아니라, 개발 참여를 독려하기 위해 비용(상금)도 제공하고 있다. 우리 공장을 위해 “내놓는 것이 있어야 얻는 것도 있다”는 오픈 마인드가 필요한 시점이다.


자사의 데이터셋 샘플 - 공유하는 일부 제조 데이터를 통해 기업의 노하우를 알기 힘들다.
<그림 6. 자사의 데이터셋 샘플 - 공유하는 일부 제조 데이터를 통해 기업의 노하우를 알기 힘들다.>

6-2. 모든 데이터를 제공해야 한다?

데이터셋을 공유한다는 것이 “공장 내 전체 데이터를 모두 공개해야 한다”는 오해를 한다. 물론 많은 데이터를 공유하는 것이 정확한 학습 모델을 만드는 데 도움이 되는 것은 맞다. 하지만 무조건 많은 데이터를 제공한다고 더 정교한 학습 모델을 만들어 내는 것은 아니다. 위에서 예로 든 수학 문제 풀이와 같이 초기 모델이 만들어지는 데에는 너무 많은 데이터보다 원리를 파악할 수 있는 기본(학습) 데이터를 제공하는 것이 더 중요하다.

오히려 너무 많은 데이터가 주어지면 학습 모델을 만들어 내는 데 어려움이 발생할 경우도 많다. 그래서 산업공학에서는 학습 데이터의 수를 줄이기 위해 차원 축소 같은 작업을 하기도 한다.

보쉬의 경우 샘플 데이터 1종, 학습 데이터 3종, 테스트 데이터 3종 7개 파일 695MB만 제공하고 있다.


보쉬는 7종 1Set의 데이터셋 695MB만 공유
<그림 7. 보쉬는 7종 1Set의 데이터셋 695MB만 공유>

6-3. 정부 주도하에 가능하다?

촉매제 역할이 목적이 되어야 한다. 하나의 데이터셋으로 동종 공장 또는 유사 공장의 이익을 모두 대변할 수는 없다.

민간의 이익 창출이라는 비즈니스 속성이 반영되어야 하기에 정부의 관여는 최소화해야 한다. 자칫 형식적인 데이터셋 공유가 되지 않도록 신중할 필요가 있고, 공유를 통해 공유한 기업에 도움이 될 수 있는 정책과 방법론을 구축하는 것이 선행되어야 한다.

급하다고 바늘 허리에 실을 꿸 수 없듯, 빠르게 진행한다고 일어날 수 있는 많은 리스크를 모두 정부가 풀어내겠다는 생각은 오히려 산업 발전에 역효과가 나지 않을지 고민해야 한다.

이런 인식은 제조 데이터의 데이터셋 공유를 어렵게 하는 직접적인 원인이지만 인식의 문제 외에도 공유되더라도 현장에서의 또 다른 현실적 어려움이 있다.


각 단계별로 문제 정의, 데이터 정의, 이벤트 정의, 목표 정의 등이 필요
<그림 8. 각 단계별로 문제 정의, 데이터 정의, 이벤트 정의, 목표 정의 등이 필요>

인공지능 학습 모델을 만들 때는 문제 정의가 정확해야 한다. 그리고 각 데이터의 핵심 라벨링(이벤트 단위)이 필요하다. (그마저 어렵다면 최소한 LSL, USL 또는 해당 데이터의 임계치 값이라도 필요하다.) 그런데 라벨링을 위한 대부분의 작업은 현장에서 설비의 작동 원리, 시간, 상황, 근무자 행동, 세팅 등 상호 영향을 주는 다양한 변수를 이해해야 하는 어려운 과정이 수반된다.

데이터의 품질에 영향을 미치는 이런 변수들을 어떻게 해결할 것인가에 대한 연구와 방법이 필요한데, 이는 표준화와 솔루션 공급회사의 이해관계에 얽혀 복잡한 구조의 시스템을 연계/연동할 수 있는 환경 조성이 시급하고 정부의 역할이 중요한 부분이기도 하다.

7

데이터셋 구축의 경험을 기반한 우려와 해결 방법


자사는 오랫동안 제조 데이터를 수집하고 처리하고 분석한 경험을 하였지만, 새로운 프로젝트를 시작할 때마다 적정한 모델 수립과 고객이 필요로 하는 결과를 도출하지 못할까 걱정을 한다.

가장 큰 이유는 데이터 수집과 분석을 통해 머신러닝을 필요로 하는 제조기업에서조차 머신러닝에 대한 이해가 부족하고, 문제 정의와 목표하는 결과에 대한 범위를 정의하기 어려워하기 때문이다.

제조 데이터는 자율주행 차량의 길거리 사람, 자전거, 자동차 등 객체를 인식하는 머신러닝 모델과 달리 회귀분석을 기반으로 하는 경우가 많고, 공장의 다양한 변수 때문에 정확한 데이터 수집이 어렵다는 특징을 가지고 있다.

자동화된 설비와 공정이 구현된 SMT 또는 반도체 공장, 로봇이 도입된 자동차 조립 공장의 경우 이런 변수가 최소화되어 있기 때문에 나름대로 정형화시킬 수 있는 데이터셋이 존재하지만 중소 제조공장의 경우 동일한 공정, 라인, 설비로 같은 제품을 만들어 낸다고 하더라도 데이터의 패턴이 다른 것이 현실이다. 예를 들어 같은 회사, 같은 제품을 발주받은 A, B라는 사출 공장은 똑같은 모델에 대한 설비를 가지고 있다고 하더라도 데이터를 수집해 보면 각 공장의 환경에 따라 전혀 다른 데이터 패턴을 보인다. 심지어 같은 회사 내 매일 같은 작동을 하는데도 데이터 패턴이 상이한 경우가 있다.

결국 같은 회사, 같은 설비라도 학습 모델의 정교화 작업이 필요하다. 이때 현장 도메인에 대한 이해도는 모델의 품질에 큰 영향을 준다.

하나의 동일 업종에서 특정 설비 모델의 품질, 설비 유지보수를 위한 데이터셋과 학습 모델을 개발하였다 하더라도 이를 이용하여 얼마나 많은 동종 공장에 범용적으로 사용할 수 있을까 의구심을 가지는 이유는 오랜 경험 때문이다.

결국 한 업종의 제조공장 데이터셋을 통해 동종 업체에 한번에 해결하겠다는 접근은 깊고 긴 고민(長考)이 필요하다. 제조 데이터 데이터셋을 공유하는 목적이 제조 데이터 중심의 머신러닝 연구개발과 발전을 위한 것이라면 저자는 대환영이다. 하지만 이를 통해 스마트팩토리를 단숨에 지능화 공장으로, 3만 개의 정량적 목표 달성을 위하는 것이라면 재고할 필요가 있다.

오히려 현재 진행되었던 제조공장에 자신의 데이터셋을 자발적으로 공유할 수 있는 기반을 만들어 주는 것이 더 효과적인 해결 방법이 아닐까 생각한다.


R&D 목적을 위한 공유되고 있는 데이터셋
<그림 9. R&D 목적을 위한 공유되고 있는 데이터셋5)>

마지막으로 제조 데이터를 공유하는 데이터셋 5개를 추천하면 다음과 같다.

1. DATA.World : https://data.world/datasets/manufacturing
- 다양한 제조 데이터 셋이 모여 있다.

2. 캐글의 제조 분야 : https://www.kaggle.com/tags/manufacturing
- 프로젝트성 데이터셋을 공유한 사이트이다.

3. 레딧: https://www.reddit.com/r/datasets/comments/5c424a/industrial_manufacturing_data
- 개발자 공유 사이트라 1G 이상의 대용량 데이터와 관련된 개발 소스도 간혹 공유하고 있다.

4. 마키나락스(Makinarocks): https://github.com/makinarocks/awesome-industrial-machine-datasets
- 제조 머신러닝 개발 스타트업인 마키나락스가 경험 데이터를 깃허브를 통해 공유하고 있다.

5. Towards Data Science : https://towardsdatascience.com/open-data-sources-for-industrial-ai-b58cef3ffd0d
- 공개된 제조 데이터셋을 분야별로 잘 설명해 놓은 사이트 – 저자가 공부하면서 많은 도움을 얻었던 곳이다.

이전글 공유 다음글 목록