국방품질연구회(DQS)가 전하는 품질 인사이트

DQS 매거진

국방 인공지능 품질관리의 필요성과 현황

2023. 02. 16

글. 중앙대학교 김학구 첨단영상대학원 교수

최근 선진국들을 중심으로 앞다투어 미래 전장을 대비하여 인공지능(AI) 기반의 첨단 무기체계 및 지휘통제체계 등을 구축하고 있다. 국내에서도 달라진 미래 전장 환경에서 전방위적 안보위협 대응을 위해 AI 기술을 국방분야에 적용하고 있다. 하지만 기존 소프트웨어와 다른 성격을 가지고 있는 AI 특성 때문에 현재 도입 중인 국방 AI 기술을 평가하고 품질관리 하는 기준 마련이 필요하다. 이를 위해 현재 국방 AI 기술에 대한 품질관리의 필요성과 현 상황에 대해 정리해보고자 한다.

인공지능 품질관리의 필요성

최근 인공지능은 디지털 콘텐츠, 자율주행, 감시 및 보안 시스템, 의료 및 헬스케어 등 다양한 분야에서 매우 우수한 성능을 보여주고 있다. 주어진 이미지 내 물체가 무엇인지 판단하는 물체 인식 기술에 대한 인공지능의 오차율이 사람의 오차율인 4%보다 낮아진 지는 2015년 (3.57%)으로 이미 오래 전이다. 음성 인식 기술도 상황은 마찬가지로 사람의 음성 인식 오차율인 6%는 인공지능이 2016년에 5.9%를 달성하며, 사람의 시각 및 청각 기능은 약 6년 전쯤 모두 인공지능에게 따라잡혔다.

현재 인공지능 기술의 한계점

하지만 인공지능 기술이 완벽한 것은 아니다. 실제 인공지능의 한계점을 보여주는 다양한 사례들이 존재한다.

2019년 1월에 뉴저지 주에 거주하는 흑인 남성 Nijeer Parks는 가중 폭행, 불법 무기 소지, 위조 신분증 사용, 마리화나 소지, 범죄 현장 이탈, 경찰 뺑소니 등 혐의로 체포되었다. 그를 체포한 경찰의 증거는 범죄 현장에 남겨진 위조 신분증으로 판명된 사진의 안면 인식 스캔을 통한 “하이 프로필 비교” 결과였다. 다행히 범죄 발생 당시, 범죄현장으로부터 30마일 떨어진 곳에서 돈을 입금 중이었던, 그의 영수증 증거를 통해 2020년에 혐의가 취하되었다. 하지만 약 1년 간 그는 범죄자 취급을 받고, 무고를 증명하기 위해 투쟁해야 했다 [1]. 2016년에는 미국 오하이오 주의 한 고속도로에서 인공지능 자율주행 모드로 주행 중이던 Tesla Model S가 트럭과 충돌하여 40세 운전자가 그 자리에서 사망하는 사건이 발생했다. 화창한 하얀 하늘을 마주하고 달리던 자동차가 고속도로를 횡단하는 대형 흰색 트럭을 인지하지 못하고 최고 속도로 주행한 것이 원인이었다 [2]. 2019년에는 미국의 한 10세 소녀가 아마존의 스마트 비서 Alexa에게 “해야 할 도전”을 요청하자 Alexa가 소녀에게 휴대전화 충전기를 콘센트에 반쯤 꽂은 뒤, 1페니 동전을 노출된 콘센트에 갖다대는 일명 “페니 챌린지” 도전을 추천하여 문제가 되었다 [3]. 이는 화재나 감전 사고를 유발할 수 있는 위험한 장난이기 때문이다. 또한, 6세 소녀가 Alexa와 대화 중 별도의 인증 단계 없이 약 170 달러 상당의 인형의 집 장난감과 4 파운드 가량의 쿠키를 주문한 일이 발생했다. 그런데 이를 보도하던 뉴스 앵커가 “I love the little girl, saying ‘Alexa ordered me a dollhouse’”라고 말하자 해당 뉴스를 시청하던 가정집 내 Alexa들이 이를 음성인식하여 자동으로 인형의 집을 주문하는 사태가 벌어져 CNN 뉴스에 보도가 되는 일 또한 있었다 [4]. 이 외에도 4년 간 약 700억원의 투자를 받아 개발한 IBM 사의 인공지능 의료진단 시스템이 위험한 암 치료 및 처방을 수행하여 폐기된 사례, 사람 눈에는 보이지 않는 인위적으로 생성된 아주 작은 잡음을 데이터에 넣어줌으로써 인공지능 결과를 완전히 망칠 수 있는 적대적 사이버 공격 등 현재 인공지능의 한계를 보여주는 많은 사례가 존재한다.

인공지능 품질평가 및 관리의 필요성

위와 같이 인공지능이 적용된 제품 및 시스템들의 한계를 보여주는 사례들이 존재하지만 앞으로도 인공지능은 점점 더 진화하고 다양한 산업 분야로 확산될 것임은 자명하다. 그리고 이러한 인공지능 기반의 제품 및 서비스는 우리의 생활, 사회, 경제활동을 이미 증대시키고 있으며, 앞으로 그 영향력은 더 확대될 것이다. 이는 동시에 인공지능 적용 제품의 품질 사고의 막대한 위험 역시 우리의 생활, 사회, 경제 속에 본질적으로 내제되어 있다는 것을 의미한다. 따라서, 우수성과 취약성을 함께 가지고 있는 인공지능이 계속해서 우리의 생활과 사회 속으로 확산될 때, 우리는 인공지능이 적용된 제품 및 시스템의 품질을 객관적이고 정량적으로 평가하고, 관리를 해야한다. 특히 , 인공지능 적용된 기술이나 제품이 사용되는 분야가 금융 , 의료 , 국방과 같이 사람의 자산이나 생명과 직결된 분야라면 더더욱 인공지능 품질평가 및 관리가 중요하고 , 이를 위한 체계적인 시스템 구축이 시급하다

인공지능 품질평가 및 관리의 어려움

인공지능 이전에도 일반 소프트웨어 기술이 존재했고, 품질을 평가하고 관리하는 데에는 큰 어려움이 없었다. 하지만 인공지능은 왜 제대로 품질관리를 하지 못하여 자율주행 사망사고와 같이 큰 사고까지 야기하게 되는 것일까?

먼저, 기존의 소프트웨어는 규칙에 기반하여 개발되기 때문에 내부 설계와 사양이 명시적으로 연결이 된다. 그렇기 때문에 내부 설계 및 구현 검토가 가능하며, 이를 바탕으로 평가 지표 및 프로세스 기반의 품질평가가 가능하다. 반면에 인공지능 기술의 동작은 학습 데이터로부터 귀납적인 방식으로 결정되기 때문에 인공지능 모델에 해당하는 내부 딥러닝 구조 설계 및 구현을 요구하는 사양 및 목표와 명시적으로 연결 짓기 어렵다.

그림 1. 전통적인 SW 기술 개발 방식
그림 2. 현대 인공지능 기술 개발 방식

정리하자면, 인공지능 기술은 내부 설계만으로 완성되는 것이 아니라 학습 데이터를 통한 모델 학습이라는 한 축이 더 있기 때문에, 내부 설계만으로 완성되지 않는다는 것이다. 따라서, 개발과 품질 간의 관계가 불분명해지고, 내부 설계 및 구현에 대한 검토가 어렵다. 또한, 남아있는 문제점도 추정이 어렵고, 당연히 품질평가 역시 어렵다. 전통적인 소프트웨어와 인공지능과의 차이점을 그림 1과 2를 통해 비교해볼 수 있다. 그림 1은 전통적인 소프트웨어 기술 개발 과정을 보여준다. 주어진 사양(Output)을 맞추기 위해 가지고 있는 데이터를 가지고 프로그래밍을 설계하여 이를 달성한다. 따라서, 버그가 발생하거나 수정사항이 필요할 경우, 해당 프로그램을 직접 검토 및 수정하면 그에 따라 output이 달라지게 된다. 반면에 인공지능의 경우, 가지고 있는 데이터와 주어진 사양(output) 간의 어떤 복잡한 패턴을 학습이라는 과정을 통해 추출한다. 즉, 인공지능이라는 프로그램을 직접적으로 설계해서 얻어지는 것이 아니라 학습을 통해서 인공지능 기술이라는 프로그램이 귀납적으로 완성된다. 그리고 우리는 인공지능이 데이터와 사양 간에 어떤 패턴을 찾아냈는 지 그리고 왜 그런 패턴이어야만 하는 지는 알 수 없다. 이것이 흔히 우리가 ‘인공지능은 블랙박스다’ 라고 말하는 이유이다.

두 번째, 인공지능 특유의 비선형적이고 복잡한 구조 때문에 품질평가가 어렵다. 인공지능이 우수한 성능을 달성할 수 있었던 이유 중에 하나가 바로 비선형성이다. 비선형적인 특성 덕분에 아무리 복잡한 분포의 데이터라도 구분해낼 수 있고, 생성해낼 수 있는 힘이 있다. 하지만 아이러니하게도 이러한 특성이 우리가 인공지능을 분석하고, 평가하는 데에는 어려움으로 작동한다. 그림 3에서 보여주듯이 인공지능 기술의 성능이 향상될수록, 우리가 인공지능 기술의 동작을 이해하거나 해석할 수 있는 가능성은 반비례하게 떨어진다.

그림 3. 인공지능 성능과 해석 가능성

세 번째 이유는 학습에 필요한 데이터의 양과 질의 문제이다. 첫 번째 이유에서 설명했듯이, 인공지능 기술은 딥러닝 구조 설계만으로 완성되는 것이 아니라 그 구조를 데이터를 통해 학습하는 과정에서 완성된다. 따라서, 데이터의 품질이 인공지능 기술의 품질과 직결된다고 해도 과언이 아니다. 인공지능 모델을 학습할 데이터를 구축할 때, 고려해야 할 요소는 크게 데이터의 규모, 획득된 데이터의 품질, 그리고 데이터의 라벨 품질로 구분할 수 있다. 우선, 인공지능 성능은 일반적으로 학습 데이터의 양에 매우 의존적인 특성을 보인다. 적은 양의 데이터로 모델을 학습했을 경우에는 극단적으로는 학습 실패, 해당 데이터에 한해서만 잘 동작하는 과적합(overfit) 문제가 쉽게 발생할 수 있다. 데이터의 양이 충분하더라도 품질이 나쁘면 인공지능 성능은 좋지 못하게 된다. 목적에 맞게 일관성을 가지는 데이터 획득이 필요하다. 특히 데이터의 분포가 고르지 못한 것도 치명적일 수 있다. 이런 경우에는 학습 편향이 생겨, 학습 데이터 내 많이 존재하는 케이스에 대해서만 잘 동작하고, 케이스가 많이 없는 경우에 대해서는 제대로 동작하지 못하는 결과를 야기할 수 있다. 획득 데이터의 품질은 다양성, 신뢰성, 충분성, 균일성, 사실성, 공평성 등으로 세분화해볼 수 있다. 마지막으로는 데이터의 라벨 품질이다. 예를 들어, 물체인식을 위한 데이터의 경우, 이미지 내 물체가 존재하고, 각 이미지마다 해당 물체가 무엇인지를 알려주는 라벨이 존재한다. 이 라벨의 정확성이 지도 학습 품질에 큰 영향을 준다. 따라서, 각 데이터 특성에 적합한 라벨링 품질 확보가 매우 중요하며, 일관되고 명확한 규칙 기반에 라벨링이 필요하다.

인공지능 품질관리 및 인증 제도 현황

현재 국내에서는 TTA AI 융합시험연구소, 와이즈스톤 ICT 시험인증연구소, 한국인공지능협회 등에서 인공지능 관련 품질인증을 수행하고 있다. 하지만 전체적으로 전통적인 소프트웨어 품질 측정에 관한 국제표준을 기반으로 인공지능 모델을 평가한다는 한계점을 가지고 있다. 최근에는 전통적인 소프트웨어 성능평가 기준에 더하여 인공지능 기술평가 시 고려해야하는 신뢰성 및 강인성 등에 대한 지표도 인증 요소에 추가된 것을 확인할 수 있다. 하지만 학계에서도 아직 연구가 진행 중인 인공지능 기술의 신뢰성과 강인성에 대해서 어떤 기준을 가지고 어떻게 평가하는 지에 대한 구체적인 내용은 공개되어 있지 않다. 국외에서는 아직 정착된 인공지능 품질인증 제도는 없지만, 관련된 표준 및 가이드라인을 만들어가는 움직임은 활발하다. 국내와 가장 큰 차이점은 이들은 구체적인 주제별로 그룹을 구성하고, 해당 주제 및 분야의 전문가 그룹 간 논의를 통해 해당 분야의 특성을 고려한 인공지능 품질평가 기준을 각각 마련해 나가고 있다는 점이다. 분야마다 데이터의 특성이 다르고, 적합한 학습 방법이 다르기 때문에 이를 모두 아우르는 일반화된 인공지능 품질평가 및 관리 기준과 가이드라인을 마련하는 것은 매우 어려우며, 불가능한 일로 생각된다. 따라서, 이러한 국외의 움직임은 인공지능 기술의 특성에 적절한 대응이라고 생각된다. 하지만 여전히 인공지능 품질평가 및 기준에 대한 가이드라인 마련에는 많은 시간이 필요할 것으로 보인다.

인공지능 기술의 품질평가 및 관리에는 많은 어려움이 존재하며, 단기간에 해결될 것으로 보이지는 않는다. 반면에 인공지능 모델을 학습하는 데이터에 대한 품질관리 기준은 빠르게 정립되어가고 있다. 특히 국내에서 발간한 인공지능 학습용 데이터셋 구축 안내서와 인공지능 학습용 데이터 품질관리 가이드라인에는 각 주요 분야별 데이터를 구축하고, 품질관리를 위한 상세한 내용들이 기술되어있다. 각 주제마다 여러 전문가가 함께 논의하여 작성하였기 때문에 구축 방법의 상세 단계 및 데이터 품질평가를 위한 구체적인 지표에 대해서도 상세하게 기술되어 있어 실제 실무 담당자들이 활용하기에 매우 용이하게 작성되어 있다.

국방 인공지능 품질관리 및 인증을 위한 제언

국방 인공지능 기술 및 무기체계에 관한 품질관리의 필요성과 중요성은 따로 언급하지 않아도 충분히 공감할 것이다. 일반 인공지능 기술에 대한 품질관리와 달리 , 국방 분야라는 특수성을 가지는 국방 인공지능 기술의 품질평가 및 관리를 위해서 필요한 점은 무엇일까. 먼저, 국방 분야 인공지능 학습 데이터 구축 및 평가와 관련하여, 국방 데이터라는 개념이 포괄적이고, 국방 데이터 활용에 대한 요구는 증대하는 반면에 실질적 구현 및 활용이 현재 매우 미흡하다. 따라서, 국방 데이터 품질관리 측면에서 이를 공유하고 활용하는 것에 대한 공감대 형성 및 제도 마련이 필요하다. 국방 분야의 인공지능 모델 구축과 관련해서는 국방 인공지능 모델 개발과 데이터 학습이 연동된 시스템 구축이 필요하다. 이를 통해 자체적으로 구축된 국방 데이터를 기반으로 국방 인공지능 적용 모델에 대해 평가 및 개선을 수행할 수 있게 된다.

인공지능의 품질은 모델 개발뿐만 아니라 학습 및 평가 데이터의 품질도 매우 큰 영향을 미친다. 따라서, 국방 데이터의 체계적인 수집과 공유 및 활용에 대해 깊은 공감을 바탕으로 실질적인 국방 인공지능 품질평가 체계 정립이 필요하다.