'가명정보' 개념 도입한 개인정보보호법 개정 5주년
'챗봇' '자율주행' '질환 진단' 등 AI 개발에 가명정보 활용
완벽한 가명처리 기술 부재…개인정보 침해 가능성 여전

개인정보, 가명정보, 익명정보의 차이. (사진=개인정보보호위원회 가명정보 처리 가이드라인)
개인정보, 가명정보, 익명정보의 차이. (사진=개인정보보호위원회 가명정보 처리 가이드라인)

[뉴스포스트=김윤진 기자] AI 시장이 급속도로 성장하면서 기업의 AI 학습용 데이터 확보도 분주해졌다. 개인정보를 학습용으로 활용할 수 있는 만큼, 개인정보 보호에 대한 대중의 관심도 커지고 있다.


AI 산업에 불 지핀 '가명정보'


정부는 2020년 8월 개인정보보호법 개정에 따라 '가명정보'라는 개념을 도입했다. 개정 5주년을 맞은 지금, 가명정보는 AI 개발사들의 중요한 자산으로 자리잡았다. 공익·상업적 통계작성, 과학적 연구, 공익적 기록보존 목적으로 활용 가능해 AI 산업 발전을 앞당기고 있다.

가명정보란 개인정보의 일부나 전부를 대체하거나 삭제 처리한 정보를 일컫는다. 추가정보 없이는 정보주체가 누구인지 특정할 수 없도록 해 프라이버시를 보호하고, 데이터로서의 활용도까지 갖춘 것이 특징이다.

챗봇이나 자율주행 AI도 가명정보로 성능을 고도화한다. 예를 들어 고객센터 챗봇은 고객과의 대화 내용을 학습한다. 채팅 과정에서 고객이 언급하는 이름·주소·전화번호 등은 가명처리하고, 성별·연령대별 질문 패턴이나 문장의 구성을 배우는 것이다.

대표적인 가명처리 방법으로는 △마스킹(서울시→**시) △치환(김철수→홍길동) △데이터 범주화(25세→20대) 등이 있다. 음성인식 AI 개발에 쓰는 목소리 데이터는 텍스트로 변환(STT, Speech To Text)한 뒤 가명처리해 사용한다. 자율주행 AI가 학습하는 신체·차량 등을 촬영한 영상 데이터는 얼굴과 번호판 등을 모자이크 처리한다.

기업 입장에서 가명정보 활용의 가장 큰 이점은 정보주체의 동의를 얻지 않아도 된다는 것이다. 상업적 용도로 개인정보를 수집하는 데 반감이 큰 사회적 분위기와 무관하게, 양질의 AI 학습용 데이터를 비교적 쉽고 저렴하게 확보할 수 있는 셈이다.


가명정보만으로 부족하다면 '실증특례' 카드도


AI 개발에는 가명처리하지 않은 날것의 개인정보가 필요한 때도 있다. 이런 상황에서는 당국으로부터 실증특례를 부여받으면 일시적으로 규제에서 벗어나 원본 데이터도 활용 가능하다. 실증특례란 기업이 신기술을 시험하도록 규제를 일정 기간 유예하는 제도다.

산학계 관계자들 사이에서는 자율주행 AI의 경우 가명정보만으로도 사람을 구분하도록 훈련시킬 수 있다는 시각이 지배적이다. 영상 속 인물에 '스켈레톤 키포인트(인체 관절 부위에 좌표를 찍는 기법)'를 표시하거나, '바운딩 박스(사각형 테두리를 입혀 위치와 크기를 나타내는 기법)'를 그려서 학습시키는 식이다.

AI 학습용 데이터 라벨링 예시. 가운데 사진을 보면 3D 캐릭터들에 바운딩 박스가 그려져 있다. 테슬라는 자율주행 AI가 변칙적인 상황에 대처할 수 있도록, 시뮬레이션을 생성해 AI 학습용 데이터로 활용한다. (사진=Tesla AI DAY 2021)
AI 학습용 데이터 라벨링 예시. 가운데 사진을 보면 3D 캐릭터들에 바운딩 박스가 그려져 있다. 테슬라는 자율주행 AI가 변칙적인 상황에 대처할 수 있도록, 시뮬레이션을 생성해 AI 학습용 데이터로 활용한다. (사진=Tesla AI DAY 2021)

그러나 정부는 이런 방식에 한계가 있다는 일부 기업들의 주장을 받아들여, 지난해 실증특례로 지정했다. 주무부처인 과학기술정보통신부는 자율주행 AI가 인물의 얼굴이 드러난 영상 데이터를 학습하면 인식률이 높아진다는 연구 결과를 특례 근거로 들었다.

보이스피싱 예방을 위한 AI도 보이스피싱범의 실제 목소리 데이터로 훈련해야 정확도가 높아진다고 한다. 이 역시 정보주체인 보이스피싱범의 동의를 구해야 하지만 사실상 불가능하다. 이에 당국은 범죄 예방 효과를 기대해 관련 규제를 유예키로 했다.

실증특례를 받기 어렵다면 데이터를 직접 구축하는 것도 방법이다. 연기자를 고용해 개인정보 활용 동의를 구하고 음성이나 초상권을 취득하거나, 테슬라처럼 가상의 환경을 구현하는 것이다. 다만 데이터 수만 건을 구축해야 유의미한 결과를 얻을 수 있는 탓에 비용 부담이 만만치 않다.


가명정보 안전하다지만…재식별 위험은 여전


국민 입장에서는 기업이 개인정보를 가명처리해서 활용한다고 해도 달가울 리 없다. 동의한 적도 없고 대가를 받는 것도 아닌 데다, 본인이 모르는 사이에 개인정보가 쓰이기 때문이다.

나아가 가명처리를 거쳤더라도 개인정보 침해 문제에서 자유로워지는 것도 아니다. 다른 정보와 결합 시 개인이 식별될 가능성이 있기 때문이다.

게다가 모든 개인정보를 완벽하게 탐지하고 가명처리하는 기술은 부재한 상황이다. 개인정보보호위원회가 발간한 <가명정보 처리 가이드라인>에 소개된 예시를 보면, 어떤 주소를 개인정보로 인식하지 못하고 누락하거나, 반대로 개인정보가 아니지만 개인정보로 오인해 가명처리한 사례도 있다.

일각에서는 정보주체가 기업에 가명처리 정지를 요구할 권리를 보장해야 한다는 목소리도 나온다. 민변·참여연대·정보인권연구소·진보네트워크센터 등 시민사회단체들은 가명정보 처리에 관대한 국내 정책을 비판해왔다.

단체들은 SK텔레콤 가입자들이 회사를 상대로 제기한 '가명처리 중단' 소송 결과에도 안타까움을 드러냈다. 대법원은 지난달 1일 해당 소송에서, 원심의 판단을 깨고 회사의 손을 들어줬다. 재판부는 "가명처리는 처리 정지를 요구할 수 있는 개인정보 처리와 다르다"고 해석했다.

정보인권연구소는 뉴스포스트와의 인터뷰에서 "정보주체에게 동의받지 않거나 심지어 고지조차 하지 않는 인공지능 개인정보 학습 관행을 심각하게 우려한다"며 "특히 '정당한 이익'이나 '가명정보' 조항으로 이와 같은 관행이 정당화되는 데 대해 큰 문제의식을 가지고 있다"고 강조했다.

그러면서 "문제는 이렇게 가명처리된 데이터셋을 기업들이 인공지능 학습에 이용할 때 '과학적 연구'로 추정하면서 정보주체의 동의를 구하지 않을뿐 아니라 통보조차 하지 않는다"며 "정보주체 권리 보장를 위한 대책이 시급한 상황"이라고 덧붙였다.

저작권자 © 뉴스포스트 무단전재 및 재배포 금지