당국, AI허브 데이터 속 개인정보 보호 방안 마련
오는 9월부터 전문업체 통해 모든 데이터 검사 예정
[뉴스포스트=김윤진 기자] AI 정책 당국이 민간에 제공 중인 AI 학습용 데이터들에 개인정보 보호 조치가 제대로 이뤄졌는지 조사한다.
과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI를 연구하는 개인·단체에 'AI 학습용 데이터'와 '고성능 컴퓨팅 자원'을 무료로 제공하는 온라인 플랫폼 'AI허브'를 운영 중이다. AI허브는 AI 학습용 데이터 915종을 누구나 쉽게 열람할 수 있도록 열어뒀다.
뉴스포스트는 2025년 8월 7일 <[단독] 과기정통부, 국민 개인정보 6년간 노출…AI 학습용으로 쓰여> 보도를 통해, AI허브 데이터에서 국민 최소 수십 명의 개인정보가 2019년부터 노출돼온 사실을 밝혀냈다. 당국은 해당 보도 이후에 모든 데이터를 대상으로 개인정보 노출 여부 점검에 나섰다.
AI 학습용 데이터 915종 전수조사 시작
지난 보도에서는 915종 가운데 하나인 'A(가칭)' 데이터셋(DataSet)의 개인정보 노출 문제를 조명했다. A 데이터셋은 자연어 처리(NLP)와 거대 언어 모델(LLM) 학습에 활용 가능한 대화문인데, 이 파일 안에 국민들의 이름·주소·생년월일·휴대전화번호 등의 정보가 여과 없이 드러나 있었다.
기자가 이 같은 문제를 제기하자, 당국은 A 데이터셋을 비롯한 전체 전수조사와 더불어 재발 방지 대책을 마련키로 한 바 있다. 19일 당국 관계자 따르면, 우선 NIA 직원들이 개인정보 노출 가능성을 점검 중인 상태다. NIA는 이 과정에서 다른 데이터셋에서도 개인정보 노출을 확인했다고 한다.
본격적인 개인정보 보호 조치는 이르면 내달 초부터 시작한다. 당국은 조만간 용역을 발주하고, 개인정보 비식별화(알아볼 수 없게 수정) 전문업체를 선정해 업무를 위탁할 계획이다.
AI 정책 당국, 행정력·예산 낭비 언제까지
당국이 AI허브 데이터들을 대대적으로 조사한 건 이번이 처음은 아니다. 기자는 정부가 "예산 2조5000억원을 투입해 AI 학습용 데이터 1300종을 구축한다"고 발표한 2020년부터, 당국의 관리감독 실태를 취재해왔기 때문에 그동안의 타임라인을 파악하고 있다.
기자는 2021년에도 다수의 AI 데이터의 개인정보 노출 문제를 제기했다. 당국이 AI허브 데이터들의 개인정보 비식별화가 미흡하다는 사실을 최초로 인지한 것도 이때부터다. 그 뒤 국회, 국민권익위원회, 개인정보보호위원회, 한국인터넷진흥원 등도 구축사업 전반의 관리감독 부실을 지적했다.
국회에서는 2021~2024년 국정감사에서 AI 학습용 데이터 구축사업을 의제로 다뤘다. 이 과정에서 국민권익위원회는 사업비 부정수급 사례를 적발하고 감사를 요구한 사실을 국회에 보고했다.
개인정보보호위원회는 2021년 한국인터넷진흥원을 통해 AI허브 데이터 63종을 추려서 개인정보 노출 여부를 검토했다. 그 결과 사진과 영상, 텍스트 등 다양한 유형의 데이터들에서 노출된 개인정보들을 발견했다.
AI 정책 당국은 이 같은 지적을 받고도 동일한 잘못을 반복하고 있다. 감리, 개인정보 비식별화 전문업체들에게 똑같은 일감을 위탁하며 예산을 낭비한다. NIA는 직원들까지 동원해서 개인정보 노출 여부를 점검하는 상황에 이르렀다.
감사원 "NIA, 사업 관리 매우 허술하다"
감사원은 국가기관의 예산 집행을 감독하는 대통령 직속 기구다. 지난해에는 감사원도 AI 정책 당국의 AI 학습용 데이터 관리 부실을 문제삼았다.
감사원은 과학기술정보통신부와 한국지능정보사회진흥원이 2020년부터 2021년까지 예산 7020억원을 들여 구축한 AI 학습용 데이터 360종의 오류사항을 점검했다. 감사 결과, 개방이 늦거나 품질과 비식별화가 미흡한 122종을 확인하고 지난해 4월 통보·주의 처분을 내렸다.
당시 감사원은 "한국지능정보사회진흥원의 관리 부실로 당초 목표대로 AI 데이터가 구축되거나 개방되지 않았고, 목표한 품질을 달성하지 못한 AI 데이터의 품질 보완이 지연되는 등으로 제대로 활용되지 못해, AI 데이터의 중요도와 막대한 예산 투입에 비해 사업 관리는 매우 허술하다"고 평가했다.
NIA는 2023년부터 순차적으로 시정에 나섰다. 그럼에도 개인정보 노출 사례가 끊이지 않는 까닭은 관리감독 업무 프로세스 개선이 미비했던 탓으로 보인다. 다만 이번에 재발 방지 대책을 다시 마련하겠다고 밝혔으므로 앞으로 경과를 지켜볼 만하다.
'독자 AI', 혈세 낭비 안되려면
정부 AI 정책 화두는 '독자 AI'다. '소버린 AI(Sovereign AI)'로도 불리는 이것은 국내에서 주도권을 보유하는 AI를 뜻한다. 국내 기술력을 바탕으로 개발하며 자국 언어·문화 데이터를 학습시켜, 해외에 주도권을 내주지 않는 데 의의를 둔다.
AI 정책 당국은 IT기업들의 비용 부담을 덜기 위해 2017년부터 AI 학습용 데이터를 구축해왔다. 2020년에는 예산을 대폭 확대했고, 2024년에는 사업명을 '초거대AI 확산 생태계 조성사업'으로 변경했다. 올해는 LG·SK·네이버·업스테이지·엔씨 등 '독자 AI 파운데이션 모델 프로젝트' 정예팀을 통한 데이터 구축에도 나선다. 이들이 구축한 데이터는 향후 AI허브에 적재된다.
당국이 지난 5년간 AI 학습용 데이터 구축에 투입한 예산은 1조6000억원 이상이다. 2020년 3315억원, 2021년 3705억원, 2022년 5797억원, 2023년 2805억원, 2024년 558억원 등이다. 올해는 추가경정예산을 포함해 현재까지 약 700억원을 편성했다. 독자 AI 정예팀 5곳에는 2027년까지 628억원을 지원키로 했다.
현 정부 기조를 보면 내년에는 더 많은 예산을 투입할 가능성이 있다. 대통령 직속 국정기획위원회는 지난 6월 새정부 성장 정책 해설서 '대한민국 진짜 성장을 위한 전략'을 발간했다. 정부 예산과 국민 펀드 자금을 더한 100조원 규모 AI 투자 전략이 담겼다. 이 해설서에서는 AI와 학습용 데이터를 자동차와 석유에 비유하며 중요성을 강조한다.
고성능 AI 모델 개발에는 고품질 AI 학습용 데이터가 핵심이다. 그러나 여전히 AI허브에는 개인정보 노출을 해결하지 못했거나, 수요 예측 실패 혹은 낮은 품질 문제로 저조한 다운로드 수를 기록하며 방치되는 데이터가 존재한다.
기자가 취재 중 접촉한 산학계 관계자들 사이에서는 AI허브 내 데이터량이 충분하진 않지만 유용하다는 의견이 주류를 이뤘다. 산학계가 AI허브 데이터를 신뢰하며 연구에 매진할 수 있도록, 당국의 지속적인 관리감독이 필요하다.
