지난 8월 AI 허브 데이터셋에서 개인정보가 노출됐다는 의혹이 제기된 가운데, 한국지능정보사회진흥원(이하 NIA)이 추진 중인 개인정보 재검증 과정이 방대한 규모에 비해 턱없이 부족한 인력으로 진행되고 있다는 지적이 나왔다.

국회 과학기술정보방송통신위원회 신성범 의원(국민의힘, 경남 거창‧함양‧산청‧합천)이 24일 NIA로부터 제출받은 자료에 따르면, NIA는 지난 8월부터 ‘가상의 재현 데이터’, ‘개인정보 비식별 처리 데이터’ 등 총 311종(약 250TB) 데이터에 대해 개인정보 재확인 및 검증을 진행하고 있다.

개인정보 재검증은 AI 허브에 공개된 데이터에 이름·주소·전화번호 등 민감 정보가 포함됐을 가능성을 점검하고, 이미 비식별화된 데이터를 다시 한번 검증하는 절차다.

그러나 지난 2개월 동안 재검증을 마친 데이터는 311종 중 7건, 전체에 2%에 불과하다. 이 속도라면 전체 검증을 마치는 데만 약 7년이 넘게 걸린다.

문제는 규모에 비해 인력이 턱없이 부족하다는 점이다. 250TB를 문서 파일로 환산하면 300쪽 책 2억 3천만 권, 약 696억 쪽에 해당한다. 이는 지난 SKT 해킹 당시 유출된 9.7GB보다 무려 25,800배 큰 규모지만, 이를 검증하는 인력은 고작 6명뿐이다.

AI 허브는 과학기술정보통신부와 NIA가 2017년부터 운영해 온 공공 데이터 플랫폼으로, 인공지능 학습용 데이터를 구축·개방하여 연구자와 기업이 활용하도록 지원하는 국가사업이다.

현재 900종이 넘는 데이터가 공개되어 있으며, 음성·이미지·영상·의료 등 다양한 분야를 포함하는 핵심 인프라이지만, 이번 개인정보 노출 의혹으로 신뢰도에 큰 타격을 입고 있다.

신성범 의원은 “국민은 그것이 실제 개인정보인지, 단순히 가상 데이터인지 여부보다 자기 이름과 주소가 노출된 것처럼 보였던 사실 자체에 불안을 느낀다”라며, “아직 검증되지 않은 데이터에 도대체 어떤 정보가 들어 있을지 국민은 우려할 수밖에 없다”라고 지적했다.

이어 “6명이 250TB에 달하는 데이터를 검증한다는 것은 국민을 안심시키기엔 터무니없다”라며 “NIA에만 맡겨둘 것이 아니라 과기정통부가 단순히 인력을 늘리는 것을 넘어, 검증 시스템을 강화하는 등 특단의 대책을 마련해야 한다”라고 강조했다.