이제 국가통계자료를 개인정보 노출 위험 없이 더 안전하게 활용할 수 있게 된다. 통계청은 마이크로데이터의 개인정보 노출 위험을 평가하고, 특정 개인이나 사업체를 식별할 수 없도록 처리하는 프로그램인 ‘KOSTAT-Did (De-identification)’를 개발하여 국가통계작성기관을 대상으로 9월 4일(목)부터 서비스를 시작한다고 밝혔다.
최근 인공지능(AI) 대전환 시대를 맞아 인공지능 학습용 데이터 개방 등 개인 및 사업체 단위의 상세 자료 제공 요구가 증가하고 있다. 하지만 국가통계작성 기관들은 마이크로데이터 전면 개방의 가장 큰 장애 요인으로 개인정보 노출 위험을 꼽고 있었다. 제공되는 자료가 상세할수록 정보의 유용성은 높아지지만, 그만큼 개인정보 노출 위험도 함께 증가하기 때문이다.
통계청은 이러한 문제를 해결하기 위해 2023년 ‘통계작성 및 통계자료 제공을 위한 비식별화 가이드라인’을 배포하여 개인 및 단체 기밀 보호와 통계적 유용성 간 균형을 권고한 바 있다. 이어 2024년에는 담당자들이 수작업으로 처리해오던 비식별화 업무를 지원하기 위해 엑셀 기반의 자동 프로그램인 KOSTAT-Did를 개발했다. 이 프로그램은 통계청 및 외부 기관 실무자와 전문가들의 테스트를 거쳐 최종 확정되었으며, 통계정책관리시스템(www.narastat.kr/pms/index.do)을 통해 제공된다. 또한, 10월부터는 국가통계작성 기관을 대상으로 맞춤형 사용자 교육도 실시할 예정이다.
KOSTAT-Did 프로그램은 통계자료의 특성을 고려하여 마스킹, 범주화, 통계적 잡음(노이즈) 첨가, 자료 교환(스와핑) 등 총 15종의 비식별화 기법을 지원한다. 예를 들어, 마스킹은 “김OO”와 같이 기호를 사용하여 일부 정보를 가리는 방식이며, 범주화는 유일한 속성으로 인해 개체가 식별될 위험이 있는 경우, 해당 값을 보다 큰 범주의 값으로 대체하는 방식이다. 예를 들어, 102세의 초고령자 연령을 “100세 이상”으로 범주화하는 것이 이에 해당한다.
이 프로그램의 또 다른 특징은 비식별화 처리가 완료되면 표준화된 평가 보고서가 자동 생성된다는 점이다. 처리 전후의 정보 손실도 및 노출 위험도를 시각화된 그래프와 정량화된 지표로 비교할 수 있어, 통계 담당자는 통계자료의 객관적인 정보 보호 수준을 측정하고 평가할 수 있다. 기관 차원에서는 프로그램에서 제공하는 정량화된 측정 지표와 기준을 활용하여 최적의 마이크로데이터 공개 범위를 설정하는 데 도움을 받을 수 있다.
안형준 통계청장은 “통계청이 통계자료 개방 관련 지침이나 가이드라인 제공을 넘어, 실무에 적용할 수 있는 자동 프로그램을 보급한 것은 이번이 처음”이라며, “정부가 AI 대전환을 통한 세계 3대 AI 강국 도약을 목표로 하고 있으며, 이를 위해서는 양질의 데이터인 국가통계를 안전하게 개방할 수 있는 인프라 지원이 반드시 필요하기 때문”이라고 보급 배경을 밝혔다. 또한, “이번 비식별화 프로그램 보급을 계기로 통계청은 최신 정보보호 신기술 연구와 인프라를 확충하여 437개 국가통계작성 기관 전체가 더 많은 데이터를 손쉽고 안전하게 개방할 수 있도록 적극 지원하겠다”라고 덧붙였다.
더 많은 이야기
‘AI, 나의 거울’ 출간, AI와의 대화로 ‘나’를 더 깊이 이해하는 새로운 통로가 열립니다.
K-바이오 의약품, 2030년까지 수출 2배 늘린다! 나도 혜택 받을 수 있다
APEC 스타트업 얼라이언스 출범! 이제 우리 스타트업도 세계로 뻗어나간다