데이터 개방에 대한 찬반 의견
▶︎ 데이터 개방 반대 입장
→ 개인정보 유출로 인한 사생활 침해
→ 정보 유출로 인한 범죄에 노출될 수 있으며, 보안 위험과 사이버 범죄 증가
→ 잘못된 해석으로 왜곡된 정보를 확산시켜 사회적 혼란을 유발할 수 있. 오용 가능성
→ 데이터 전문성 차이로 발생하는 또다른 정보 불균형. 데이터는 개방이 되어 누구나 이용가능하지만 그 데이터를 이해하고 잘못된 데이터를 처리하고 제대로 활용하기 위해서는 데이터에 대한 기본적인 개념과 도메인 지식을 알고 있어야 한다. 또는 데이터의 품질을 평가하고 제대로 된 해석을 해야 하는데 그렇지 않을 경우 잘못된 의사결정으로 이어질 가능성이 높다. 데이터를 알고 모르는 사람들에 대한 격차가 더욱 커질 것이다.
→ 특정 집단, 기업만 알고 있던 정보를 모두가 알게 되면서 전문성에 대한 장벽이 낮아지고 잘못된 의사결정으로 위험을 초래할 수 있다.
▶︎ 데이터 개방 찬성 입장
→ 투명성을 증진시키고 공정성을 강화할 수 있다. 데이터 공개로 제공하는 측의 의사결정 프로세스가 투명하게 되며, 정부와 시민, 기업 등 제공측과 제공받는 측의 신뢰를 증대시키고 사회적 실현 가능성을 높인다.
→ 새로운 비즈니스 모델로 이어져 새로운 제품과 서비스가 탄생하고 개선될 수 있다.
→ 이러한 혁신의 움직임은 경제적 활동을 촉진하고 새로운 일자리를 창출하여 경제 성장을 촉진한다.
→ 공개된 데이터를 활용하여 사회적 문제를 해결할 수 있다. 예를 들어, 공공 보건 데이터를 분석하여 질병의 유행을 예측하고 예방하는데 활용하거나, 도시 교통 데이터를 활용하여 교통 체증을 해결하는데 활용할 수 있다.
→ 개방된 데이터로 학계 및 연구 기관에 의해 활용되어 새로운 연구 및 학문의 발전을 촉진할 수 있다. 다양한 분야에서 데이터를 활용한 연구를 통해 새로운 지식과 통찰력을 얻을 수 있으며, 이는 사회적 발전에 긍정적인 영향을 미친다
▶︎ 데이터를 개방했을 때 발생하는 문제를 해결할 수 있는 방안
→ 가명처리 / 익명화 / 데이터 마스킹
→ 개인 정보 동의. 대상에게 개인 정보 수집 및 활용에 대한 동의를 받는다
→ 제공받는 사용자의 역할과 책임에 따라 접근할 수 있는 권한을 제한함.
→ 보안 교육 및 훈련으로 데이터 보호에 대한 인식을 높이고 보안 교육 및 훈련을 제공하여 직원들의 보안 인식을 향상시킴
→ 교육을 통해 올바르게 데이터 해석할 수 있는 법을 기르고 고의적인 눈속임에 속지 않도록 데이터 분석 역량 햠양
→ 법적 규정을 제정하고 강화하여 개인정보 보호 및 데이터 보호
→ 암호화, 방화벽, 침입 탐지 시스템 철정한 보안 기술을 활용하여 스스로도 데이터를 보호하고 무단 액세스로부터 보호
▶︎ 데이터 개방에 대한 내 입장 (참고로 저는 데이터 분석가...ㅎ)
→ 정확도 향상을 위한 양질의 데이터 수집의 중요성.
제가 대학생 때 박근혜 정부가 공공데이터포털을 개방하여 공공 데이터를 누구나 편하게 사용할 수 있게 되었습니다. 그 때 데이터 분석 공부를 하고 있어서 데이터 수집에 도움을 받았습니다. 연령대별 일자리 만족도 데이터, 행복지수, 유치원/학교 정보, 지하철 위치 정보 등 개인 혼자서는 얻기 힘든 데이터를 포털에서 쉽게 수집하였습니다. 데이터를 분석하기 전에 가장 기본이 되는 것은 '양질의 데이터 수집'입니다. 서울과 부산의 아파트 실거래가 예측하는 대회를 나가서 RMSE를 줄이기 위해 아파트의 위경도에 대해 거리를 계산해 일정 거리 내에 있는 학교와 지하철, 공원의 개수를 피쳐로 추가하여 정확도를 높인 경험이 있습니다. 이렇게 양질의 데이터는 분석에 있어서 중요합니다. 개방된 데이터 덕분에 프로젝트를 하면서 데이터 분석 실력을 향상시킬 수 있었고 업무를 간접경험하면서 실무 역량을 키울 수 있었습니다. 또한 그 덕분에 데이터 분석가로 취업도 할 수 있었습니다.
→ 데이터가 많으면 많을수록 기술도 빠르게 발전한다. 함께 협력하고 상생하는 관계가 되자.
저는 현재 자연어처리에 대해 공부하고 있습니다. 챗GPT만 봐도 인공지능 기술력이 어마어마합니다. 하지만 한국어보다 영어로 대답했을 때 더욱 풍부하고 정확한 정답이 도출되는 거 아시나요? 그 이유는 오픈ai가 미국꺼라 영어 말뭉치를 많이 가지고 있는 것은 당연하지만 한국어는 그 정도로 많은 데이터를 얻을 수 없었기 때문에 그렇습니다. 학습한 언어의 1.3% 정도만이 한국어라고 합니다. 우리나라는 미국보다 데이터를 공유/개방하지 않는 문화입니다. 플랫폼 기업들이 자기들의 데이터를 가지고 공개를 하지 않고 내부에서 관리하고 연구하여 데이터를 가지고 있는 조직과 그렇지 않은 조직의 미래 격차는 더욱 커질 것으로 예상됩니다. 또한 미국은 코드나 기술을 공유하면서 빠르게 발전해나가는데 우리나라는 대체로 숨기고 회사 기밀로 하여 경쟁을 하기 때문에 긍정적인 경쟁이 되지 못하여 기술의 발전이 더딘 것도 있는 것 같습니다. 공부도 서로 알려주면서 해야 서로 실력과 성적이 느는데 ㅠㅠ
→ 공공 서비스 향상.
혹시 코로나 확진자의 동선을 알려주는 코로나맵을 기억하시나요? 이걸 그 때는 좋았지만 지금은 과했다고 평가받을 수도 있을 것 같네요. 하지만 저랑 같은 학교 같은 과 학생이 만들어서 더욱 기억에 남고 대단하다고 생각합니다. 모두가 갑작스런 바이러스로 불안해하던 시절. 질병관리본부에서 제공하는 공신력 있는 데이터를 가지고 지도상에 관련 정보를 그리고 집계하여 확인할 수 있도록 하였습니다. 많은 사람들이 이용하여 서버가 터진 적이 있다고 할 정도로 알고 싶은 정보를 한 번에 정보를 확인할 수 있었습니다. 또한 성범죄자의 신상을 알려주는 성범죄자 알림e 를 들어보셨을 겁니다. 공공데이터를 통해 안전을 보호받고 사회적 문제를 해결할 수 있습니다. 어느 방면에서는 확진자나 범죄자의 사생활에 대한 목소리도 나오기 때문에 추후 잘못된 일이 일어날 때 책임에 대한 법적인 기준도 필요하긴 합니다.
▶︎ 마지막 정리
마이데이터로 하나의 은행앱에서 모든 금융 계좌의 잔액을 확인할 수 있게 되었습니다. 편리하지 않나요?? 데이터생태계가 더 많이 융합되면 더 편리하고 새로운 비즈니스 모델을 창출되고 지능화된 사회, 효율적인 생활이 촉진될 것입니다.
모든 일이 완벽하게 좋은 일만 있을 수는 없듯, 데이터 개방도 분명 위험은 존재합니다. 하지만 전세계적으로 빠르게 발전하는 인공지능 기술력, 서비스 경쟁력을 보았을 때 데이터 개방은 잃는 것보다 얻는 것이 많다고 생각합니다. 특히, 한국 기업이 전세계적으로 경쟁력을 갖고 한국이 발전하려면 데이터 개방이 필요하다고 생각합니다.
데이터뿐만 아니라 기술, 경험, 사회 환원하는 모든 것이 흐르게 되면 시작점이 달라져 발전할 수밖에 없습니다. 따라서 데이터 처리방법, 기술, 모델 알고리즘도 공유하며 건강한 경쟁을 해야합니다. 데이터 민주주의라는 말이 있습니다. 데이터 민주주의란 특정한 개인에 대한 정보가 아니면, 누구나 그 데이터를 접근, 사용, 재사용 및 재배포 할 수 있어야 한다는 것인데요 이와 비슷하게 인공지능의 민주화도 있습니다. 또한 유명한 테크 기업들은 본인들이 만든 모델이나 알고리즘을 웹사이트에 올려놓고 공유하곤 합니다. 마침 프로젝트를 위해 찾아보고 있던 허깅페이스 문서에도 "지난 두 튜토리얼에서 분산 설정을 위해 PyTorch, Keras 및 🤗 Accelerate를 사용하여 모델을 미세 조정하는 방법을 보았습니다. 다음 단계는 모델을 커뮤니티와 공유하는 것입니다! Hugging Face는 인공지능의 민주화를 위해 모두에게 지식과 자원을 공개적으로 공유해야 한다고 믿습니다. 다른 사람들이 시간과 자원을 절약할 수 있도록 커뮤니티에 모델을 공유하는 것을 고려해 보세요." 라는 말이 있네요! 함께 힘을 합쳐 더 빠른 기술 향상과 경제 성장을 이루면 좋겠습니다.
다들 어떻게 생각하시나요?
참고 자료
데이터 민주주의와 마이데이터 : https://www.2e.co.kr/news/articleView.html?idxno=208261