데이터 자체와 데이터를 어떻게 사용해야 하는 것에 대한 윤리만이 아니라 데이터를 주고받음에도 책임을 가져야 합니다.
데이터들은 같은 곳에 머물려고 하지 않습니다. 심지어 “빅데이터”도 그렇습니다. 어딘가로 움직이기를 원합니다. 데이터 이동이라는 용어는 오랜 역사를 가지고 있습니다 : 데이터 흐름 구조라는 말도 있으며, FlowingData라는 시각화와 관련한 훌륭한 블로그도 있습니다. 그리고 아마존 웹 서비스들은 (문자 그대로) 대량으로 데이터를 옮기는 서비스를 가지고 있습니다. 데이터 이동을 하는 규모와 속도는 수년간 변해왔지만, 컴퓨팅 초창기부터 데이터 흐름의 중요성은 인식하고 있었습니다. 데이터 윤리와 어떻게 사용해야 하는지 고려해 볼 예정이라면 데이터 내용이나 그 규모에 대해서만 생각할 수 없습니다. 어떻게 데이터가 흘러가는지에 대해서도 책임을 져야 합니다.
개인정보라는 맥락에서 헬렌 닛센바움(Helen Nissenbaum)은 데이터 이동성을 개인정보와 윤리와 함께 접목시킵니다. 닛센바움에게 중요한 문제는 데이터가 개인정보이다 공개정보이다 라는 것이 중요한 것이 아니라 어떻게 데이터와 정보가 흘러가는지에 대한 것입니다: 데이터에 어떤 일이 발생하는지 어떻게 사용되는지 입니다. 정보 흐름은 개인정보에 대한 기대치의 중심이며 이런 예측을 고려한다는 것은 데이터 윤리의 핵심입니다. 항상 우리는 데이터를 그냥 놔두고 있습니다. 데이터를 포기하지 않는다면 현대 사회에서 살아가기라는 것은 불가능합니다 : 매장에서 신용카드로 결제하고, 식당에 예약을 합니다. 병원 및 약국에 지불을 합니다. 또한, 데이터가 사용될 것이라는 예상을 보통 하고 있습니다. 그러나 이런 예측에는 어떻게 데이터가 사용될 것이라는 예측을 포함하고 있습니다: 누가 그 데이터에 접근할지, 어떤 이유인지, 어떤 목적들인지 등등입니다.
이러한 예측을 위반할 경우에 문제가 발생합니다. 닛센바움은 "사람들이 가장 관심을 갖는 것은 단순히 정보의 흐름을 제한하는 것이 아니라 적절하게 정보가 흐르도록 보장하는 것입니다."라고 말했습니다. 타겟(Target)이 임신한 10대의 집으로 광고 회람을 보낸 불명예스러운 사례가 좋은 예입니다. 우리는 모두 물건을 사고, 물건을 살 때, 데이터가 사용된다는 것을 알고 있습니다. 청구서를 보내고 재고를 관리하기 위해서 입니다. 앞 사례에서 놀라운 사실은 타겟이 고객의 구매 내역을 통해 임신한 것을 확인하고 임신한 여성들과 앞으로 엄마가 될 여성들을 위한 광고 상품을 집으로 보낸다는 것이다. 문제는 데이터 수집이나 심지어 그 사용 자체도 아닙니다. 문제는 광고가 다양하고 예기치 못한 데이터 흐름을 만들어 낸다는 것입니다. 데이터의 흐름은 마케팅 하청업자에게만 제공되는 것이 아닙니다. 우편함에 넣어지고 (여자 아이의 아버지가 읽으면서) 그 광고 회람은 또 다른 데이터 흐름이 되며, 예상치 않은 데이터 흐름입니다. 더 정확히 말하자면 문제는 우편함에 광고 전단을 넣는 다는 것이 아니라, 이 데이터 흐름이 잘 정의되지 않았다는 것이다. 일단 광고가 우편함에 들어가면, 누구나 그것을 읽을 수 있습니다.
캠브리지 Analytica Case와 관련한 Facebook의 지속적인 문제는 데이터 도난이나 침입의 문제가 아니라 예상치 못한 데이터 흐름의 문제입니다. "This is Your Digital Life"라는 게임을 한 고객들은 자신들의 데이터가 정치 마케팅에 사용될 것이라고 예상하지 못했습니다. 페이스북은 2015년 케임브리지 분석가를 불러 데이터를 삭제해 달라고 요청했지만 실제로 삭제됐는지, 아니면 더 공유했는지에 대해서는 아무런 조치도 취하지 않은 것으로 보입니다. 일단 자료가 흐르기 시작하면, 그것을 멈추는 것은 매우 어렵습니다.
데이터 흐름은 매우 복잡할 수 있습니다. Danah Boyd은 It’s Complicated의 2장 The Social Lives of Networked Teens에서 10대들이 소셜 미디어에서 사용하는 여러 의미와 그들의 그룹 내에서 대중 매체로 의사 소통하기 위한 전략을 설명합니다 : 특히, 자신의 그룹에 속해 있지 않은 부모나 다른 사람들이 이해할 수 없도록 설계된 암호화된 메시지의 사용이 사례입니다. 통제할 수 없는 것으로 보이는 정보 흐름을 통제하기 위한 전략을 만들고 있습니다. 십대들은 부모들이 그들의 페이스북 피드를 보는 것을 막을 수는 없지만, 부모들이 자신들이 실제로 말하는 것을 이해하는 것을 막기 위해 은어화한 언어를 사용할 수 있습니다.
데이터로 작업하는 모든 사람들은 데이터를 다른 데이터와 결합할 때 훨씬 더 강력해진다는 것을 알고 있습니다. 식료품점 구매 내역처럼 무해해 보이는 데이터라도 지리 데이터, 의료 데이터 및 기타 종류의 데이터와 결합하면 사용자와 사용자의 행동을 매우 정확하게 특징 지을 수 있습니다. 어떤 사람이 담배를 사는지 안 사는지 안다는 것은 심장 환자가 베이컨을 사는지 알 수 있는 것과 같이 보험 회사가 큰 관심을 가질 수 있습니다. 일부 지역에서는 경찰 인력 보강이 불가피하지만 그런 지역에서는 더 많은 체포가 이뤄지고, 더 많은 범죄가 발생하게 됩니다. 데이터 흐름은 복잡한 모습을 가지고 있습니다. 즉, 여러 입력, 출력, 피드백 루프 등입니다. 문제는 데이터가 어디로 이동하고 어떻게 공유될 것인가가 아니라 어떤 들어오는 데이터가 데이터와 섞일 것인가 하는 것입니다.
닛센바움은 어떤 데이터가 "개인적"이어야 하는지, 그리고 데이터가 어디로 이동할 수 있는지, 그 이동에 대한 기대, 그리고 데이터가 목적지에 도달할 때 어떤 일이 일어나는지에 대한 절대적인 개념을 질문해서는 안 된다고 주장합니다. 직관적입니다. 약국이나 식료품점은 단지 사업을 하기 위해 많은 데이터를 수집합니다. 또, 청구서 발송과 재고 관리도 해야 합니다. 데이터를 리믹스, 공유 및 일반화하는 방법을 어느 정도 제어할 수 있습니다. 하지만 파트너들이 궁극적으로 어떻게 데이터를 사용하는지는 제어할 수 없습니다. 광고 대행사들이 보내는 우편물을 통제할 수 있을지도 모르지만, 누가 무고한 여성 제품에 대해 빨간 깃발을 올리게 될까요? 그것은 보험 회사나 심지어 정부 기관까지도 그 데이터로 할 수 있는 일을 통제할 수 없습니다: 의료 혜택을 거부할까요? 사회복지사를 보내요? 많은 경우, 소비자들은 어떻게 또는 이유는 말할 것도 없고 사생활이 침해되었다는 사실조차 알지 못할 것입니다. 그들은 단지 어떤 일이 일어났다는 것을 알 것입니다.
개발자로서, 어떻게 하면 사용자의 기대에 따라 데이터 흐름을 이해하고 관리할 수 있을까요? 이는 복잡한 질문입니다. 부분적으로 사용자와 개발자의 요구와 기대치가 다르기 때문입니다. 그리고 사용자들이 자신의 데이터가 어떻게 활용될 수 있는지 이해한다고 가정할 수 없습니다. 또한 가능한 모든 흐름을 열거하고 평가할 때 그러한 흐름의 결과와 함께 NP-hard는 분명합니다.
하지만 우리가 전지전능하지도, 완벽하지도 않다는 것을 인식한 가운데 어려운 질문을 하면서 시작할 수 있습니다. 우리가 직면하고 있는 문제는 실수가 있을 것이라는 것이 아닙니다. 물론 그럴 것이기 때문입니다. 문제는 더 많은 실수가 발생할 것이고, 데이터 흐름에 대한 책임을 지지 않는다면 더 많은 피해가 발생할 것이라는 것입니다. 그 책임은 무슨 뜻일까요?
윤리적인 데이터 처리 원칙(그리고 일반적으로 인간 실험)은 항상 "정보적인 동의"를 강조합니다. 닛센바움의 문맥에 대한 논의에서는 정보에 입각한 동의는 데이터 흐름에 관한 것보다 사용에 관한 것이 덜 중요하다는 것을 암시합니다. 올바른 질문은 "당사의 파트너가 귀하가 관심 있는 제품에 대해 제공할 수 있습니까?"가 아니라, "당사의 구매 데이터를 다른 기업과 공유할 수 있습니까?"입니다. (그렇다면, 어떤 기업일까요?) 또는 "당사의 구매 데이터를 다른 인구 통계 데이터와 결합하여 향후 구매를 예측할 수 있습니까?". (그렇다면 다른 인구 통계 데이터는 무엇일까요?)
예상치 못한 데이터 흐름을 방지하는 한 가지 방법은 데이터를 사용하기 전에 데이터를 삭제하는 것입니다. 삭제된 데이터는 남용하기 어렵습니다. 10년 전, 데이터 개발자들은 "모든 것을 저장하세요. 스토리지는 저렴합니다."라고 말했습니다. 이제 우리는 그 말이 순진하다는 것을 알고 있습니다. 목적에 맞게 데이터를 수집하는 경우, 예를 들어 대부분의 도서관은 책을 반환한 후 사용자가 반납한 책의 기록을 삭제해야 합니다. 삭제된 데이터는 도난당하거나 실수로 공유하거나 법적 영장에 의해 요청할 수 없습니다. "모든 것을 저장"한다는 것은 골치 아픈 데이터 흐름을 불러옵니다.
하지만 데이터 삭제라는 말 자체는 하기 쉽습니다. 페이스북이 캠브리지 분석에서 알아낸 바와 같이 어려운 점은 누군가에게 데이터를 삭제하라고 요구하는 것이 실제로 삭제한다는 것을 의미하지는 않는다는 것입니다. 데이터가 삭제되었다는 것을 증명하는 것은 쉽지 않습니다. 작업에 적합한 감사 도구가 없습니다. 대부분의 경우 "삭제"가 무엇을 의미하는지 명확하지 않은 경우가 있습니다. 즉, 백업을 통해 데이터가 제거되었음을 의미합니까? 실제로 제거된 데이터는 백업되지 않습니다. 시스템을 알려진 상태로 복원하는 데 신뢰할 수 있습니까? 신뢰할 수 있는 백업은 윤리적인 데이터 처리의 중요한 부분이며 자주 논의되지 않는 부분이지만 데이터가 자연스럽게 유출되어 계속 흘러갈 수 있는 경로이기도 합니다.
그리고 삭제가 항상 사용자들에게 유리하게 작용하지는 않습니다. 데이터를 조기에 삭제하면 고객 결정에 이의를 제기하기가 어렵습니다. 수정을 통해 적절한 솔루션을 찾기 위해 어떤 일이 발생했는지 재구성할 수 있다고 가정합니다. 과거에는 개인의 개인 정보 보호를 위해 삭제되는 것보다 강력한 보안을 위해 더 많은 데이터가 삭제되었습니다. "완전"할 수 있는 능력은 강력하며 과소평가되어서는 안 됩니다. 더 이상 필요하지 않은 데이터는 즉시 삭제해야 하며, 데이터가 실제로 필요하지 않은 시기를 판단하는 것은 사소한 문제가 아닙니다.
이것은 간단한 기사에서 해결할 수 있는 문제가 아닙니다. 그러나 이러한 문제는 데이터 커뮤니티에서 인지하고 직면해야 하는 문제입니다. 계속 존재할 것입니다. 시간이 지날수록 더 심각해지고 중요해질 것입니다. 데이터는 어떻게 흐릅니까? 예상치 못한 방식으로 또는 원치 않는 방식으로 데이터가 흐르는 것을 방지하기 위해 어떤 댐과 제방을 만들 수 있습니까? 그리고 일단 우리가 그 제방을 만든다면, 그것들이 무너지면 어떤 일이 일어날까요? 그것은 불가피하게 내년에 가장 중요한 이야기들 중 하나가 될 것입니다.
*****
마이크 루키데스 (Mike Loukides)는 O'Reilly Media, Inc.의 콘텐츠 전략 담당 부사장입니다. 그는 윈도우 프로그래밍과 관련이 없는 기술적인 주제에 관한 많은 높이 평가되는 책들을 편집해 왔습니다. 그는 특히 언어 프로그래밍, 유닉스 그리고 요즘 유닉스로 향하는 것들, 그리고 시스템과 네트워크 관리에 관심이 있습니다. Mike는 System Performance Tuning의 저자이며 Unix Power Tools의 공동 저자입니다. 가장 최근에, 그는 데이터와 데이터 분석, R, Mathmatica, Octave와 같은 언어들을 가지고 장난을 치고 있습니다. 그리고 어떻게 책을 사회로 만들 것인가에 대해 생각해 보았습니다. Mike는 Twitter @mikeloukides 및 LinkedIn에서 연락할 수 있습니다.
번역 : 김영하
최신 콘텐츠