Journal

저 곳의 프라이버시 침해는
곧 이 곳의 프라이버시에 대한 위협 :
자살방지 핫라인에 털어놓은 나의 문자 상담 대화가 고객관리 인공지능을 훈련하는 데에 사용된다면

오요한

열며 :
2022년 6월 어느 날 Loris.ai 라는 이름의 미국 인공지능 기업 논란을 우연하게 한 트윗을 통해 접하게 된 이후 나에게 한 가지 소원이 생겼다. “이 논란의 당사자들과 ≪연애의 과학≫ 앱의 연인간 채팅 데이터로 학습된 ≪이루다≫ 챗봇 사태 당사자들이 서로가 서로를 알게 되어야 할텐데.” 전례 없을 정도로 독특하고 유일하게 보이는 사안일수록 해당 사안이 처해있는 보다 보편적인 구조와 요인이 무엇인지 파악할 필요가 있다. 그리고 나는 이 두 사안이 서로가 서로의 렌즈가 되어줄 수 있다고 생각한다. 이 글은 2021년 1월 이른바 ‘이루다 사태’를 경유해 인공지능 챗봇의 사회적 논란을 익히 겪은 한국의 독자들에게 2022년 1월 벌어진 미국의 인공지능 고객관리 소프트웨어를 둘러싼 논란을 소개하고, 이를 ‘이루다 사태’와 비교한다. 나는 이루다 사태를 정통으로 통과한 한국 독자들이야말로 미국의 이 논란을 누구보다 깊게 이해할 수 있는 역량을 갖추었다고 짐작한다. 나는 두 가지 기대를 갖는다. 먼저 나는 한국의 독자들이 미국의 피해입은 당사자들의 마음을 공감할 수 있는 지지자가 되어주기를 기대한다. 또한 나는 한국의 독자들이 “이루다 사태”를 돌출적인 현상이 아니라 보다 큰 흐름의 일부로서 조망할 수 있게 되기를, 그리하여 아직도 진행되고 있는 이루다AI 개인정보 유출 피해자 집단소송에 대한 관심을 환기할 수 있게 되기를 기대한다.

1. 비영리단체의 대화 데이터셋이 AI 영리기업에 공유된 문제가 공론화되고 일단락되기까지

크라이시스 텍스트 라인 (Crisis Text Line, 이하 CTL)이라는 비영리단체가 단체 산하의 상담제공 자원봉사자와 자살위기의 상담요청자 사이의 상담 문자 데이터셋을 Loris.ai 라는 영리기업에 공유하여 해당 기업이 고객지원 AI 를 만드는 데에 도움을 주었다는 사실이 2022년 1월 Politico 라는 미국의 정치 전문 온라인 매체의 탐사 보도를 통하여 알려졌다. CTL은 미국에서 2013년 설립되어, 미국/캐나다/영국/아일랜드에 문자메시지, 페이스북 메신저, 왓츠앱 서비스를 통하여 자살 생각, 약물 남용, 정신 건강 등에 대하여 실시간 상담을 원하는 문자 발신자에게 crisis hotline 서비스를 하는 다국적 비영리단체로서, 데이터분석 기술을 접목하여 단체의 사회적 사명을 혁신적으로 달성하려는 단체로 알려져 있었다. 사용자 중 상당수는 십대와 이십대, 그리고 LGBTQ+ 인 것으로 알려져있다. 한편 Loris.ai 는 고객센터 상담원과 고객간의 대화를 실시간 분석하여 상담원이 반응할 문구를 추천하는 기계학습 기반의 소프트웨어를 제공하는 고객관리 소프트웨어 회사로서 2018년 설립되어 2021년 4월 정식 제품을 내놓은 바 있다. Loris 의 홍보문건에 따르면 자사가 개발하는 고객지원 AI의 핵심에는 Crisis Text Line의 거의 2억 건의 메시지를 분석하여 얻은 언어 처리 능력이 있었다.

Crisis Text Line 에서 실시간 문자 상담받는 데모

https://www.crisistextline.org/text-us

Loris.ai 의 고객관리 소프트웨어는 고객센터 상담원이

고객의 정서를 지지할 수 있는 표현을 추천하여 제안한다

https://loris.ai/agent-training-guidance

사안에 대해 파악하려면 CTL이 "기술 혁신”하려고 했던 분야인 “crisis hotline”에 대하여, 그리고 CTL의 혁신 방식을 조금 더 알아볼 필요가 있다. 한국에서 “긴급 상담 전화”로도 익히 알려진 “crisis hotline”은 미국에서 1950년대 즈음 자살 위기에 놓인 사람들을 돕기 위해 시작되어 미국 전역 및 전세계로 퍼진 무료 전화 상담 서비스를 두루 칭하는 명칭이다. 서비스의 지리적 확산과 함께, 자살 위기자 뿐만 아니라 여러 정신 건강 문제, 가정 폭력 등으로 도움을 필요로 하는 사람들에게까지 실시간 상담을 제공하며 보다 넓은 범위의 도움이 필요한 사람들에게 그 역할을 넓혀 왔다. 대개 공공 기관이나 민간 단체에서 이러한 서비스를 제공하며, 훈련받은 자원봉사자들이 전화로 도움을 요청해온 사람들에게 긴급 상담을 제공하는 형식을 취한다.

그렇다면 2013년 설립된 Crisis Text Line 은 통상적인 crisis hotline 과 무엇이 달랐는가? 이 비영리단체의 이름에서 시사하듯, 이 단체의 상담 서비스는 전화가 아닌 문자 형태로 제공되었다. 만약 어떤 사람이 이곳의 전화번호에 문자 메시지를 보내 상담을 요청하면, 전문가로부터 훈련받은 수 천명의 자원봉사 상담사 중 한 명이 상담요청자와 문자 메세지를 주고받는 방식으로 연중 24시간 무료 상담을 제공한다. CTL에 따르면, 2013년 시작된 이래 CTL을 통하여 670여만건의 대화를 통하여 2억 1천9백만 건의 메시지가 교환되어왔다.

Crisis Text Line의 또 다른 특징은 이 비영리기관의 사명을 효율적으로 달성하기 위한 수단으로서 데이터 분석을 강조한다는 점이었다. 한 예로 Crisis Text Line의 공동창립자이자 전 최고경영자인 낸시 루블린(Nancy Lublin)은 2015년 미국 캘리포니아 주 몬테레이(Monterey)에서 열린 TED 공식 컨퍼런스 “TEDWomen 2015”에서 “crisis text line 의 데이터가 생명들을 구하는 방식 (How data from a crisis text line is saving lives)”이라는 제목의 강연을 했다. 이 강연에서 그녀는 CTL이 특정 단어로부터 상담 요청자의 상황을 신속하게 분류하는 방법을 소개했다. “만약 당신이 ‘감각이 마비된 (numbs)’ 그리고 ‘소매(sleeve)’라는 단어를 포함해 문자를 보냈다면 이는 “자해 (cutting)”와 99% 대응된다는 것을 우리가 압니다. 만약 당신이 ‘mg’ 그리고 ‘고무줄 (rubber band)’라는 단어를 포함해 문자를 보냈다면 이는 “약물 남용(substance abuse)”과 99% 대응된다는 것을 우리가 압니다. 만약 당신이 ‘섹스(sex)’, ‘구강 (oral)’ 그리고 ‘모르몬 교(Mormon)’라는 단어를 포함해 문자를 보냈다면 당신은 스스로가 게이인지 의문을 품고 있다는 것을 우리가 압니다.”

기술적 혁신을 도구 삼아 사회적 미션을 해결한다는 Crisis Text Line의 참신한 위상은 많은 관심을 불러일으켰다. 한 예로 CTL은 구글 재단(Google.org)이 인공지능 및 기계학습이 산업계 뿐만 아니라 비영리 및 공공 분야에도 확산될 수 있도록 지원하기 위해 2019년 선정한 “Google AI Impact Challenge”에서 2,600여 곳의 지원자들 중 CTL이 20곳의 수상자 중 한 명으로 선정되었다.

CTL은 외부단체와도 활발하게 연계해서 활동을 확대해왔다. 먼저 CTL은 80곳 이상의 비영리 단체 (자살 방지 운동 및 정신 건강 관련 시민단체, 청소년 단체, 교회 등), 30여 곳 이상의 지방 정부 단체 (버몬트 주 정신건강부, 워싱턴 주 보건부, 뉴욕 주 정신건강국, 오하이오 정신 건강 중독 서비스 부, 육군 연방 예비군, 오세이지 부족 [Osage Nation]), 그리고15곳 이상의 대학교/고등학교 등 교육기관(럿거스 대학교, 뉴욕 시립대, 미시건 대학교, 플로리다 주의 새러소타 (Sarasota) 학군)과 협약을 맺었다.

특히 오하이오 주는 CTL과 밀접하게 협력해 왔다. 오하이오 주와 CTL 가 2016년부터 진행 중인 “4HOPE” 캠페인을 통한 결과 및 통계는 온라인 대시보드를 통해 공개되어 있기까지 하다. 해당 대시보드에 따르면 2016년 5월부터 2022년 10월까지22,670명이 48,802건의 대화를 나누었고, 자살 생각, 계획, 수단을 밝힌 문자발신자의 자살 생각을 “단계적 축소(de-escalation)”시킨 사례가 606건, 상담자가 단계적 축소를 할 수 없는 상황에서 응급의료요원, 소방관, 경찰관 등에 연락하여 “적극적 구조 (active rescue)”한 사례가 322건 보고되었다. 특이할 만한 점은 14-17세 연령 그룹이 전체 연령 중 34.9%로 가장 높은 비중을 차지하고, 13세 이하도 14.0%를 차지한다는 점, 문자 발신자 중 이성애자와 LGBTQ+가 차지하는 비율은 각각 54.8%, 46.0%로 LGBTQ+가 이 서비스에서 높은 관심을 보이고 있다는 점 등이다.

POLITICO의 보도에 담긴 인터뷰에 따르면 CTL 측은 이러한 우려를 일축했다. 먼저 CTL은 CTL 상담의뢰인들의 동의를 구했다고 밝혔다. CTL의 부회장이자 법무 자문(general counsel)인 숀 로드리게즈(Shawn Rodriguez)는 POLITICO 에 보낸 이메일에서 이렇게 답변했다. “크라이시스 텍스트 라인은 문자 발신자 각각에게서 고지된 동의 (informed consent)를 얻었습니다. … 우리 기관의 데이터 공유 실행방안은 서비스 약관 및 개인정보 정책 [문서]에 명확하게 진술되어 있으며, 해당 문서에 대하여 모든 문자 발신자가 동의해야만 개별 자원봉사 위기 상담자와 연계될 수 있습니다.” 또한 Loris.ai 측에 공유한 데이터는 모두 CTL 에 상담을 의뢰한 사람들을 식별하는 데에 사용될 수도 있는 상세정보가 제거되어 완전히 “익명화(anonymized)”되었다고 밝혔다.

하지만 프라이버시 전문가들은 적어도 두 가지 잠재적인 이슈가 있다고 보았다. 먼저 재식별화가 어렵긴 해도 결코 불가능하지는 않다는 점이다. 비식별화가 재식별화 가능성을 낮추긴 해도, 비식별화가 reverse-engineered 될 수 있는지 여부는 아직 충분하게 알려지지 않았다. 그리고 만약 한 개인이 CTL 측에 상담을 요청했다는 사실이 외부에 알려지게 된다면, 이로 인해 그 사람의 현재 지위를 잃게 되는 등의 위험에 빠질 가능성이 있다. 이는 마치 1980년대에 개인의 HIV 상태가 알려지는 것, 혹은 현대에 미성년자가 피임 혹은 임신 중절 관련 상담을 받은 기록이 부모에게 알려지는 것에 비견될 만 하다는 것이다.

다른 종류의 이슈로는 설령 비식별화로 인한 우려가 없다고 할지라도, 절박한 위험에 처한 CTL 상담요청자들이 과연 방대한 분량의 동의 내용을 읽어보기라도 했을지, 설령 읽으려 시도했더라도 충실하게 이해했다고 볼 수 있겠냐는 점이었다. 상담을 요청한 사람들이 받고 있었던 정서적인 스트레스를 감안할 때 이들이 최초에 서비스 약관 링크를 마주쳤을 때 이를 다수의 사람들이 열어 보았으리라 기대하는 것은 어렵다.

Politico 의 보도에 인용된 CTL의 여러 전/현직 자원봉사 상담자들은 CTL이 상담 문자 데이터셋을 영리기업에 제공한 것을 문제적이라 볼 수 있는 다른 관점을 제공한다. 요컨대, 위험에 처한 사람들이 자신을 보호할 가드를 내려놓은 채 털어놓은 취약한 순간의 대화내용을, 그리고 자원봉사자들이 선의로 무상제공한 상담노동을 상업화하지 말라는 것이다. 계약종료된 전직 자원봉사 상담자 팀 리어슨은 말한다 “당신이 누군가와 대화 중이고 그 대화가 어떻게 끝날지 모른다면, 그건 정말 섬세하고, 연약하고, 상처입기 쉬운 공간입니다. [CTL에 연락을 취하는 사람들 중에는] 탁자 위에 자신 앞에 놓여진 면도날을 바라보는 사람, 폭력적인 부모로부터 숨은 사람, 섭식 장애를 겪는 사람, 삶을 끝낼 준비를 하는 사람[이 있습니다. …… 그러한 사람들은] 그 대화가 서로 대화 중인 오직 두 사람 사이에서 일어나는 것이라는 철저한 기대를 갖고 있습니다.” 리어슨은 CTL 측이 상담 문자 데이터를 상업화하는 것을 중단하라는 공개 청원을 2021년 9월 경 올렸고, 이후 석연치 않은 이유로 계약종료를 당했다. 이후 리어슨은 2022년 1월 “Reform Crisis Text Line”이라는 이름의 새로운 웹사이트를 개설하여 보다 적극적인 캠페인에 나섰다.

POLITICO의 보도 3일 뒤, 미국 연방 통신 위원회 (FCC) 위원 중 한 명인 브렌던 카아(Brendan Carr)가 CTL 과 Loris.ai 에 보낸 서한을 공개했다. 3페이지의 서한을 통해 카아 위원은 CTL과 Loris.ai 측에 데이터 공유를 즉시 중단할 것을 요청했다. 카아 위원은 현재 위협받고 있는 것은 미국인들의 비영리기관에 대한 신뢰라는 문화적 제도이며, 이것이 붕괴될 경우 그 사회적 비용이 막대할 것임을 분명히 제시했다. 카아 위원은CTL의 웹페이지에 실린 문구를 이렇게 인용했다. “실제로 데이터 공유 파트너십을 묘사하면서, CTL은 웹페이지에 이렇게 진술했습니다. ‘간단하게 생각해봅시다. 티셔츠를 팔 이유가 있을까요? 만약 당신 [비영리단체]가 제일 잘 하는 것을 당신이 팔 수 있다면요.’ 이것은 몹시 불편할만큼 디스토피아적입니다.” 또한 카아 위원은 Politico 보도에서 제기된 두 가지 프라이버시 우려 -- 비식별화된 데이터로부터 여전히 재식별화될 가능성이 존재한다는 점, 심적으로 스트레스를 받는 상담요청자로부터 방대한 분량의 약관 문서에 대한 의미있는 동의가 얻어졌다고 보기 힘들다는 점 –를 심각하게 받아들였다.

카아 위원이 데이터 공유를 즉각 중단하라고 요청한 보다 큰 이유는 Politico 의 보도에서 다뤄지지 않은 내용이었다. 바로 연방통신위원회, 연방 보건복지부 산하 약물 남용 및 정신건강 서비스 부서, 연방 보훈부 등 미국 연방정부 기관들이 “전국 자살 예방 생명선 (National Suicidal Prevention Lifeline)” 이라는 이름으로 전국 공통 번호 “988”를 통해 무료로 자살/정신건강 관련 상담을 제공하는 긴급전화 서비스 및 긴급 “문자” 서비스를 2022년 개시하기 위해 준비하고 있는 상황에서, 해당 연방정부 긴급 상담 서비스의 근저가 되는 가치인 “익명성” 및 “기밀성”을 CTL-Loris.ai 파트너십이 치명적으로 훼손하고 있다고 보았기 때문이었다. “Lifeline서비스의 성공, 그리고 다른 정신 건강 긴급전화 서비스들의 성공은, 대화가 기밀 유지되리라는 공적 신뢰에 직결되어 있습니다. 사실, 위기에 처한 사람들이 Lifeline 에 전화하지 않거나 다른 방편으로 도움을 청하지 않는 이유는 바로 그들이 혹여나 익명성을 잃어버릴지 걱정하기 때문입니다. […] 만약 공중들이 그들의 대화의 기밀성이 Crisis Text Line에 의해 침해될 것을 두려워한다면, 이들이 도움을 필요로 할 때 도움을 청할 가능성은 더욱 낮아지게 될 것입니다.”

같은 날, CTL 은 Loris.ai 와의 데이터 공유를 중단하겠다는 계획을 발표했다. Politico의 후속 보도에 따르면 여러 프라이버시 정책 연구자들은 이 발표를 긍정적으로 받아들였다.
CTL과 Loris.ai 는 논란을 잘 헤쳐 나온 것처럼 보인다. 우선 Loris.ai 는 건재하다. Politico 보도로부터 약 3개월 이후, Loris.ai 는 자사가 1천2백만 달러의 시리즈 A 펀딩을 받았다고 밝혔다. Loris.ai 의 고객 정서 분석 솔루션은 시장의 유사한 솔루션을 제공하는 Dialpad, Cogito, Saygent and SugarCRM, Google Cloud’s Agent Assist, Contact Lens for Amazon Connect 등과 경쟁한다. CTL은 앞선 논란에도 불구하고 미국 연방 998서비스의 파트너 기관 중 하나로 선정되었다.

하지만 CTL의 혐의는 현재 진행형인 공적 조사의 대상이다. 2022년 3월 28일 FCC의 카아 위원이 미국 연방 공정거래위원회(Federal Trade Commission; FTC)에 CTL의 데이터 프라이버시와 업무 관행에 대해 수사를 요청한 것이다. 카아 위원의 트윗을 통해 공개된 조사 요청 서한 스크린샷에 따르면 카아 위원 사무실이 법률이 허용하는 권한에 따라 CTL의 진행중인 사업 관행 (데이터 수집, 보관, 공유 등) 그리고 CTL 의 사용자 동의 취득에 대하여 추가적인 문의를 하였을 때, CTL의 대변인은 더 이상의 대화를 거부하였기 때문이었다.

전직 CTL 자원봉사 상담가이자 CTL 의 데이터 공유 문제를 공론화하는 데에 앞장서 온 팀 리어슨(Tim Reierson) 역시 CTL의 업무 관행 상 데이터 윤리에 실질적인 진전이 있는지 우려한다. 더욱이 두 기관은 여전히 재정적으로 연결되어 있다. “#CrisisTextLine 은 Loris.ai 에게 비식별화된 위기 대화 (라이선스) 계약으로부터 여전히 이득을 취하고 있다. 왜냐하면 Crisis Text Line 은 Loris 을 창업할 때 취득한 지분을 여전히 갖고 있기 때문이다.”

2. “Crisis Text Line-Loris.ai”와 “연애의 과학-이루다”를 겹쳐 생각하기

“크라이시스 텍스트 라인-Loris.ai”와 “연애의 과학-이루다”는 여러가지 흥미로운 공통점 및 차이점을 가진다. 나는 여기서 내가 찾은 세 가지 공통적 패턴을 보다 구체적으로 제시해보고자 한다. 각각 데이터 출처의 가시성이 회사 소개에서 점강되는 패턴, 인공지능 업체가 원본 데이터 혹은 학습된 인공지능 모델을 폐기하는 것이 업체에 한정적인 영향을 미치는 패턴, 그리고 하나의 서비스로부터 자연어처리 인공지능 사업화 아이디어로 피봇(pivot)하는 패턴에 대해서이다.

패턴 1 : 데이터 출처의 비가시성 : 데이터 출처가 처음에는 강조되었지만 점점 불투명해졌다

두 사례의 공통적인 패턴 첫번째는 “Loris.ai” 와 “이루다” 두 사례 모두 언론의 보도로 인하여 데이터 출처가 문제적이라고 공론화 되긴 했지만, 그 이전부터 데이터 출처에 대하여 비교적 투명하게 밝힌 적이 있었다는 점이다. 그러나, 두 경우 모두 점점 데이터 출처에 대한 언급이 불명확해지기 시작했다.

먼저 Loris.ai 의 경우 2021년 8월까지 홈페이지 메인 화면부터 “Why we’re experts”라는 소제목 하에 자신들의 고객관리 소프트웨어의 비결이 Crisis Text Line 의 데이터로부터 비롯되었음을 간결하게 소개한다. “칭송받는 Crisis Text Line의 스핀오프로서, 우리는 가장 까다로운 대화를 다뤄왔고, 어려운 대화를 탐색하는 데에 있어 무엇이 효과가 있고 무엇이 그렇지 않은지에 대하여 역사상 가장 큰 정신건강 데이터셋으로부터 배워왔습니다.” 하지만 2021년 9월부터는 홈페이지 첫 화면이 아닌, 첫화면 최상단에 링크된 서브페이지인 “Company” 화면에서 이를 소개하기 시작했다. “Crisis Text Line의 스핀오프로서, 우리는 가장 까다로운 문자 대화를 다루는 것의 전문가입니다. 우리의 공감에 있어서의 통찰은 역사상 가장 큰 정신건강 데이터 셋에서 얻은 것입니다. 1억 5천만 개, 그리고 계속 늘어나는 메시지. 이제, 우리는 기업들이 그들의 공감능력과 수익성을 증진하는 것을 돕는 기업용 소프트웨어에 우리가 얻은 이 모든 교훈을 담았습니다.” 그러다가 2022년 3월 시점부터는 홈페이지 첫화면에서도, 홈페이지 첫화면 최상단에 링크된 어느 서브페이지에서도 이를 언급하지 않는다. 홈페이지를 통틀어 유일한 언급은 “FAQ” 페이지 에서 CTL을 가리켜 Loris 의 아이디어가 착안된 곳이라 일컬으며 그 곳과의 공식적인 데이터 공유 관계를 종료했다는 내용의 세 문장, 그리고 “Career” 웹페이지에서 회사 소개를 할 때CTL이Loris 의 아이디어가 착안된 곳임을 밝히는 내용이 전부이다.

Archived snapshot of https://Loris.ai/

https://web.archive.org/web/20210513080250
(2021년 5월 13일 기준)

Archived snapshot of https://loris.ai/company/

https://web.archive.org/web/20210928161149/
(2021년 9월 28일 기준.)

FAQ

https://loris.ai/faq

(2022년 10월 11일 기준.)

이루다의 출처인 “연애의 과학” 역시 처음에는 명확히 데이터 출처로서 둘 사이의 관계가 설명되다가 점점 스캐터랩의 인공지능 챗봇을 설명할 때에 종종 생략되는 유사한 패턴을 밟았다. 예컨대 2018년 스캐터랩이 50억원 규모의 추가 투자를 유치하였을 때에 투자금을 바탕으로 “일상대화 AI 기술을 고도화하고, '연애의 과학'을 통한 다국어 데이터 확보”에 나서겠다는 내용이 보도자료에 포함될 정도로 데이터 출처에 대해 분명히 밝혔다. 하지만 2019년 ~ 2020년에는 챗봇을 훈련시킨 데이터 출처로서 “연애의 과학”을 언급하지 않는 경우가 생겨난다. 한 예로 2019년에서 2020년 스캐터랩은 최소 5곳의 크고 작은 인공지능 관련 기술 공유 발표회에 참여하고, 챗봇 사내 개발팀인 핑퐁 팀의 기술 블로그에도 최소 1번 챗봇 관련 게시물을 올렸는데, 이 중 3 곳(네이버 테크톡 2019년 5월, 2020년 핑퐁 팀 기술 블로그, 이스트 소프트 주최 AI PLUS 2020)에서는 (‘텍스트앳’ 및) ‘연애의 과학’의 사용자 대화 데이터로부터 스캐터랩의 챗봇이 학습되었다는 점이 언급되지만, 다른 3곳(PyCon 2019, Naver Deveiw 2019; 2020)에서는 언급되지 않은 채 그 출처가 “한국어 100억 카카오톡 메시지, 일본어 10억 라인 메시지”라고만 소개되었다 (오요한 2022).

패턴 2 : 데이터/모델 폐기의 제한적 영향 : 인공지능 업체가 원본 데이터 혹은 언어 모델을 폐기해도 인공지능 업체 운영은 지속될 수 있었다

다른 패턴은 자연어처리 인공지능 업체가 원본 데이터 혹은 언어 모델, 혹은 양자를 폐기하였다고 해서 이것이 반드시 업체의 사업 운영을 가로막지는 않는다는 점이다. 먼저 Loris.ai 의 경우, Politico의 2022년 1월 보도 이후 Crisis Text Line 은 Loris.ai에게 그동안 받았던 데이터를 폐기할 것을 요청했다. 이러한 데이터 폐기는 회사에 부정적인 영향을 끼쳤을까? 보도 이후 3개월 지난 시점 회사는 1천2백만 달러의 시리즈 A 펀딩을 받았다. 2018년 회사 창립 당시 2백만 달러의 펀딩을 받았던 것과 비교하면, 적어도 사업적 관점에서 회사에 대한 평가는 결코 낮아지지 않았다고 볼 수 있다.

스캐터랩의 경우도 2021년 1월 ‘이루다 사태’ 이후 이루다의 운영을 중단하고, 이루다에 활용된 DB뿐만 아니라 더 나아가 학습에 활용된 딥러닝 대화모델을 폐기하겠다고 밝혔다. 이러한 데이터와 학습 모델 폐기는 회사에 부정적 영향을 끼쳤을까? 이 역시 아닌 것으로 보인다. 2022년 1월 “이루다2.0” 클로즈 베타 서비스를 시작했고, 3월 오픈 베타를 시작했다. 2022년 8월 김종윤 대표의 인터뷰에 따르면, 연내 이루다2.0 정식 출시를 계획하고 있으며, 2021년 하반기 경 새로운 투자를 받아 자금이 충분하게 남아있다고 한다.

그렇다면 인공지능 업체가 원본 데이터 혹은 언어 모델, 혹은 양자를 폐기하였음에도 인공지능 업체의 운영이 지속될 수 있는 이유는 무엇일까? 이는 두 가지 면에서 살펴볼 수 있다. 먼저 Loris.ai 의 사례에서 보듯, Loris.ai 는 CTL 측으로부터 원본데이터를 삭제하도록 요구받았을 뿐, 그로부터 구축된 언어모델을 삭제했는지 여부는 요청된 적이 없다. 게다가 CTL 측은 2020년 이후로는 데이터 공유 관계를 잠정 중단해왔다. (심지어 Loris.ai 의 소프트웨어에 CTL측으로 제공받은 데이터가 얼마나 많이 활용되었는지, 혹은 얼마나 유용했는지에 대해서 상반된 증언이 존재한다.) 따라서 Loris.ai 가 CTL 데이터를 다소간 활용하여 구축한 언어모델을 여전히 보유하고 있으며, CTL 측이 아닌 다른 경로의 데이터 수급 채널을 통해 해당 모델을 개선하고 있으리라는 짐작이 가능하다.

다음으로 스캐터랩은 이루다에 활용된 DB와 학습에 활용된 딥러닝 대화모델 모두를 폐기한 경우이다. 이는 돌이킬 수 없을 만큼 강력한 결정으로 보인다. 하지만 실제로 스캐터랩이 폐기했다는 DB는 일부에 불과하다. 스캐터랩이 “연애의 과학”에서 취득한 대화는 100억 건에 달하지만, 이 중 이루다에 활용된 대화는 1억 건에 불과하기 때문이다. 나머지 99억건의 대화의 폐기 여부는 알려진 바 없다. 이루다 2.0 학습에는 가명화된 데이터가 사용되었다고 알려져 있다. 스캐터랩의 최신 “AI 챗봇 프라이버시 정책”으로 미루어 보아, 챗봇 등의 인공지능 연구 개발에 “연애의 과학” 및 “텍스트앳”에서 취득한 데이터가 가명화되어 여전히 사용되고 있으리라 익히 짐작된다.

“2021년 ‘연애의 과학’과 ‘텍스트앳’ 개인정보처리방침을 개정하면서 ‘챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 기술의 연구 개발 등’에 활용될 수 있음을 명확하게 명시해 이용자의 동의 절차를 보완했습니다. 개인정보처리방침 개정 전 이용자들의 데이터는 현행 개인정보보호법에 의거하여 엄격하게 가명처리한 후, 언어 기반 인공지능 연구 개발 등 과학적 연구 목적으로 활용합니다. 스캐터랩은 과학적 연구 목적으로 꼭 필요한 최소한의 정보(성별, 나이대, 대화 메시지 등)만을 데이터 업로드 14일 이후에 활용하며, 가명처리를 거친 데이터는 추가 정보 없이는 특정 개인을 알아볼 수 없는 상태가 됩니다.”

AI 챗봇 윤리 | SCATTER LAB

만약 유사한 사례에서 자연어처리 인공지능 업체가 원본 데이터 전체, 그리고 언어 모델을 모두 폐기했다고 가정해보자. 이러한 전적인 폐기가 자연어처리 인공지능 업체에게 얼마나 큰 영향을 줄까? 단언하기는 어렵지만 반드시 큰 영향을 준다고 보기는 어렵다. 만약 이미 자연어처리 인공지능 제품이 시장에 출시되어 고객의 반응을 얻기 시작한 이후라면, 이를 통해 사용자/고객과의 상호작용 데이터가 새로이 생성되었을 것이다. 사용자가 자신의 대화가 이후 자연어처리 인공지능 개발에 활용되리라 예상하고 서비스를 사용하였다고 예상할 수 있기에 이는 데이터 취득의 적법성 여부가 해결된 사례라고 볼 수 있다. 또한 새로 얻어진 데이터 양이 충분하다면 이로부터 쓸만한 언어 모델을 재구축하는 것도 용이하리라 예상된다.

패턴 3 : 피봇의 데이터경제 - 자연어처리 인공지능 사업화 아이디어는 자연스럽게 나타나거나 받아들여지지 않았다

세번째 공통적 패턴은 바로 피봇(pivot)이다. Loris.ai 와 이루다 모두 갑자기 생긴 것이 아니라, 다른 성격의 비영리 혹은 영리 서비스를 하며 누적된 데이터를 바탕으로 찾아진 새로운 기회, 즉 피봇의 결과였다. 이 피봇은 자연스러운 진화결과라고 회사에 의해 설명되지만, 그 실상은 보다 복잡하다.

먼저 Loris.ai 는 어떤 피봇 과정을 거쳤는가? CTL과 Loris.ai 의 창업자 낸시 루블린에 따르면, Loris.ai 의 아이디어를 제공했던 것은 CTL 측에 커뮤니케이션 훈련을 요청한 회사들이었다. Loris.ai 창설 당시 보도된 2018년 2월 기사에 따르면, 몇몇 회사들은 CTL 측에 접근하여, CTL 자원봉사 긴급전화 상담가들이 격양된 감정을 단계적으로 축소시키기 위해 사용하는 베스트 프랙티스에 대한 훈련을 자사 직원들에게 제공해 줄 수 있는지 문의했다.

하지만 이러한 아이디어를 실행에 옮기는 데에는 정당화가 필요했다. Politico의 2022년 1월 최초의 보도 3일 후 소셜 미디어, 알고리즘, 데이터 분야의 저명한 사회/정책 연구자이자 CTL의 이사회 의장이었던 다나 보이드(danah boyd)는 5,800 여 단어 분량의 해명 성격의 입장문을 자신의 블로그에 게시했다. 입장문에 따르면 루블린은 CTL이 자원봉사 상담가들을 훈련시키면서 얻은 공감 커뮤니케이션에 대한 통찰을 바탕으로 타기업 직원들을 훈련시키는 수익사업, 이른바 “Training as a Service”이라는 제안을 이사회에 가져왔다. 기업 임직원에게 공감 능력과 까다로운 대화를 풀어나가는 능력을 개발하도록 커뮤니케이션 코칭을 비디오, 소프트웨어 등의 방편을 통해 제공하겠다는 것이다. 이사회는 이러한 수익화/영리화로의 확장이 CTL의 사명으로부터 주의를 분산시키는 영향을 낳을 것을 우려했다.

하지만 현실적으로 CTL 은 비영리단체로서 재정적인 지속가능성 문제를 겪고 있었다. 정부 펀딩은 줄고 있었다. 정신 건강에 대한 민간 후원은 언제나 희귀했다. 보험사에 비용을 추후 청구하는 이는 보험에 가입되어 있지 않은 문자발신자들을 큰 곤란에 빠뜨리게 할 수 있었다. 보험사를 포함한 다른 회사들이 CTL의 데이터를 사들이는 데에 관심이 있었지만, CTL의 이사회는 이 방안을 고려하지 조차 않았다. 마지막 옵션은 해당 훈련 사업을 진행하되, 비영리단체인 CTL 내부에서가 아니라 스핀오프 성격의 영리회사를 신설하여 그 회사에서 해당 훈련을 진행시키는 것이었다. 여러 회의를 통해 수정과 검토를 거듭한 끝에 이사회는 이를 승인했다. 일부 이사들은 재정 건전성 측면에서 이 방안을 찬성했다. 보이드는 자신 역시 찬성했으나 그 이유는 달랐다고 밝혔다. 훈련의 영리사업화를 통해 보다 많은 사람들이 정신 건강을 상담하고 다루는 능력을 개발할 수 있으리라는 기대 때문이었다는 것이다.

하지만 Mashable이 피봇 과정을 분석한 탐사 보도에 따르면 Loris.ai 는 설립 후 첫 해 동안 공감 훈련이 아니라 고객관리 소프트웨어를 파는 것으로 피봇을 택했다. 회사에 따르면, 피봇의 배경은 확장(scale)할 필요가 있었기 때문이었다. Loris.ai 의 대변인은 이렇게 말했다. “공감적인 대화 훈련이라는 개념은 동일합니다. 그 개념이 시간에 따라 우리가 사용하는 매체라는 측면에서 진화한 것입니다.” Mashable이 분석하듯, 이 피봇은 실행 가능성이 높은 사업으로의 변경이었다. “고객 서비스라는 한 가지 종류의 상호작용에 전념하는 Software-as-a-Service 사업을 키우는 것은 급여 인상에서부터 동료 간의 갈등까지 온갖 종류의 사안을 두고 커뮤니케이션하는 것에 대하여 여러가지 역할과 직급의 직원들을 대상으로 비디오를 제작하고 훈련 소프트웨어 플랫폼 사업을 키우는 것보다 자명하게 쉬운 일이다.”

하지만 “공감 훈련”으로부터 “고객 관리”로 피봇하는 선택은 “공감”이라는 당초의 미션을 유명무실하게 만드는 결과를 낳았다. Mashable 이 지적하듯, “상사가 경청하는 법을 훈련시키는 것, 혹은 직원이 의견을 피력하는 법을 훈련시키는 것이 과연 고객이 왜 그들에게 환불받을 자격이 없는지를 이해시키는 것과 같겠는가?” Loris.ai 내부에서 전략을 두고 이견과 충돌이 발생하기도 했다. 돌이켜 보며, 보이드는 자신의 결정을 후회하지만 다른 선택은 어려웠으리라 인정한다. 어떤 피봇도 필연적으로 예상가능한 것은 아니기 때문이다. “만약 지금 알고 있는 것을 그때도 알았더라면, 나는 찬성하지 않았을 것이다. 하지만 뒤늦은 깨달음이 언제나 더 선명한 법이다.”

스캐터랩이 취한 “연애의 과학” 이후 A.I. 챗봇으로의 전환을 설명하는 방법에는 두 가지 버전이 있다. 첫번째 버전의 설명은 스캐터랩이 출시해 온 일련의 서비스 “텍스트앳” - “연애의 과학” – “(이루다를 비롯한) 챗봇”를 가리켜 “자연스러운” 흐름이라 일컫는다. 2021년 4월 28일 개인정보보호위원회 회의에 출석하여 답변한 스캐터랩 측 변호인의 설명은 다음과 같다.

“(피심인 대리인) 우선 이루다 학습 및 운영이 개인정보의 목적 외 이용에 해당하지 않는다는 점부터 설명드리겠습니다. 피심인은 텍스트앳과 연애의 과학 이용자로부터 개인정보가 신규 서비스 개발 목적으로 이용된다는 점에 대하여 동의를 받았습니다. 그런데 본 건에서 문제가 되고 있는 이루다 학습 및 운영은 동의를 받은 신규 서비스 개발의 범위 안에 포함되기 때문에 목적 외 이용에 해당하지 않습니다. 텍스트앳 및 연애의 과학의 대화 분석 서비스와 이루다 챗봇 서비스는 모두 머신러닝 알고리즘을 통해 대화 내용을 분석하여 이용자의 성향을 파악하고 이에 기반하여 이용자에게 적절한 반응을 보여주는 서비스라는 점에서 본질적으로 성격이 같습니다. 이 세 서비스는 피심인이 대화분석 알고리즘 모델을 고도화하는 과정에서 자연스럽게 만들어진 서비스입니다. [……] 사업자의 입장에서 기술이 전체적으로 발전하는 과정을 봤을 때 결국에는 기존 대화분석 서비스와 AI 챗봇 서비스를 비교해서 보면 과거에는 대화 내용을 단순히 분석해서 보여주는 것이라면 이제는 그 모델이 좀 더 고도화되어서 대화 맥락을 분석해서 실시간으로 적합하게 보여준다는 점에서 다를 뿐이지, 즉 서비스가 고도화된 것이지 본질적으로는 동일하고 이쪽 사업을 하는 기업이라면 자연스럽게 개발했을 서비스라는 것을 강조해드리고 싶습니다.”

2021년 제7회 개인정보 보호위원회 속기록 (2021.04.28) | (강조는 인용자)

다른 버전의 설명에서는 첫번째 설명에서 등장하지 않았던, 2011년 출시된 “택스트앳”도 아닌, 2016년 6월 출시된 “연애의 과학”도 아닌, 그 사이 2015년 2월 출시되었던 스캐터랩의 또 다른 시도가 AI 챗봇의 핵심관계자였다고 설명된다. 2022년 8월의 인터뷰이다.

(기자) 이루다는 어떤 서비스였나요. 대체 해소하고 싶었던 페인포인트(pain point)가 뭐였나요.
(김종윤 대표) “보통 오픈도메인 다이얼로그(open domain dialogue), 혹은 오픈 도메인 컨버세이션(open domain conversation)이라고 부르는 문제예요. 그러니까 인공지능이 인간과 주제의 제한없이 자유롭게 대화하는 기술입니다. 스캐터랩은 2017년부터 연구 중이었어요. 왜 이 분야를 봤느냐는 배경은 이전 스토리로 거슬러가요. 2015년 우리는 ‘진저(Ginger)’라는 AI서비스를 냈어요. 진저도 어려운데, 혹시 비트윈이라는 앱 아세요? 비트윈은 커플 메신저 앱이예요. ‘타다’ 서비스하는 VCNC(Value Creators & Company)와 협업한 서비스인데, 비트윈 계정으로 로그인하면 진저라는 인공지능이 커플이 나누는 대화를 실시간으로 분석해, 상대방의 기분을 알려주는 앱이예요. 보통 연애를 하다 보면 여자친구가 몸이 안 좋다거나 기분이 안 좋다거나 이런 것들을 놓칠 수가 있잖아요.
그런 것을 놓치지 않도록 챙겨주고 관계에 대해서 매니지를 도와주는 서비스요. 초기엔 상대방의 기분이나 상태를 알려주다가 차츰 자기 자신, 사용자 당사자의 기분이나 상태에 대해서도 이야기를 해줬어요. 예를 들면 메신저에서 “나 감기 걸린 거 같아”라고 쓰면 진저가 그걸 알아채고 “감기 걸리셨으면 오늘은 일찍 집에 들어가서 쉬세요”라고 말해줘요. 근데 사람들이 엄청 좋아하는거에요. 저희는 되게 신기하다고 생각했죠. 상대방의 기분은 내가 모르고 놓칠 수 있는거니까 정보로서 가치가 있지만 내가 감기 걸린 건 내가 알잖아요. 그걸 말해주는 걸 왜 사람들이 되게 좋아할까 저희는 좀 놀랐어요.
깨달은 건 “아, 인공지능이라는게 꼭 몰랐던 정보를 알려주고 내가 시키는 일을 대신해주는 편리함도 가치가 있지만, 그게 아니라 누군가, 그러니까 인공지능이라도 관심을 가져주고 챙겨준다는 느낌, 이것도 가치가 있는 일이다. 기술적으로 파봐야겠다”라는 겁니다.”

김종윤 대표의 인터뷰 | 쫌아는기자들 (2022.08.14.)

이러한 두번째 버전의 설명은 스캐터랩이 이전에 제시해온 회사의 비전과 일치한다. 한 예로 김종윤 대표가 2016년 10월 개최된 AI Startup D.Party 에 참여하여 발표한 장표에서는 일상 대화 인공지능에 대한 아이디어를 피치하고 있다. 여기에서는 “텍스트앳”에 대해서는 기업 약사에서 단 한 번 언급할 뿐, 일상 대화 인공지능의 개념 실증 (proof of concept) 아이디어는 모두 “진저for비트윈” 사용자들이 진저톡이라는 진저 앱의 인공지능과 정서적 교감을 하는 스크린샷과 증언에 기반하고 있다. 또한 “<연애의 과학>을 통해 다른 언어의 대화 데이터 수집”을 하겠다는 로드맵이 미국, 일본, 중국 국기와 함께 발표되었다. “연애의 과학”의 도구적 성격은 이후에도 반복적으로 제시되었다. 이후 2018년 4월 스캐터랩이 50억원 규모의 추가 투자를 유치했다는 보도기사에서도 투자금을 “자체 연애 컨텐츠 서비스 '연애의 과학'을 통한 다국어 데이터 확보” 등에 사용하겠다는 계획과 “압도적인 다국어 메신저 데이터에 기반한 머신러닝 기술로 일상대화 AI 분야를 선도하겠다”는 포부가 드러나 있다. 요컨대, “텍스트앳”과 “연애의 과학”을 거쳐 자연스럽게 “챗봇”까지 고도화했다는 첫번째 설명보다는, “텍스트앳” 이후 “진저for비트윈”를 통해 사람-인공지능 정서적 대화라는 기회에 눈을 뜬 것을 계기로, 데이터 취득을 위해 “연애의 과학”을 출시하고, 그 결과물로서 여러 시도 및 “이루다”를 선보였다는 두번째 설명이 보다 실상에 가까울 것이다.

앞서 설명한 세 가지 공통적 패턴에도 불구하고, Loris.ai 와 챗봇 이루다 두 사례는 차이가 적지 않다. 전자의 사례는 비영리단체인 Crisis Text Line에서 시작되었고, 따라서 해당 비영리단체가 취득한 데이터를 다른 목적으로 사용하는 수익사업을 구상할 때 청소년 정신 건강 등의 전문성이 있는 비영리단체의 이사회 구성원들이 해당 사안을 재정적인 측면 뿐만 아니라, 데이터 공유의 윤리성, 사회적 미션을 달성하는 측면 등을 다각도로 검토하였다. 반면, 후자는 처음부터 영리기업으로서 취득한 데이터를 다른 목적으로 사용하는 수익사업을 구상한 경우이므로, 이 때 이사회가 이를 사업적/재정적 측면을 넘어서 다면적으로 검토하였으리라 생각하기는 어렵다.

나가며 : 왜 저 곳의 프라이버시 침해가 곧 이 곳의 프라이버시에 대한 위협인가?

1963년 조지아 주 애틀란타의 에벤에셀 침례교회에서 시무하던 마틴 루터 킹 주니어 목사는 앨라배마 주 버밍햄의 흑인 민권 운동을 지원해 달라는 프레드 셔틀스워스 목사의 요청을 받아 240 km 떨어진 버밍햄 시로 향했다. 킹 목사는 그곳에서 지역교회 종교지도자들과 시민 불복종 운동을 이끌다 15세부터 81세까지의 다양한 연령대의 55명 이상의 버밍햄 시민들과 함께 4월 12일 수감됐다. “허가 없는 행진”이라는 이유였다. 같은 날 8명의 앨라배마 주 백인 목사들은 공개서한을 보내어, 외부인들이 부분적으로 지시하고 이끄는 일부 흑인들의 일련의 시위가 급진적이고 과격하며, 문제 해결에 기여할 수 없다며 비판했다. 자신의 입장을 변호하며, 킹 목사는 운동 동참을 호소했다.

“더욱이 나는 모든 지역사회 그리고 모든 주의 상호관계를 생각하고 있습니다. 나는 애틀랜타에서 빈둥거리며 앉아 있은 채 버밍엄에서 일어나는 일에 대해 걱정하지 않을 수는 없습니다. 어느 한 곳에서 저질러진 불의는 모든 곳에 있는 정의에 대한 위협입니다. 우리는 벗어날 수 없는 상호 관계의 그물망에 걸려있으며, 운명의 옷 한 벌에 엮여 있습니다. 한 사람에게 직접적으로 영향을 미치는 것은, 모든 사람에게 간접적으로 영향을 미칩니다. 편협하고 국지적인 “외부 선동가”라는 아이디어와 함께 살 여유가 우리에게는 더 이상 없습니다. 미국 내부에 사는 어느 한 사람은 그 경계 내에서는 어느 곳에서도 외부인으로 간주될 수 없습니다.”
Martin Luther King, Jr. “Letter from Birmingham Jail” (1963.04.16.) |

Stanford’s Martin Luther King, Jr. Research and Education Institute

인공지능과 데이터 윤리 분야에서 국가 간의 분명한 연결고리는 정책과 규제 층위에서 찾을 수 있다. 해당 분야를 이끌고 있는 미국과 유럽연합의 정책과 규제는 미국 시민과 유럽연합 시민들에게 직접적인 영향을 끼칠 뿐만 아니라, 여타 국가 정부들이 정책 및 규제를 논의할 때 방향과 속도의 기준점 역할을 함으로써, 여타 국가의 시민들에게 간접적인 영향을 끼친다. 하지만 인공지능과 데이터 윤리 분야에 있어 국가 간의 항상 분명하게 인식되지는 않지만 보다 실질적인 연결고리는 가장 위협받는 당사자들이 서로 무슨 위험에 처해 있는지 아는 것, 서로에게 필요한 도움을 주는 것에서 찾을 수 있을 것이다. 그 시작은 서로를 문제 해결에 기여할 수 있는 내부자들이라 인식하는 것에서 시작한다.

리어슨이 Crisis Text Line 측에 데이터 윤리를 개혁하라고 요구하는 change.org 의 청원은 500명 서명 목표까지 아직도 150명도 넘게 남아있다. 법무법인 태림 측이 연애의 과학 사용자 450명을 대리하여 스캐터랩을 상대로 “이루다AI 개인정보 유출 피해자 집단소송”에서는 법원, 당사자, 소송 관계인은2022년 에 모일 예정이다. 해당 소송비용 후원은 계속 열려 있다.

글 오요한

오요한은 미국 렌슬리어 공과대학교(RPI)에서 과학기술학 (Science and Technology Studies; STS) 박사과정을 수료했고, 학위논문을 준비 중이다. 전기·컴퓨터공학 학사·석사, 과학기술학 석사를 마쳤고, 소프트웨어 리서치 엔지니어로도 근무했었다. 주된 연구 관심사는 포스트식민주의, 탈제국주의, 비판이론 관점에서, 사회적 산물, 인지적 도구, 탈정치화되어가는 담론, 물적 토대, 학제적 실행으로서의 정보기술, 컴퓨터과학, 플랫폼화된 대규모 소프트웨어의 사회·역사·초지역적(translocal) 함의이다.

언급한 문서들

오요한. 2022. 스캐터랩은 ‘연애의 과학’과 일상대화 인공지능 사이의 관계를 인공지능 연구개발 커뮤니티에 어떻게 설명해 왔는가?” 정원섭 편저, 인공지능의 편향과 챗봇의 일탈. 서울 : 세창 출판사. 113-133면.

저 곳의 프라이버시 침해는 곧 이 곳의 프라이버시에 대한 위협 : 자살방지 핫라인에 털어놓은 나의 문자 상담 대화가 고객관리 인공지능을 훈련하는 데에 사용된다면

오요한

저 곳의 프라이버시 침해는
곧 이 곳의 프라이버시에 대한 위협 :
자살방지 핫라인에 털어놓은 나의 문자 상담 대화가 고객관리 인공지능을 훈련하는 데에 사용된다면