9. 의료 데이터와 데이터 주권에 대한 이해

9.1 헬스케어 데이터의 중요성

지난 10년간 전 세계는 빅데이터, 머신러닝, 딥러닝 등 데이터와 관련된 수많은 혁신 사례와 그 가능성을 끊임없이 이야기해 왔습니다. 그래서 대부분의 사람들은 이미 데이터가 중요하다는 사실을 인지하고 있을 것입니다.

특히 의료 분야는 수십 년 전부터 과학적이고 체계적인 방법으로 측정한 데이터를 활용하는 프로세스가 자리잡혀 있습니다. 데이터를 활용하여 새로운 치료제의 안전성과 유효성을 평가하는 임상시험이 대표적인 예시입니다. 임상시험 과정에서 만들어지는 대표적인 데이터는 병원 검사 장비로 측정된 각종 검사 수치나 유전자 염기서열 등입니다. 이 데이터들은 잘 구조화된 스프레드시트와 같은 형태로 정리될 수 있는데, 이는 특정 약물 사용에 대한 유효성 및 안전성을 검증하거나 새로운 통계적 사실 등을 발견하는 데 활용될 수 있습니다.

최근에는 병원에서 만들어지는 데이터뿐만 아니라 웨어러블 디바이스나 스마트폰 센서, 환자 자가 보고 자료 등 병원을 벗어난 환자의 일상생활 속에서 상시로 수집될 수 있는 데이터도 의료 데이터로 활용되고 있습니다. 이렇게 다양한 방식으로 수집된 데이터를 함께 이용하면, 처방 약물 외에도 다양한 요인을 고려하여 환자 개개인에 대한 총체적 이해를 바탕으로 한 치료 방법을 마련할 수 있습니다. 이는 실제임상자료(Real-World Data)라는 이름으로 최근 COVID-19 백신(참고)과 디지털 치료제(참고) 연구에 활용되며 주목받고 있습니다.

위와 같이 헬스케어 분야에서 데이터는 이미 중요한 역할을 하고 있습니다. 다음 장에서는 헬스케어 데이터의 구체적인 종류와 이러한 데이터를 확보하고 활용하는 과정에서 해결해야 할 과제가 무엇인지 알아보겠습니다.

9.2 헬스케어 데이터의 종류

헬스케어 데이터의 정의와 분류 기준은 다양합니다. 이번 장에서는 본 백서에서 사용될 헬스케어 데이터의 분류 방법과 그 개념을 소개하겠습니다.

개인의 식별가능성에 따른 분류

미국을 비롯한 대부분 주요 국가는 개인의 식별가능성을 데이터 분류의 중요한 기준으로 포함하고 있습니다. 특히 의료 데이터의 식별가능성은 개인 정보 침해의 위험이 있기에 이를 방지하는 것도 중요하지만, 가치 있는 다양한 데이터를 결합해 환자와 개인의 건강을 개선하는 새로운 혁신을 이끌어 내는 데 활용되기도 합니다. 따라서 개인정보 보호와 활용 사이에서 적정선을 유지할 수 있는 섬세한 접근이 필요합니다. 이러한 접근 방식을 따르고 있는 가장 대표적인 법은 미국의 HIPAA/HITECH법입니다. 이 두 법은 의료정보(Health Information)의 보호와 활용에 관한 기초적인 원칙을 제시하며 의료정보를 아래 3가지로 분류하고 있습니다. 이 분류에 포함되지 않는 의료정보도 기본적으로는 개인정보 보호 관련 일반법을 따릅니다.

데이터 종류

식별가능성

환자의 활용 동의 필요

연구 목적 활용

보호의료정보(PHI)

O

O

IRB 심사 후 가능

비식별의료정보(DHI)

X

X

자유롭게 가능

한정데이터세트(LDS)

X (다소 완화된 조건 적용)

X (연구 등 목적으로는 면제)

재식별 금지 합의서 제출 및 IRB 심사 후 가능

보호의료정보(Protected health information, PHI)

보호의료정보는 HIPAA가 적용되는 의료 기관, 지불 기관, 의료 관련 기관에서 생성, 수집, 전송, 보관되는 개인의 (1) 과거, 현재, 미래의 물리적, 정신적 건강 상태, (2) 건강보험 정보, (3) 의료비 지출 상황 등에 대한 정보로서 개인이 식별되는 의료정보(individually identifiable health information)라고 정의됩니다.

보호의료정보는 공익 등 일부 예외적인 경우를 제외하면 치료 외 목적으로는 환자의 동의를 받아야만 활용, 정정, 반출할 수 있도록 규정되어 있습니다. 연구 기관 등은 연구 목적으로 기관생명윤리위원회(Institutional review board, IRB)를 거쳐 보호의료정보를 활용할 수 있습니다.

비식별의료정보 DHI (De-identified Health Information)

비식별의료정보는 1) 세이프하버(Safe harbor) 방식과 2) 전문가 판단 방식 두 가지에 의해 인정됩니다. 세이프하버 방식은 아래 18가지 유형의 식별자를 제거하는 방식을 말합니다. 전문가 판단 방식의 주체는 식별가능성 또는 식별방법에 관하여 통계, 과학 분야의 적절한 지식과 전문성을 갖춘 사람입니다. 해당 정보가 다른 정보와 결합하더라도 개인을 식별할 수 있는 리스크가 매우 적다고 판단하고, 그 이유와 결과를 문서로 기록해야만 인정됩니다.

HIPAA에서 규정한 기관들은 비식별의료정보를 자유롭게 사용하거나 공개할 수 있도록 규정되어 있습니다. 만약 이러한 조치에도 불구하고 식별가능한 것으로 판단될 경우, 보호의료정보(PHI)로 간주됩니다.

식별자 유형:

이름, 주소, 개인에 대한 날짜(생년월일, 보험 가입일, 보험 해지일, 사망일 등), 전화번호, 자동차 등록 번호, 팩스 번호, 기기 시리얼 번호 및 식별 정보, 이메일 주소, 온라인 접속 주소(URLs), 사회 보장 번호(SSN), 인터넷 접속(IP) 주소, 의료 기록 숫자, 생물학적 지문 또는 성문), 건강보험 정보, 개인 식별 가능성이 있는 사진, 계좌 정보, 재식별가능 정보로 제안된 정보, 인증/자격 정보, 그 밖에 인지 가능성이 있는 정보

한정데이터세트(Limited data sets, LDS)

한정데이터세트는 세이프하버 방식을 따른 비식별의료정보(DHI)처럼 의료정보에서 식별자를 제거한 정보라는 점에서는 유사하나, 좀 더 완화된 기준이 적용되어 일부 날짜 정보(생년월일, 입원일, 퇴원일 등) 및 우편번호, 거주지(주, 시)정도의 정보를 포함할 수 있습니다.

대신 연구자 등 정보 이용자에게 데이터 남용을 방지하고자 하는 내용을 담은 데이터 재식별 금지 합의서를 제출하게 하고, 특정 목적(연구, 공중 보건, 의료 서비스 제공)으로 정보를 활용하는 경우 환자의 동의가 없어도 IRB를 거친 뒤에 활용할 수 있다고 규정하고 있습니다. 즉, 정보 이용자에게 재식별 책임을 부과하고 그 대신 정보의 가치 있는 활용을 좀 더 용이하게 한 유형입니다.

데이터 내용에 따른 분류

개인의 식별가능성 외에도 데이터를 분류하는 기준은 구조화 가능 여부, 생성 주체 및 방식, 활용 목적, 대상물의 종류 등 다양합니다. 하지만 본 백서에서는 엄밀하게 구분되는 분류 기준을 적용하거나 모든 유형을 상세히 설명하는 것보다는 활용 가치 측면에서 중요한 의미를 가지는 대표적인 유형들을 선별하여 소개하고, 각각의 데이터가 활용되는 방식에 대한 이해를 돕는 것 무게 중심을 두고자 합니다.

임상 데이터 (Clinical data)

가장 대표적인 헬스케어 데이터로, 병원 등 의료 기관이 진단, 투약, 검사, 수술 등을 진행하면서 생성되는 환자 정보를 포함하는 유형입니다. 따라서 구조화된 검사 수치 데이터부터 자연어로 작성된 의무 기록, 의료 영상 및 이미지(X-ray, CT, MRI, 초음파, 내시경 등)까지 매우 다양한 세부 항목이 존재합니다.

이러한 정보를 전자적으로 저장하면 EMR(Electronic Medical Record)이라 하고, 나아가 여러 곳에 저장되어 있는 한 개인의 의료 정보 총체를 EHR(Electronic Health Record)이라 합니다. 임상 데이터는 대부분 생성 시점에는 보호의료정보(PHI)에 해당하며 법에 의해 의료 기관이 안전하게 보관할 의무와 책임을 가지고 환자 외에 다른 기관이 이 데이터에 접근하고 활용하는 것은 엄격히 금지되고 있습니다.

임상 데이터에서 파생되는 데이터로는 의료 기관에서 보험 기관에 비용 청구를 할 때 제출하는 정보를 기반으로 한 청구 데이터가 있습니다. 여기에는 환자의 개인 정보, 진단명, 투약 정보, 검사 정보 등이 포함됩니다. 한국의 경우 단일 보험 체제를 채택하고 있어, 건강보험심사평가원과 국민건강보험공단은 전국민의 데이터를 기반으로 공공 데이터를 구축하여 공개하고 있습니다(보건의료빅데이터 개방시스템, 국민건강보험자료 공유 서비스 등). 한국의 제약사 HK이노엔은 이를 활용하여 위·식도 역류 질환 신약 케이캡을 개발하기도 했습니다(참고).

오믹스 데이터 (Omics data)

유전체(genome), 전사체(transcriptome), 단백질체(proteome), 대사체(metabolome), 마이크로바이옴(microbiome) 등 생체 물질을 포괄하는 총체적인 개념의 데이터 세트를 말합니다. 이 생체 물질은 개인마다 고유의 특성을 가지고 있어, 이에 대한 데이터를 대규모로 축적하고 분석할 경우 개인 맞춤형 의료가 가능해질 것으로 기대되고 있습니다.

유전체 데이터는 가장 대표적인 오믹스 데이터로, 마치 암호문처럼 알파벳 A,T,G,C를 조합하여 개인의 특성을 결정짓는 DNA에 기록된 유전 정보를 염기서열로 표현한 데이터를 말합니다. 실제로 유전체 데이터를 분석하는 것은 마치 암호문을 해독하는 것과도 같은데, 특정 자리의 단일 혹은 복수의 염기가 무엇인지에 따라 개인간에 어떠한 차이를 만드는지 등을 분석해 내는 것이 주된 과제입니다. 특히 희귀질환의 원인은 약 80% 이상이 유전자 변이이기 때문에 발병의 원인이 되는 유전자를 알아내기 위한 암호 해독이 중요합니다.

최근에는 머신러닝과 빅데이터 분석 기술의 발전으로, 유전체 및 다양한 생체물질 데이터를 임상 데이터와 함께 활용하여 복합적으로 분석할 수 있게 되었습니다. 이를 통해 질환을 조기에 진단하고, 치료 반응 예측과 측정에 사용되는 표지자(바이오마커)를 발견하는 데 활용되고 있습니다.

사람 유래 건강 데이터 (Person-generated health data, PGHD)

외부 기관에 의존하지 않고 환자 또는 개인이 소지한 웨어러블 디바이스, 휴대폰 등의 다양한 센서로부터 생성되는 데이터 또는 소셜 서비스 등에 스스로 올린 포스팅이나 설문 등을 포함하는 데이터를 말합니다. 이러한 데이터들은 병원에 방문하지 않고도 일상생활에서 상시로 수집될 수 있다는 특징이 있습니다.

사람 유래 건강 데이터는 질환과 다소 무관해 보일 수 있지만 임상 데이터 및 다른 데이터와 결합하면 질환과 관련된 새로운 발견이 이루어질 가능성이 있습니다. 실제로 최근 신약 임상시험에서도 실제임상자료(Real-world data, RWD)로써 PGHD를 적극 활용하는 시도(참고)들이 계속되는 추세입니다.

건강의 사회적 결정 요인(Social Determinants of Health, SDOH)

건강의 사회적 결정 요인은 인구 통계 정보, 사회·정치적 요건, 기후·환경 등 태생적으로 결정되는 사회·경제적인 외부 요인 중 건강에 영향을 미치는 데이터를 말합니다.

SDOH 데이터를 실제로 활용하는 사례로는 Gravity Project가 있습니다. 이 프로젝트에서는 사회·경제적 요인(교육, 직업, 가정, 소득, 사회 안전), 물리적 환경, 건강(흡연, 식습관, 알코올, 성생활), 보건의료(의료 기관 접근성)를 주요 요인으로 규정하고 건강에 미치는 영향을 분석하는 것을 목표로 하고 있습니다.

연구 데이터 (Research data)

의약학 및 생명과학 관련 실험실이나 제약사 및 병원에서 신약 등의 새로운 치료법을 개발할 때 생성되는 데이터에 해당합니다. 대표적으로 임상시험 및 연구 결과로 나오는 데이터가 있습니다. 이미 생성되어 있는 임상 데이터나 오믹스 데이터 등도 연구 목적으로 재활용하거나 수집되는 경우 연구 데이터라고 할 수 있습니다.

연구 데이터는 연구 진행에 필요한 참가자를 충분히 확보하기 위해 다양한 기관과 협력하는 것이 필수적입니다. 서로 다른 언어를 사용하는 사람들 사이의 의사소통이 쉽지 않듯, 서로 다른 기관이 동일한 데이터에 대해서 명칭이나 단위 등을 다르게 사용한다면 연구 과정에서 소통과 협력이 어려울 것입니다. 따라서 연구 데이터는 대체로 잘 구조화되어 있고 공동으로 연구를 수행하는 기관 간에는 통일된 규칙하에 수집됩니다. 서로 다른 병원 내의 데이터들을 대상으로 한 통합적 분석이나 다양한 연구를 통해 축적된 환자 데이터의 통합적 분석을 위해 공통 데이터 모델(Common data model, CDM)과 같은 표준화 노력도 지속되고 있습니다.

연구 데이터는 대체로 과학적으로 엄밀하고 체계적으로 수집될 수 있도록 설계되고 학계와 심사 기관에 의해 검증됩니다. 또한 연구를 실시하기 전에 데이터 수집 대상과 수집 방법의 적법성, 적합성을 IRB 등 심의위원회에 의해 심사받기에 데이터의 품질이 높다는 점이 특징입니다.

기타 데이터

그 밖에도 개인의 결제 정보와 같이 그 자체로는 건강과 큰 관련은 없지만, 다른 헬스케어 데이터와 결합되어 분석되었을 때 유의미하게 활용될 수 있는 데이터가 있습니다. 예를 들어 개인의 정기적인 피트니스 센터 결제 내역이 있다고 할 때, 결제 정보는 그 자체로만 보면 건강과 관련이 없어 보일 수 있습니다. 하지만 어떤 건강 관련 수치가 개선되거나 악화될 경우, 이를 결제 정보와 연관시켜 분석함으로써 개인의 건강 지표의 변화를 예측해 볼 수 있습니다.

이와 같이 데이터는 다른 종류의 데이터와 결합되었을 때 더 가치가 높아질 수 있습니다. 따라서 어떤 데이터를 일반적으로 알려진 헬스케어 데이터와 결합되었을 때 가치 있게 활용할 수 있을지 알아내는 것이 앞으로의 중요한 과제일 것입니다.

9.3 개인 의료 데이터 관리 및 통제를 위한 해결해야 할 문제

이처럼 데이터는 건강 수준을 향상시키고 질환 치료의 새로운 돌파구를 만들어 내는 데 활용되고 있습니다. 하지만 지금까지 천문학적으로 투자된 금액과 빅데이터 활용 기술이 약속한 이상에 비해 실제 성과는 그에 못 미치는 것도 사실입니다. 이에 대한 주요 이유는 1. 신뢰할 수 있고 2. 장기적으로 수집되고 3. 상호 연결된 데이터가 충분하지 않다는 것입니다.(참고)

즉, AI나 빅데이터 기술보다도 그 밑바탕이 되는 데이터의 질과 양적인 문제를 해결하는 것이 의료 혁신의 핵심입니다. 이번 장에서는 충분한 크기의, 질 높은 의료 데이터 확보를 위해 해결해야 하는 과제에는 무엇이 있는지 알아보겠습니다.

9.3.1. 데이터 보호와 활용의 적절한 균형

유형 1. 익명화로 인한 데이터 결합과 분석의 어려움

개인의 의료정보는 민감한 개인정보 중 하나로, 전 세계적으로 법에 의해 매우 엄격하게 보호될 수 있도록 규정되는 추세입니다. 가장 흔한 보호 조치는 가명화 및 익명화이고, 이렇게 비식별화 조치가 취해진 데이터는 개인을 식별하는 것이 현실적으로 매우 어렵거나 불가능하여 개인정보 유출이나 남용에 의한 피해를 줄일 수 있게 됩니다. 안전하게 익명화 또는 가명화되었다고 판단된 비식별화된 데이터는 신약 및 새로운 치료법 개발 등을 위한 연구 등 일부 목적에 한해서 자유롭게 활용될 수 있습니다. 이와 같이 주요 국가들은 개인 식별의 위험을 최소화한 상태에서 데이터가 더 가치있게 활용될 수 있는 법률을 제정하고 있습니다.

하지만 이러한 개인정보 보호 조치가 정보의 활용을 통한 가치 창출 측면에서 한계로 작용하는 것은 불가피합니다. 데이터는 서로 결합되었을 때 더 풍부하게 분석될 수 있고 새로운 가치 창출이 용이해집니다. 하지만 가명화된 데이터는 데이터값이 추상화 또는 범주화됩니다. 예를 들면 33세는 30대로, 87kg은 80-90kg나 90kg로 표현되는 식입니다. 이는 실제 수치와 차이가 있기 때문에, 데이터의 활용 목적에 따라 부적합할 수 있습니다. 또한 데이터를 결합하면 개별 데이터세트만으로는 할 수 없었던 일이 가능해지는 경우가 많은데, 데이터 익명화는 데이터 결합을 매우 어렵게 만듭니다.

유형 2. 데이터 생성 장소에 기반한 차등적 보호에 따른 데이터 전송과 활용의 어려움

또한 개인 식별 가능성이 없더라도 병원에서 생성된 데이터이거나 유전 정보라는 이유만으로도 일괄적으로 엄격한 보호 대상이 되어 현실적으로 활용이 매우 어려워지기도 합니다. 단적으로, 2022년 11월 한국에서는 환자의 개인 기기로 집에서 혈당을 측정하면 건강 정보로 분류되어 원하는 대상에 자유롭게 전송하고 활용할 수 있습니다. 하지만 같은 혈당 정보라고 하더라도 병원에서 혈당을 측정하고 EMR에 저장되면 의료법이 적용되는 정보로 분류됩니다. 이 경우, 환자가 요청하더라도 병원이 직접 혈당 측정치 분석 서비스를 제공하는 다른 기관으로 데이터를 전송 하는 것은 불가능합니다. 현재 데이터 전송이 가능한 유일한 방법은 환자가 직접 병원에 방문하여 해당 정보를 반출받고 직접 다른 기관으로 전달하는 것입니다.

이는 개인정보와 의료정보의 ‘자기결정권’ 보장 범위가 다르기 때문입니다. 자기결정권이란 정보 주체의 권리로, 자신의 정보가 누구에게 어느 범위까지 알려지고 어떻게 이용되도록 할 것인지 스스로 결정할 수 있는 권리입니다. 일반적인 개인정보의 경우 이러한 자기결정권이 개인정보보호법과 같은 법률에 의해 보장됩니다. 반면 의료정보는 의료법을 따르고, 의료법에서는 정보 주체의 자기결정권 중 개인정보 이동권(열람권, 구조화된 데이터 포맷 사용, 제3자 전송 요구권)의 일부인 열람권만 보장하고 있습니다.

이러한 불편함은 환자의 데이터를 병원 등의 기관이 관리하고 책임지도록 하는 방식에서 비롯됩니다. 본래의 의도는 개인의 민감한 의료정보를 보호하기 위한 선한 목적이었겠지만, 환자가 주체적인 판단하에 자신의 데이터를 다른 기관으로 전송하거나 취합할 수 없어 양질의 의료 및 건강 서비스를 활용하기 어려워지는 부작용도 낳았습니다. 그 결과, 개별 의료 기관마다 환자의 의료 데이터가 파편화되어 보관만 되는 상황이 지속되고 있습니다. 이러한 상황에서는 환자 개인에게 맞춤화된 정밀 의료 등의 서비스를 제공하는 것이 거의 불가능합니다. 다행히 현재 금융 분야에서 마이데이터 관련 법이 먼저 시행되었고, 이와 같이 개인의 의료정보도 이동권과 온전한 자기결정권을 실현하기 위한 법제화 논의가 활발히 진행되고 있습니다.

9.3.2. 적절한 동의 확보 방법과 사후 통제권 제공

앞에서 설명한 바와 같이 현재 환자로부터 별도의 동의를 받지 않고도 활용할 수 있는 데이터는 그 활용 목적이 연구, 통계 작성 등 일부 목적으로만 한정되어 있고, 활용되는 데이터 또한 그 품질이 훼손되는 문제가 있습니다. 이러한 문제 없이 데이터를 최대한 있는 그대로 확보하려면 환자 등 정보 주체로부터 수집하려는 데이터 항목과 활용 목적, 활용 조건에 대해 알리고 동의를 받아야만 합니다.

유형 1. 동의 확보 과정의 문제

이렇게 동의를 얻는 것은 데이터를 활용하려는 기관 입장에서 적법성을 갖추기 위한 최소한의 요건입니다. 그 때문에 기관 입장에서는 최대한 제약 없이 데이터를 활용할 수 있는 조건으로 환자의 동의를 받고자 할 것입니다. 이는 반대로 말하면 정보 주체를 충분히 보호하지 못하는 방식으로 동의를 받게 될 수도 있다는 것입니다. 실제로 EU(판례: 독일소비자단체연합 대 플래닛49 사건)와 한국의 사법 기관(판례: 경품 응모권 1mm 글씨 고지 사건)에서는 미리 선택된 체크박스를 통한 동의와 같은 수동적 동의나 정보 주체가 인식하기 어려운 방식으로 수집하는 동의는 유효한 동의가 아니라고 판단하고 있습니다.

그렇지만 그러한 '불충분한 동의'의 이유가 꼭 기관의 불순한 의도 때문만은 아닐 수 있습니다. 서비스 이용 약관 및 개인정보 보호 정책에 대한 고지 내용이 방대하고 어려운 용어들로 작성되어 대부분의 사람들이 그 내용을 이해하기 어렵다는 점 때문일 수도 있습니다. 또한 개인정보를 철저히 보호하고자 내용을 세분화하여 동의를 받는 형식 자체가 역설적으로 개인에게는 번거롭게 느껴질 수도 있고, 이 때문에 약관 등의 내용이 환자 본인에게 최선인지 확인하는 노력을 들이기보다 무신경하게 동의나 거절을 해버릴 수도 있습니다. 이와 같이 기관이 개인정보를 더 철저히 보호(적어도 법률을 성실히 따르는 차원에서)하려는 의도였다 하더라도 결과적으로는 불충분한 동의가 될 수 있습니다.

한편, 환자 입장에서 데이터가 활용되었을 때 본인에게 어떤 이익이 있는지, 이 과정에서의 잠재적인 위험은 무엇이 있는지에 대한 이해의 정도도 동의 확보에 영향을 주는 요인이 될 수 있습니다. 즉, 데이터 활용으로 인한 개인적 이익이 크다고 기대될수록, 데이터의 리스크에 대한 이해 수준이 높을수록 충분한 동의를 받을 가능성이 커질 것입니다.

강요가 아니라 정보 주체의 판단하에 동의를 얻는 것이 중요합니다.

유형 2. 동의 후 데이터 통제 권한 제공 필요

미국 보건복지부(HHS)는 2020년 1월 20일 커먼룰(Common Rule)을 개정하면서 충분한 고지를 전제로 한 포괄적 동의를 받으면, 식별 가능하고 연구 목적이 아닌 경우에도 추가 동의 없이 데이터를 이차적으로 활용하는 것을 허용하였습니다. 이는 특별한 위험 요소가 없다면 매번 환자로부터 동의를 받아야 하는 비용과 시간을 절약함으로써 연구의 효율과 데이터의 활용 가치를 높이는 순기능을 이끌어 내기 위함입니다. 또한 데이터를 수집한 이후에야 합리적인 사용 목적을 고민할 수 있는 경우가 많기 때문에 다소 포괄적인 목적으로 동의를 받아 데이터를 수집하는 것이 효율적일 수 있습니다.

하지만 이런 경우 환자에게 모든 데이터 활용 및 공개 이력에 대한 접근성과, 데이터 활용 동의를 철회할 수 있는 권리도 함께 제공하는 것이 중요합니다. 혹은 일단 데이터부터 수집하되, 실제 활용이 이루어지는 시점에 환자가 더 세부적인 내용을 확인하고 활용에 대한 동의를 하거나(Opt-in), 동의를 한 이후에도 언제든지 철회(Opt-out) 할 수 있는 동적 동의(Dynamic-consent) 시스템을 제공하는 방법도 있습니다.

이와 같이 사전에 충분한 동의를 받고 사후에도 데이터를 통제할 수 있는 권한을 보장하는 것은 개인정보를 보호하면서도 데이터 활용으로 가치를 창출할 수 있도록 하는 매우 중요한 요소입니다. 이를 실현할 경우 정보의 투명성과 시스템의 신뢰 측면에서 긍정적인 경험을 제공할 수 있을 것이고, 이는 점차 당연한 기대치로 작용하여 법적 측면을 떠나 기관 입장에서도 환자와 사용자 확보를 위해 필수적으로 고려해야 할 요인으로 작용할 것입니다. 따라서 환자, 데이터를 활용하려는 기관, 환자 대신 데이터를 관리해 주는 기관 모두의 입장에서 충분한 동의 기반의 데이터 관리와 활용을 가능케 하는 솔루션이 필요한 상황입니다.

9.3.3. 데이터 공유에 대한 인센티브 부족

주요 국가들은 환자의 데이터 자기결정권 실현을 통해 개인정보 보호와 데이터 활용의 균형을 이루기 위하여 관련 법을 제정하고 있습니다. 그 대표적인 사례가 미국의 21세기 치료법(21st Century Cures Act)입니다. 이 법에서는 의료 기관에 저장된 환자의 의료정보가 상호 호환되도록 하고 환자가 원하는 애플리케이션에서 의료정보에 접근, 교류, 활용할 수 있도록 하고 있습니다. 이를 준수하지 않을 경우 건당 백만 달러 이하의 벌금이 부과됩니다.

하지만 여전히 많은 의료 기관은 전자적으로 읽고 활용하기 어려운 형태로 데이터를 공유하고 있습니다. 그 외 기업이나 연구자에게는 환자에게 동의를 받더라도 데이터를 공유할 수 없도록 법적으로 제한되어 있거나 그러한 법이 적용되지 않는 국가라 할지라도 데이터 보호를 이유로 데이터 제공을 꺼리는 것은 전 세계 공통적인 현상입니다.(참고1, 참고2)

한국의 경우도 보건복지부에서 의료 분야의 마이데이터 법제화와 시범 서비스인 마이헬스웨이를 추진 중인데, 최근 보도된 바(참고)에 따르면 환자의 정보 전송 요구에 대해 의료 기관의 참여를 강제하지 않고 개인과 환자에 대한 서비스 질 향상을 목표로 자발적 참여를 유도하겠다고 말했습니다. 또한 의료 기관 외에 민간 기업은 2024년 이후에 참여가 가능하도록 하여 엄밀한 의미의 데이터 자기결정권 실현과는 아직 거리가 먼 상황입니다.

이처럼 법적인 의무나 처벌에 의해 데이터 자기결정권을 실현하는 것은 한계가 있습니다. 더 이상적인 것은 생태계 내 이해관계자들의 자발적인 동기에 의해서 데이터 자기결정권이 실현되는 것입니다. 하지만 미국 국립 의학 아카데미의 조사 결과에 따르면 의료 기관 경영진들은 데이터 공유에 대한 경제적인 동인은 부족한 반면 데이터를 외부에 공유함으로써 경쟁력을 잃게 되는 것에 대해 우려하고 있다고 응답했습니다. 실제로 데이터 구조화 및 표준화, 품질 관리, 데이터 보관 등 데이터 공유를 위한 조치들은 주로 데이터를 생성하는 의료 기관의 비용과 전문성이 수반되는 일들인 반면 그 이득은 오히려 데이터를 활용하는 기관이 보게 될 가능성이 높습니다. 이와 같은 인센티브 불균형으로 인해 데이터 생성 기관의 자발적인 동참이 쉽지 않은 상황입니다.

  • 데이터 구조화 및 표준화

    • 임상 데이터의 경우 비정형 텍스트 형식에 사용하는 용어도 일관되지 않은 경우가 많은데 이를 컴퓨터가 읽고 이해할 수 있도록 구조화하는 작업

    • 데이터 공유를 통해 여러 사람이 협력하기 용이하도록 데이터 종류, 용어, 형식의 표준화를 위한 추가 작업

    • 중복 데이터의 존재 여부 확인 및 결합 가능한 데이터의 발견을 위한 검색 메타 데이터 추가 작업

  • 품질 관리

    • 여러 질환을 동시에 가진 환자가 보험 청구에 필요한 진단명만 넣은 것, 수기 작성 과정에서 의도치 않게 정보가 누락되거나 잘못된 정보가 입력된 사항들 검수 및 정정

    • 측정 장비의 정확도 문제, 장비 사용의 숙련도에 따라 결과가 일관되지 않은 문제 해결 노력

  • 데이터 보관

    • 1인당 최대 200GB 정도에 이르는 유전체 데이터 보관 및 관리 (참고)

    • 재분석이 용이하면서도 적은 용량으로 데이터를 보관, 관리, 전송하는 기술

데이터를 생성하려면 많은 이해관계자들의 협력이 필요합니다.

9.3.4. 데이터 권리에 대한 이해와 신뢰할 수 있는 기록의 부재

인센티브와 함께 고려해야 하는 점은 데이터에 대한 권리의 공감대 형성입니다. 데이터의 자기결정권이 정보 주체인 환자에게 있어야 한다는 사실에는 큰 이견이 없을 것입니다. 하지만 인센티브와 밀접하게 연관된 개념인 소유권은 그리 단순하지 않습니다. 소유권이라는 개념은 일반적으로 부동산이나 물건 같은 유형물의 재화에만 적용되는 개념입니다. 무형물에 배타적 권리를 부여하는 개념으로는 저작권, 특허와 같은 지적 재산권이 있으나 이 권리는 창작의 노력이 들어가야 인정됩니다. 따라서, 정보나 데이터 그 자체가 아닌 편집의 노력이 들어간 데이터베이스의 경우에만 배타적 권리인 저작권이 인정되고 있습니다.

환자의 의료 데이터가 생성되기까지는 수많은 노력이 필요합니다. 일차적으로 의료 전문가와 의료 기관의 장비를 통해 측정되는 단순 데이터 그 자체뿐만 아니라, 진단명이나 양성·음성 여부와 같이 전문성에 기초한 판단이나 해석에 의해 생성되는 데이터도 많습니다. 또한 데이터가 공유되어 의미 있게 활용되려면 앞에서 언급한 조치들을 취해야 합니다. 경우에 따라서는 서로 다른 데이터를 결합하는 노력도 추가로 필요합니다. 이 모든 과정을 통해 만들어진 데이터세트는 적지 않은 비용과 의료 전문가의 상당한 전문성을 통해 편집된 결과라고 할 수 있습니다.

또한 의료 데이터는 의료보험 제도나 공공 재원이 투입되어 만들어진 의료 시스템에 의해 뒷받침되어 공공성을 지니고 있다는 점도 간과할 수 없습니다. 따라서 특정 주체에게 배타적인 수익권과 사용권을 보장하는 것보다는, 비경합성, 즉 한 주체가 소비한다고 해서 다른 주체가 소비할 기회가 줄어들지 않는 특성을 보장하는 것이 정보 주체 당사자뿐만 아니라 공공에 더 이익이 되고 데이터를 더 활발하게 활용할 수 있을 것입니다.

이러한 소유권, 데이터 공유와 활용에 대한 이력들이 신뢰할 수 있는 방식으로 기록되고, 이 기록에 모든 이해관계자가 자유롭게 접근하고 활용할 수 있는 방법이 아직은 부재한 상황입니다.

9.4 자기주권신원과 마이데이터

자기주권신원(Self Sovereign Identity, SSI)은 인터넷에서 개인의 신원을 나타내기 위해 제안된 새로운 모델이며 이를 실현하기 위한 기술인 탈중앙화신원증명(Decentralized Identifier, DID)과 검증가능한 자격증명(Verifiable Credentials, VC)은 2022년 7월, W3C에 의해 웹 표준으로 채택되었습니다.(참고)

자기주권신원 기술은 개인이 어떤 기업을 믿고(혹은 서비스를 사용하기 위해 어쩔 수 없이 약관에 동의하고) 자신의 정보를 위탁하여 대신 관리하도록 하는 것이 아니라, 정보 주체가 자신의 정보 통제권을 완전히 유지하는 상태에서 기업이 정보 주체에게 정보 접근과 이용에 대한 동의를 구하도록 합니다.

그러면 꼭 필요한 정보만 정보 주체가 주도적으로 공유하고 그 활용을 통제하는 식으로 패러다임을 바꿀 수 있습니다. 또한 이전에는 해커가 중앙화된 서버를 한 번만 해킹하면 수십에서 수백만에 이르는 개인 정보를 탈취할 수 있었지만, 이제는 한 번에 한 명에 대해서만 공격이 가능하므로 해킹 동기를 떨어뜨리며 결과적으로 개인 정보가 더욱 효과적으로 보호되는 환경을 만들 수 있습니다.

Hippo Protocol은 자기주권신원 기술을 기반으로 정보 주체가 개인의 신원 정보뿐만 아니라 의료 데이터까지 포함하여 자기결정권을 행사할 수 있는 마이데이터 개념을 실현하고자 합니다.

마이데이터 모델은 지나치게 복잡도가 높아지는 API 모델과 데이터 상호호환성에 대한 인센티브가 없는 플랫폼 모델의 문제를 해결합니다.

9.4.1 DID: 자기주권신원을 위한 식별자

지금까지 인터넷상에서 우리의 신원은 특정 기업이 제공하는 서비스 서버 내 계정의 형태로만 식별할 수 있었습니다. 그 때문에 새로운 서비스에 가입할 때마다 새로운 계정을 만들어야 하고, 본인 인증이 필요한 경우 서비스마다 매번 같은 과정을 반복해야 하는 불편함이 있었습니다. 그래서 구글이나 페이스북 같은 대규모 서비스의 계정으로 로그인하는 방법이 널리 채택됐지만, 이는 하나의 서버에 개인정보가 과중하게 몰리는 결과로 이어져 해킹 시의 리스크를 심화시켰습니다. 또한 특정 서비스에 대한 의존도가 높아질수록, 해당 기업의 정책에 위배된다고 '판단'되었을 때 계정이 언제든지 정지되거나 제한될 위협에서 취약해집니다. 이는 최근 미국의 간편 결제 서비스 Paypal이 자사 정책에 부합하지 않는 사용자의 계정에 2,500달러를 '벌금'으로 부과할 수 있다는 정책을 시도한 사례에서 단적으로 드러납니다(참고).

DID는 이러한 문제에 대한 솔루션을 제공합니다. DID는 제3자의 도움 없이 수학과 암호학을 기반으로 생성하여 인터넷 어디서든 자유롭게 사용할 수 있는 자신만의 고유한 ID(신원 식별자)입니다. 이는 우주에 존재하는 모든 원자에 고유 번호를 부여하고 그중 하나를 무작위로 선택하여 해당 고유 번호로부터 생성된 아이디와 이에 연결된 정보를 통제할 수 있는 암호(개인키)를 할당받는 것과 같습니다. 그리고 개인 계정과 그 계정에 연결된 정보는 블록체인에 기록되는데, 이를 조회하고 통제할 수 있는 권한은 개인키를 소유한 사용자에게만 주어집니다. 이를 통해 우리는 정부나 기업의 도움이나 통제에서 벗어나 자유롭게 나의 신원을 생성하고 관리할 수 있습니다. 이 방법은 특히 높은 수준의 개인정보 보호를 요구하는 의료 분야에서 탁월하게 쓰일 수 있으며, 신원에 대한 기록과 그 통제 권한 역시 블록체인에 연결된 모든 컴퓨터와 인터넷이 사라지지 않는 한 안전하게 지킬 수 있으므로 Hippo Protocol의 비전에 필요한 자기주권신원을 실현할 수 있습니다.

9.4.2 VC(검증가능한 자격증명): 나를 증명하는 모든 것

출생증명서, 대학 졸업장, 여권, 운전면허증, 사원증, 피트니스 센터 이용권, 병원 등록 카드, 처방전 등은 나에 대한 특정 사실을 설명하고 증명합니다. 예를 들어 약국에 가서 처방전을 제시하면, 내가 어떤 질병으로 인해 어떤 약을 어느 병원의 어느 의사에 의해 처방받았는지 설명하고 증명할 수 있습니다. 이를 통해 약사는 이 처방이 적절하다는 것을 신뢰하고 약을 제조할 수 있습니다. 그리고 약국으로부터 받은 약제비 영수증을 통해 실제로 처방받은 약을 받았음을 증명할 수 있습니다. 이러한 서류를 모아 보험사에 제출하면 증명된 기록을 바탕으로 보험금을 받을 수 있습니다.

검증가능한 자격증명(Verifiable Credential, VC)은 이렇게 나에 대한 특정 사실을 설명하고 증명하는 구체적인 정보들을 말합니다. VC에 담기는 정보는 발급자(의 DID), 자격증명의 주체(정보 주체의 DID), 그리고 증명하고자 하는 주장(나이, 관계, 진단명 등), 이 자격증명을 보관하는 보유자(의 DID. 보통은 정보 주체와 보유자가 동일하나 미성년자 자녀가 정보 주체인 경우 보호자가 보유자일 수 있음)로 구성됩니다. 그리고 이 정보들은 모두 누가 발급했는지, 조작되지는 않았는지, 만료되거나 해지되지는 않았는지 등을 검증할 수 있어야 합니다.

처음 예시에서 언급한 전통적인 물리적 자격증명은 모두 위조의 가능성이 있으며, 인터넷으로 검증하기 어려운 내용이 많았습니다. 이를 해결하고자 서명이나 홀로그램 같은 증명 장치나 검증 기관이 별도로 존재했지만, 개인정보 보호 측면에서 불완전하였고, 글로벌 단위로 인터넷상에서 사용하기에는 비용이나 기술 면에서 한계가 많았습니다. VC는 누구나 투명하게 검증할 수 있는 블록체인상에 발급되어 인터넷상에서 훨씬 빠른 속도로 검증이 가능하며 비용도 크게 절감됩니다. 이러한 가능성을 바탕으로 DID와 VC는 미국 국토안보부(US Department of Homeland Security) 등으로부터 자금을 지원받아 개발되었고 2022년 7월에 개방형 글로벌 표준으로 채택되었습니다.

Hippo Protocol이 집중하고 있는 협력적인 헬스케어 데이터 생태계를 실현하는 데에도 VC는 필수적인 요소입니다. 어떤 환자에 대한 데이터를 중개인 없이도 검증할 수 있다면 데이터의 유통과 활용 과정에서 발생하는 마찰이 최소화되어 더 활발한 생태계가 만들어질 수 있을 것입니다.

9.4.3 안전한 헬스케어 데이터 교환

앞서 설명했듯이 블록체인은 자산이나 신원에 대한 등기부처럼 중요성이 높고 신뢰할 수 있는 저장소가 반드시 필요한 최소한의 정보를 담는 목적으로 사용되어야 적합합니다. 그런데 일부 데이터는 블록체인상에 기록될 수도 있지만, 수백 GB의 유전체 데이터에서 수 TB에 달할 수 있는 PGHD(참고)와 같은 많은 헬스케어 데이터의 경우 블록체인에 저장하는 것은 현실적이지 않으며 그만큼 많은 복사본이 꼭 필요한 것은 아닙니다.

이 경우 고려해볼 수 있는 솔루션은 DIDComm 표준에 따라 ECDH(Elliptic Curve Diffie-Helman) 기반 다중 서명 기술을 활용하는 데이터 암호화 전달을 위한 표준 프레임워크인 ECIES(Elliptic Curve Integrated Encryption Scheme)을 통해 데이터를 주고받을 수 있게 하는 것입니다. 이러한 방식을 이용하면 중개자의 서버를 별도로 거치지 않고, 데이터 교환을 위해 명시적으로 연결된 두 당사자 외에는 데이터를 열어볼 수 없도록 데이터가 안전하게 암호화·복호화되어 교환됩니다. 이것이 의미하는 바는 환자가 다른 기관에 의존하지 않고도 대용량의 데이터를 의료 기관 및 데이터 활용 기관과 직접 안전하게 교환할 수 있고, 개인정보 유출 위험 없이 데이터의 유통 경로가 매우 효율적으로 개선될 수 있다는 것입니다. 이에 적절한 인센티브 장치를 결합하면 데이터 거래가 가능해집니다.

이외에도 파일을 분산하여 저장하고 공유하기 위한 프로토콜인 IPFS(InterPlanetary File System)를 활용하는 방법도 고려할 수 있습니다. 어떤 파일이 IPFS 네트워크에 올라오면 여러 노드에 분산되어 저장되며, 분산된 파일을 연결하는 역할을 하는 고유 식별자 CID(Content IDentifier)가 파일의 해시값으로부터 만들어집니다. 환자에 대한 특정 대용량 데이터세트를 환자의 공개키로 암호화하여 IPFS에 올리고 그 CID를 VC에 담아 발급하면, 이후 환자가 그 데이터를 다른 기관에 공유할 때 그 기관은 CID가 변경되지 않았는지를 확인함으로써 원본과 동일한 파일임을 확신할 수 있습니다.

마지막으로 DWN, Nostr와 같이 암호키쌍과 P2P로 연결된 수많은 개인 기기와 릴레이를 통해서도 구현될 수 있습니다.

상기에 설명한 방법 외에도 안전한 데이터 교환은 다양한 방식으로 구현될 수 있으며, Hippo Protocol이 채택할 방식은 이뿐만이 아닙니다. Hippo Protocol은 커뮤니티와 함께 더 좋은 솔루션을 열어 놓고 수용할 수 있도록 프로토콜을 설계할 계획입니다.

9.5 데이터 발급 및 활용

9.5.1 데이터 발급

데이터 발급 기관 또는 주체는 검증가능한 자격증명(VC)의 형태로 데이터를 발급할 수 있습니다. 데이터는 정보 주체로부터 요청을 받아 건별로 발급되거나 내부 관리자 페이지에서 발급 대상의 DID를 입력해 일괄 발급도 가능합니다. 두 방법 모두 기관 내부 데이터를 VC 형태로 발급할 수 있도록 데이터 모델을 변환해야 합니다. 현재 JSON-LD와 JWT 두 가지 구문 표현을 사용해 VC를 발급할 수 있습니다. 한편, 이러한 데이터 모델로 변환하지 않고 데이터 파일을 정보 주체의 암호키로 암호화해 분산 저장소에 업로드 후 그 파일의 해시값을 VC에 포함하는 방법도 있습니다.

VC에 포함되는 또 다른 중요한 정보는 발급된 데이터가 거래되었을 때 발급 기관의 몫으로 배분될 수수료율입니다. 지금까지 데이터 발급 기관은 기관 외부로 반출된 데이터에 대한 몫을 청구할 방법이 현실적으로 없었습니다. VC를 활용한다면 모든 데이터는 환자의 결정이 있어야 유통될 수 있고, 환자 동의하에 유료로 거래된 데이터에 대한 금액은 환자와 발급 기관에 자동으로 배분됩니다. 이를 통해 데이터 발급 기관은 데이터 발급 수수료 외에 데이터 활용으로 발생하는 인센티브를 확보할 수 있습니다. 이러한 메커니즘은 발급 기관으로 하여금 보다 신뢰할 수 있고 활용하기 좋은 데이터를 준비하고 발급하는 데 동기 부여가 됩니다.

9.5.2 데이터 활용

인공지능 헬스케어 솔루션을 개발하거나 이미 개발된 솔루션을 활용해 데이터 기반 헬스케어 서비스를 제공하는 기관, 또는 임상시험에 적합한 참여자를 스크리닝하려는 등의 목적을 가진 기관은 Hippo Protocol을 통해 충분한 동의가 이뤄져 신뢰할 수 있는 데이터를 활용할 수 있습니다. 이를 위해선 우선 데이터 활용 기관에서 사용할 데이터 지갑과 DID를 준비합니다. 그리고 데이터 활용 SDK를 기관 내부 서비스에 통합해야 합니다. 그러면 데이터 활용을 위한 준비가 완료됩니다.

데이터 활용을 위해선 정보 주체의 DID와 활용 기관의 DID를 연결하는 작업이 필요합니다. 이는 일반적으로 정보 주체에게 로그인, 인증, 연결 등의 목적으로 QR코드 스캔을 요청하고, 정보 주체가 이를 스캔 후 동의하는 과정으로 이뤄집니다. 활용 기관은 모든 정보를 한 번에 요청할 필요는 없으며, 초기 단계에서는 기본적인 서비스 이용에 필요한 정보만 요청하고, 더 높은 수준의 사용자 동의가 필요한 정보는 별도로 요청하는 방법으로 데이터를 확보할 수 있습니다. 이러한 방법을 활용하면 사용자 전환이 이뤄지는 퍼널별로 적합한 데이터를 확보할 수 있습니다. 동의를 확보할 때 정보 주체에게 전달해야 할 정보는 활용 기관의 정보, 요청하는 권한의 내용, 어떤 데이터를 어떤 조건으로 활용하고자 하는지 등을 포함합니다. 이는 기존의 이용 약관, 개인정보보호 정책 등 데이터 수집과 활용을 위한 법적 고지문을 제시하고 동의받는 단계에 해당하는 것입니다. 차이점은 활용 기관이 거버넌스 프레임워크에 의해 인증된 표준화된 약관을 채택할 수 있다는 것입니다. 이러한 방식의 장점은 데이터 지갑의 동의(서명) 관리에서도 설명했듯이 정보 주체 입장에서는 매번 법적 고지문을 세세히 확인하는 노력을 들일 필요가 없다는 것이고, 기관 입장에서는 국가별, 상황별로 적합한 컴플라이언스 요건을 갖춘 라이센스를 채택하면 된다는 것입니다. 이는 법률 검토를 위한 비용과 시간을 크게 절감하고, 충분한 동의를 확보하는 데 한층 수월할 것입니다.

데이터 사용자 기관은 Hipp Protocol DAO의 표준화된 프로토콜을 활용하고, CompliantData SDK를 통해 라이선스를 획득할 수 있습니다.

위 기능들은 Data Hippo에 최초로 적용되어 데이터 활용 SDK와 함께 실제 환자가 자신의 데이터 지갑에 보관된 데이터를 통해 건강 관리 및 커뮤니티 서비스를 이용할 예정입니다. SDK는 다른 영리/비영리 제품에도 별도 계약 없이 자유롭게 통합될 수 있습니다.

Data Hippo는 초기 Hippo Protocol 생태계에 환자가 데이터 지갑을 활용할 수 있는 사용처를 제공할 것입니다. Data Hippo는 환자에게 충분한 동의를 받아 확보한 데이터를 기반으로 신뢰할 수 있는 맞춤 정보와 건강 관리 솔루션, 커뮤니티 경험을 제공합니다. 나아가 환자가 서비스 사용 과정에서 생성한 환자 유래 건강 데이터와 지갑을 통해 제출한 임상 데이터 등을 통합하고, 이를 제약사와 같은 또 다른 데이터 수요 기관에서 활용하기 좋은 형태로 가공한다면 부가가치가 높은 데이터 판매가 가능해질 것입니다. 이 과정은 환자의 동의를 기반으로 하며, 발생한 수익은 환자와 데이터 발급 기관에 배분되는 보상의 원천이 되어 지속가능한 데이터 보상과 활용을 가능하게 합니다.

이 시나리오를 구현하려면 데이터 활용 및 보상에 대한 조건이 환자가 동의하는 내용에 포함됩니다. 특히 개인정보 공개 수준에 따라 데이터는 보호의료정보·비식별의료정보·한정데이터세트 또는 식별의료정보·익명의료정보·가명의료정보 등으로 나뉠 수 있습니다. 일반적으로 높은 수준의 개인정보와 더 많은 정보를 요구할수록 보상 금액이 커지지만, 환자가 개인정보를 보호하고자 거절할 가능성 또한 높아집니다. 이에 따라 데이터 활용 기관은 환자를 설득할 수 있는 꼭 필요한 데이터만 확보하려 노력할 것입니다. 또한 데이터는 생성 과정에서 공공 재원이 많이 투입되기 때문에 가명 또는 익명정보일수록, 과학적 연구 목적으로 활용될수록, 공공의 목적으로 배분되는 보상의 비율이 커지게끔 설계할 수 있습니다. 이러한 메커니즘은 공공 보건의료 서비스의 품질을 높이는 데 기여할 수 있습니다.

데이터에 대한 보상이 클수록, 개인정보 침해에 대한 위험이 적을수록 데이터 공유에 대한 동의를 받을 수 있는 가능성이 커집니다.

9.6 Hippo SDK

Hippo SDK는 정보 주체가 자신의 신원과 기관으로부터 받은 데이터, 그리고 데이터 공유 보상 등으로 획득한 자산을 관리하는 데이터 지갑을 개발할 수 있게 하는 오픈소스 개발키트입니다. 데이터 지갑에서 개인의 데이터를 보관하는 방식은 원본 데이터 자체를 보관하는 것이 아니라 그 데이터에 접근할 수 있는 카드키나 영수증을 보관하는 것과 유사합니다. 마치 지갑에 현금이나 신용카드 뿐만 아니라 신분증, 멤버십 카드, 티켓, 헌혈증, 카드키, 영수증 등을 보관했다가 필요할 때마다 꺼내 쓰는 것과 같습니다. 지갑을 분실하면 그 안에 있는 것도 함께 잃어버리듯 지갑은 지갑 소유자에게 온전한 통제권이 있으며, 바꿔 말하면 온전한 책임 또한 지갑 소유자에게 있습니다. 데이터 지갑도 마찬가지입니다.

본 장에서는 Hippo SDK에서 제공하고자 계획을 세우고 있는 핵심 기능들을 소개할 것입니다. 그 대부분은 개방형 표준과 오픈소스를 기반으로 구현되는데 이는 바퀴를 새로 발명하는 대신, 이미 충분히 검증된 기술을 기반으로 Hippo Protocol이 해결하려는 문제에 초점을 둔 부가가치를 더하는 데 집중하기 위함입니다. 이러한 방식은 새로운 소프트웨어에서 발생할 수 있는 의도적/비의도적 결함을 최소화하면서도 개방형 표준에서 지속되는 개선과 혁신을 그대로 누릴 수 있다는 장점이 있습니다. 또한 이러한 방식은 Hippo SDK를 기반으로 개발된 지갑에 담긴 사용자의 자산과 데이터에 다양한 애플리케이션을 통해 접근할 수 있게 개방하여 사용자가 누리는 효용이 더욱 커질 수 있게 합니다.

개인키 생성 및 관리

Hippo SDK의 기본 기능은 자산, 데이터 및 탈중앙화 신원(DID)에 접근하고 관리하는 데 필요한 개인 키를 안전하게 생성하고 저장하는 것입니다. Cosmos SDK 표준과의 호환성을 통해, 대부분의 블록체인 지갑과 동일한 수준의 보안을 제공하며, 개인 키 생성 및 니모닉 코드 복구 기능을 지원합니다. 따라서 Hippo SDK는 기본적인 블록체인 지갑 기능을 구현하는 데에도 활용될 수 있습니다. 추가 보안을 위해, 디바이스의 신뢰 실행 환경(TEE)을 적용하여 개인 키 저장을 강화할 수 있습니다.

연결, 인증, 로그인

자신의 DID가 생성되면 이를 통해 중개자 없이 데이터에 접근하는 기관과 P2P로 연결할 수 있습니다. 이 사이에 오가는 모든 데이터와 메시지는 종단 간 암호화되어 당사자 외에는 그 내용을 볼 수 없습니다. 이러한 방식을 이용하면 통신 과정에서 발생하는 개인정보 노출 위험을 최소화할 수 있습니다.

최초 연결은 보통 기관의 애플리케이션이나 웹 사이트에서 연결을 위한 QR코드를 스캔하거나 버튼을 누른 후, 사용자가 연결하려는 대상에 대한 정보와 요청 권한 및 데이터 등을 확인한 후 승인하는 방식으로 이뤄집니다. 이렇게 한 번만 연결하면 어느 한쪽에서 종료하지 않는 이상 신뢰 관계로 기억되어 연결이 유지됩니다.

헬스케어 상황을 생각해 보면 일반적으로 병원은 최초 방문 시 신규 환자로 등록해야 합니다. 이때 환자는 등록 버튼을 누르고 본인 데이터 지갑으로 QR코드를 스캔하면 본인임을 확인할 수 있는 이름, 주민등록번호, 사진, 성별 등 법정 신원에 대한 공유 요청을 받습니다. 환자가 이를 승인하면 병원 측 담당자가 환자의 데이터 지갑으로부터 환자 본인임을 확인한 후 환자 등록이 이뤄집니다.

이러한 방식은 로그인이나 다른 인증 수단을 대체하기 때문에 사용자가 연결하려는 서비스마다 아이디와 암호를 생성하고 기억해야 하는 불편함을 해소합니다. 또한 QR코드 인식만으로 간편하게 로그인, 인증, 자산 및 데이터 송수신 등을 할 수 있습니다. 그뿐만 아니라 데이터 지갑 애플리케이션 자체에 PIN, 생체인식 등 추가적인 보안 수단을 개인키와 조합하면 사실상 멀티팩터 인증(Multi-factor Authentication, MFA)으로서 일반적인 로그인 방식보다 훨씬 높은 수준의 보안성을 갖출 수 있습니다.

QR코드 인식만으로 간편하게 로그인, 인증, 자산 및 데이터 송수신을 할 수 있습니다.

데이터 관리

데이터 지갑을 통해 병원과 같은 상대방과 연결된 상태에서는 사용자가 요청할 때마다 혹은 상대방이 필요하다고 판단할 때마다 원본 데이터 혹은 그 증명서를 상호간에 전송할 수 있습니다.

전형적인 시나리오로는 병원에서 의무기록과 같은 데이터를 발급할 때 환자 본인임을 확인하는 인증 절차를 거친 뒤, 환자의 데이터 지갑에 VC 형태로 발급하는 것입니다. 그러면 데이터 지갑에 데이터가 발급되었으며 이를 승인하겠냐는 알림과 메시지가 도착하고, 승인 후에는 데이터를 확인할 수 있게 됩니다. 일반적인 클라우드 스토리지와 달리, 데이터는 모두 사용자의 암호키에 의해 암호화되어 저장됩니다.

이렇게 발급된 데이터는 필요한 곳에 제시할 수 있습니다. 예를 들어 데이터를 활용한 건강 관리 서비스를 이용하려면 환자에게 서비스를 제공하기 위해 특정 데이터에 접근이 필요하다며, QR코드 스캔을 요청합니다. 환자가 QR코드를 스캔하면 어떤 데이터를 활용하는지 서비스 제공자에 대한 상세 정보와 이용 조건 등을 확인할 수 있고, 이를 승인하면 서비스 제공자에게 데이터를 공유합니다. 그러면 서비스 제공자는 해당 데이터의 해시가 발급자가 제공한 데이터의 해시와 동일한지, 발급자는 신뢰할 수 있는 기관인지 등을 검증합니다. 검증을 마치면 환자에게 필요한 서비스가 제공됩니다. 다소 복잡해 보이지만, 이 모든 과정은 자동화된 소프트웨어가 빛의 속도로 처리하기 때문에 환자는 일반적인 간편 인증 과정처럼 느낄 것입니다.

경우에 따라 데이터 전체를 공유하지 않고 원하는 데이터만 선택해서 공유할 수 있습니다. 심지어 개인정보가 노출될 수 있는 데이터를 상대방에게 공유하지 않고도 목적을 달성할 수 있습니다. 본인이 자녀의 법정 대리인(보호자)임을 증명해야 하는 상황을 예로 들어보겠습니다. 우선 본인 데이터 지갑에 자녀에 대한 정보와 자녀와의 관계가 담긴 정보가 보관되어 있어야 합니다. 병원 담당자는 본인에게 자녀의 보호자가 맞는지 확인하고자 QR코드를 스캔해 달라고 요청할 것입니다. QR코드를 스캔하고 승인하면 시스템은 이름, 생년월일, 성별, 주소 등 개인정보는 노출하지 않은 채 해당 환자의 보호자로 등록되어 있는지만 확인하고 맞다 틀리다 결과만 알려줍니다. 이러한 방법을 영지식 증명(Zero-knowledge proof)이라고 합니다. 병원 담당자는 개인정보가 아니라 실제 보호자인지만 확인하면 되기 때문에 목적을 달성할 수 있습니다.

동의(서명) 관리

동의 자체는 기존 방식도 큰 문제가 없습니다. 이미 위의 인증, 로그인, 데이터 관리에서 사용자가 동의 버튼을 누르면 되는 것으로 설명했고, 이는 기존 방식과 비슷합니다.

차이점은 데이터 지갑에서는 이미 동의한 내역을 한번에 확인할 수 있고, 더 이상 상대방에게 권한을 주고 싶지 않은 경우에는 언제든지 철회할 수 있다는 것입니다. 기존 방식은 일일이 해당 서비스를 방문해야 하고, 동의 철회는 대체로 쉽지 않으며, 심지어는 별도 서류를 작성해야 하는 등 번거롭습니다. 이와 달리, 데이터 지갑은 동의 이후에도 사용자에게 정보에 대한 자기결정권을 최대한으로 제공합니다.

또한 사용자가 공유하겠다고 동의한 모든 데이터에는 사용자의 암호키로 일종의 워터마크와 같은 서명을 남길 수 있습니다. 이를 활용하면 특정 기관이 보유한 데이터에 워터마크가 없는 경우, 해당 기관은 해당 데이터를 어떻게 적법하게 가졌는지 증명해야 할 것입니다. 이로써 정보 주체의 데이터가 더 안전한 방식으로 유통될 수 있게 됩니다.

한편, 기존 방식의 본질적인 문제는 ‘나는 약관의 내용을 읽고 동의합니다.’와 같은 문구를 표시하고, 이에 대한 증거로 동의 버튼을 누르도록 ‘강요’하는 동의 확보 방법에 있습니다. 이는 정보 주체보다 서비스를 제공하는 기업을 보호하기 위한 것에 가깝습니다. 서비스 약관 및 프라이버시 정책 등은 내용이 너무 길고 복잡하기 때문에 현실적으로 사용자가 모든 내용을 면밀히 읽고 불합리한 조항이 있는지 검토하기란 어렵습니다. ‘불충분한 동의’가 발생할 수밖에 없는 이유이기도 합니다.

이를 해결하기 위해 Hippo Protocol에서는 정보 주체를 충분히 보호하면서도 합리적으로 활용하는 데 문제가 없는 정책에 대한 표준화된 라이센스를 도입할 예정입니다. 만약 여러 서비스가 같은 정보보호 정책을 갖추고, 자세히 읽어보지 않아도 모든 내용이 동일하다는 것을 신뢰할 수 있다면 사용자는 여러 서비스를 쓰더라도 한 번만 제대로 읽어보면 될 것입니다. 그 다음부터는 동일한 정보보호 정책 라이센스를 사용한다는 것만 확인하면 그저 동의 버튼만 누르거나 또는 사용자가 원하면 자동으로 동의하도록 설정할 수도 있을 것입니다. 이는 사용자 편의성, 사용자 보호, 기업의 동의 확보율 등 모든 측면에서 도움이 될 것입니다.

만약 표준에 존재하지 않거나 기존에 사용자가 동의한 적이 없는 조항이 담긴 정책의 경우, 동의를 별도로 받아야 하는 약관으로 분리할 수 있습니다. 이러한 경우, 사용자는 변경되거나 새로운 내용만 확인하면 되기에 더욱 확신을 갖고 동의 여부를 결정할 수 있게 됩니다.

이러한 라이센스는 탈중앙 거버넌스 프레임워크에서 관리되어 신뢰성을 갖출 것입니다.

자산 관리

Hippo Protocol 메인넷 코인 $HP와 달러 연동 스테이블코인은 이 목적에 가장 적합한 자산으로 활용될 수 있습니다. 특히, 기관 차원의 스테이블코인 도입이 증가함에 따라, 신용카드 결제 속도로 전 세계 소액 결제가 가능하며, 수수료는 0.0X 달러 이하로 유지될 수 있습니다.

또한, IBC(Inter-Blockchain Communication Protocol)를 통해 Cosmos 생태계 내에서 스테이블코인 및 $HP의 관리 및 전송이 더욱 원활해질 것입니다. 이에 따라, Hippo Protocol 및 Hippo SDK는 이러한 기술과 연계하여 개발되며, 사용자가 선호하는 형태의 자산으로 데이터를 수집 및 활용한 보상을 받을 수 있도록 설계됩니다. 이를 통해 글로벌 보상 시스템이 구현될 것입니다.

백업과 복원

데이터 지갑에는 개인의 소중한 자산과 데이터가 포함되어 있으므로, 이를 안전하게 백업하고 복구할 수 있는 방법 또한 필수적입니다. 기본적으로, 사용자는 BIP-39에 따라 데이터 지갑 생성 시 표시되는 니모닉 코드를 안전한 장소에 기록하여 백업할 수 있습니다. 그러나 이러한 방식은 일부 사용자에게 생소할 수 있으며, 모든 책임을 개인이 부담해야 한다는 점에서 부담을 느낄 가능성이 높습니다.

이를 해결하기 위해, 니모닉 코드를 사용자가 선택한 비밀번호로 암호화하여 iCloud 또는 Google Drive와 같은 개인 클라우드 저장소에 보관할 수 있도록 지원할 예정입니다. 이 방식은 대규모 자산을 보관하는 용도로는 적합하지 않을 수 있지만, 대부분의 데이터 지갑 사용자에게는 니모닉 코드 분실 위험을 줄이는 실용적인 대안이 될 수 있습니다.

물론, 사용자는 보다 높은 보안 수준을 유지하기 위해 클라우드 저장소에 니모닉 코드를 저장하지 않는 선택도 가능합니다. 또한, 블록체인 지갑 표준을 준수하는 만큼, 멀티시그(Multi-Sig) 지갑 및 패스프레이즈 추가와 같은 보안 강화 기능을 유사한 방식으로 구현할 수 있습니다.

알림

필수적인 고지 내용이나 동의 요청을 사용자가 적시에 확인하려면 알림 기능이 필요합니다. 효과적으로 사용자의 주의를 끌 수 있도록 동의와 서명이 필요할 때만 기기의 시스템 알림 기능을 활용할 것입니다.

대리인・후견인

일반적으로는 지갑 소유자와 정보 주체가 동일하지만, 많은 환자가 건강이나 기술 이해도 등의 이유로 스스로 데이터 지갑을 관리하기 어려울 수 있습니다. 이러한 경우에는 타인이 환자를 대신해 동의와 데이터 공유에 대한 의사 결정을 할 수 있도록 데이터 지갑 수준에서 대리인을 지정하는 기능을 제공할 수 있습니다. 이때, 대리인 자격을 가진 지갑 사용자는 정보 주체의 데이터를 지갑에 대신 보관하고 통제할 수 있는 권한을 가질 수 있습니다.

이러한 대리인은 보호자와 같은 개인뿐만 아니라 단체가 될 수도 있습니다. 또한 이 기능을 확장하면 환자가 사망했을 때 환자의 자산과 데이터를 후견인이 넘겨받을 수 있도록 구현할 수도 있습니다. 각국 법률에서 이러한 방식이 허용되는지는 추가적인 확인이 필요하지만, 대리인과 후견인에 대한 신원 인증은 앞서 설명한 검증가능한 자격증명(VC)을 통해 전자적 방식으로 구현이 가능합니다.

Last updated