2014년 제4회 통계세미나 개최 안내
- 빅데이터 세미나 시리즈 -
통계연구소에서는 다음과 같이 통계 세미나를 개최하오니 많은 참여 바랍니다.
일시: 2014년 4월 9일 (수) 오후 5시
장소: 고려대학교 정경관 205호
연사: 이정복 교수 (서울 아산병원 울산의대 의학통계학과)
보건의료분야에서 빅데이터 분석의 도입: 현황과 이슈들
<초록>
국내외 빅데이터 그리고 그 분석에 대한 논의가 다양하게 펼쳐지고 있는 상황에서 보건의료분야에서의 빅데이터 및 분석을 도입, 적용하려는 노력은 다른 분야보다 매우 앞서 진행되고 있다. 다른 분야에 비하여 보건의료 자료가 특히 각광을 받는 이유는 다양하겠으나, 1) 초기 빅데이터 주창자들이 언급한 3V+C(Volume, Velocity, Variety+Complexity, IBM & Gartner Group)의 특성이 가장 잘 드러나고 있으며, 2) 보건의료 관련 자료의 축척, 관리, 보관이 분산화 되어 있으며, 3) 다양한 보건의료자료에는 현 상태로는 분석에 사용할 수 없는 비정형 자료가 포함되어 있는 특징을 가지고 있다. 보건의료 분야의 자료는 크게 의료비용, 보험과 관련된 activity(claims) and cost data, 진료행위를 통해 만들어지고, EMR, OCS, PAC에서 저장, 관리되는 clinical data, 임상연구, 기초동물실험, 대량의 유전 정보 등의 R&D data, 그리고 환자의 운동습관, 성격, 생활, 식이와 같은 patient behavior and sentiment data으로 분류되는데 (2013, Gartner Group), 각각의 자료의 소유, 저장, 관리 형태는 매우 다양하여, 빅데이터 분석을 위한 자료 통합, 관리 기술을 적용하기 위한 가장 좋은 예가 되고 있다.
빅데이터 분석을 위한 자료의 통합, 인터페이싱을 위한 IT 인프라 구축 현안 외에 개인정보보호법, 생명윤리 및 안전에 관한 법률 등 법률적 제약사항이 자료의 연동에 중요한 체크포인트로 부각되고 있으며, 빅데이터를 위한 통계적 분석 기술은 “다소 강화된 시각화” 방법 이외에 새롭게 연구 개발된 방법론은 현재까지는 부재한 상황에 있다. 특히 빅데이터 분석의 주요 담론인 최적화(optimization), 예측(prediction), 기술분석(descriptive analytics)은 통계학 측면에서는 새로운 내용이 아님에 불구하고 분석 결과의 타당성, 과학성을 보장하기 위한 연구설계, 모형화(선형/비선형, multi-level, Bayesian model ), 다변량 분석, 탐색적 분석, 기계학습, 추론 등은 논의의 중심에서 소외되어 있는 것도 사실이며, 빅테이터 분석의 통계적 추론 없는 분석, 과적합, 편의, 우연성에 대한 다양한 논의가 필요한 상황이다.
또 다른 주요한 이슈로 빅데이터를 통해 data-driven hypothesis의 실현 가능성이 주장되고 있으나, 일부에선 기계학습방법과 탐색적 자료 분석의 결합으로 폄하되고 있는데, 특히 복잡한 생명현상을 다루고, 과학적 추론 과정의 확인이 엄격한 보건의료분야에서 가능한지에 대해 회의도 존재하고 있다.
이와 같이 빅테이터 그리고 그 분석에 있어서는 아직 정리해야할 많은 이슈들이 놓여 있는 초창기임에도 불구하고, 본 발표에서는 보건의료분야를 중심으로 빅데이터 및 그 분석에 대한 개괄, 분석을 가능하게 하는 필수 인프라 및 통계적 이슈들을 살펴보기로 한다. 통계적 논의들에서는 p-value없는 분석, 예측 및 최적화에서 빅데이터 적용의 제반 문제점 등을 포함하기로 한다.
고려대학교 통계연구소