2012 년 제 8 회 통계세미나 개최 안내

 

통계연구소에서는 다음과 같이 통계 세미나를 개최하오니 많은 참여 바랍니다 .

 

일시 : 2012 9 6 ( ) 오후 5

장소 : 고려대학교 정경관 618

연사 : MingZhe Jin (Faculty of Culture and Information Science, Doshisha University, Japan)

 

Computational Authorship Attribution

in Japanese and Korean

 

 

텍스트 구성 요소를 계량 분석하는 연구가 여러 분야에서 이루어지고 있다 . 가장 역사가 것은 문체의 특징을 이용한 텍스트의 저자를 판별하는 문제이다 .1 8 8 7 T.C. Mendenhall 어휘 길이 분포에 저자의 특징이 나타나는지를 계량적 방법으로 분석하고 결과를 "Science" 에 발표했다 . 통계학자 G.U. Yull 1939 년에 문장 길이와 저자의 특징에 관하여 통계 분석 했다 . 컴퓨터가 자연 언어를 자유롭게 처리 수 없는 시대는 통계 분석에 필요한 데이터를 수집하기 위해 문체 요소를 눈으로 보고 하나하나 세는 방법 밖에 없었다 . 그러기에 단어 길이 , 문장 길이와 같이 세기 쉬운 요소 밖에 취급 없었다 . 이제 컴퓨터에 의한 자연 언어 처리 기술 발전 덕분에 텍스트 데이터를 쉽게 처리하는 시대가 되었다 . 현대 문체 계량 분석은 자연 언어 처리 , 대량 데이터의 통계 처리 , 기계 학습 등의 프로그램을 실행하거나 , 대량의 데이터를 저장하는 컴퓨터의 지원은 필수적이다 .

이 보고에서는 먼저 전산 문체와 텍스트 마이닝의 틀과 기본 방법을 설명하고 통계 과학과의 관련에 대해 해설한 후 텍스트의 저자 특징 데이터 추출과 데이터 통계 분석의 과정 등을 설명한다 . 이어서 문학 작품의 저자 분석 , 수령 위한 살인 사건의 편지 감정 ( 鑑定 ), 실종자 휴대폰에서 전송된 메일 작자 분석 , 한국어 저자 판별 등을 소개한다 . 마지막에는 자작 ( 自作 ) 한 다국어 텍스트 마이닝 도구 MTMineR (Multilingual Text Miner) 데모를 실시한다 .

 

 

고려대학교 통계연구소