소셜빅데이터 학습한 머신러닝으로 미래 범죄 현상 예측

[배지영 기자] 입력 2018.02.10 01.22

빅데이터 전문가 송주영·송태민 교수, 연구 방법론 담은 책 펴내

현대사회의 범죄 현상은 과거에 비해 보다 복잡하고 다양한 형태로 나타나고 있다. 따라서 범죄 현상을 예측하고 분석하는 방법도 보다 다양해지고 있다. 『빅데이터를 활용한 범죄 예측』(송주영, 송태민 지음/황소걸음 아카데미)은 소셜빅데이터를 활용해 범죄 예측 모형을 개발하고 활용하는 방법을 담은 국내 최초의 책이다.
 
표본에 근거한 제한된 결과만을 알 수 있던 과거와 달리 이 책에서 다루는 머신러닝은 모집단인 빅데이터를 학습하고 모형을 개발해 미래를 예측한다. 때문에 복잡하고 다양한 범죄 현상을 보다 정확하게 예측할 수 있다.
 
1부에서는 소셜 빅데이터의 이론적 배경과 함께 소셜 빅데이터를 분석하기 위한 다양한 연구방법론을 설명했다. 1장에는 사이버 학교폭력의 위험을 예측하기 위해 소셜 빅데이터 분석 방법과 수집 및 분류 방법, 미래신호 예측 방법론 등에 대해 상세히 기술했다. 2장에는 빅데이터 분석 프로그램인 R의 설치 및 활용 방법을 소개하고, 빅데이터 분석을 위해 데이터 사이언티스트가 습득해야 할 과학적 연구방법에 관해 기술했다. 또한 3장에는 머신러닝의 이론과 머신러닝 알고리즘인 나이브 베이즈 분류모형, 로지스틱 회귀모형, 랜덤포레스트 모형, 의사결정나무 모형, 신경망 모형, 서포트벡터머신 모형과 연관규칙, 군집분석, 모형 평가, 그리고 시각화 등을 적용하여 예측 모형을 개발하는 전 과정을 기술했다.
 
빅데이터의 수집에서부터 분석과 고찰에 이르는 전체 연구 과정을 자세히 설명한 것이다. 온라인 문서에서 유용한 정보를 추출하는 텍스트 마이닝, 문서에 담긴 감정을 분석하는 오피니언 마이닝, 범죄 예측을 위한 머신러닝과 시각화 분석과정 등도 깊이 있게 다뤘다.
 
2부에서는 국내의 온라인 뉴스 사이트, 블로그, 카페, 트위터, 게시판 등에서 소셜 빅데이터를 수집하고 분석한 연구 사례를 기술했다.
 
4장에는 ‘머신러닝을 활용한 한국의 섹스팅 위험 예측’ 연구 사례를, 5장에는 ‘머신러닝을 활용한 한국 소년범의 범죄지속 위험 예측모형 개발’ 연구 사례를, 6장에는 ‘머신러닝 기반 의약품 부작용과 마약 위험 예측모형 개발’ 연구 사례를 기술했다.
 
이 책에 실린 연구 방법들은 양질의 빅데이터를 생산하고 데이터에 적합한 머신러닝 알고리즘을 찾아 모델링하는 범죄학자와 데이터 사이언티스트에게 특히 큰 도움이 될 것이다.
 


<저작권자 ⓒ 중앙일보헬스미디어, 무단전재 및 재배포 금지>