악성코드 및 정상프로그램 데이터 셋 수집
악성코드인지 아닌지 판단하는 탐지모델을 만들기 위해서는 학습할 많은 데이터가 필요하다.
바로 악성코드와 정상프로그램이다.
이 책에서 소개하는 방법중 하나는 크롤러를 사용하여 웹사이트에서 악성코드를 수집하는 것인데, 현재 시간이 지나면서 많은 악성코드 제공사이트들이 사라졌거나 바뀌어버렸다.
그래서 이 방식으로 악성코드를 수집하기에는 어렵다고 다른 방법을 찾기로 했다.
수집 방법 1. 한국인터넷 진흥원에서 제공하는 데이터 셋을 다운로드
악성코드는 시스템에 중대한 영향을 끼칠 수 있기 때문에, 반드시 가상환경에서 다운받도록 한다.
vmware 우분투 환경에서 파이어폭스를 열어 아래 링크로 접속한다
https://www.bigdata-map.kr/search/1367055
그럼 kt빅데이터 라는 사이트 링크가 있는데, 접속하여 회원가입을 한 후 데이터셋을 구매한다. (무료)
구매했다면 마이페이지 - 데이터신청/이용현황 메뉴를 클릭한다.
두 파일을 다운로드한다.
파일 갯수 13000개, 압축해제한 용량이 27.5gb나 되므로 용량 관리에 주의해야 한다.
수집 방법 2 책에서 재공 하는 악성코드/정상프로그램 샘플 사용
[인공지능 보안을 배우다] 실습자료를 다운로드하는 웹사이트에 샘플이 있다.
악성/정상프로그램 각각 500개씩 제공되어 있다.
책에서 제공하는 데이터는 실습에 최적화 있기 때문에 나는 두 가지 모두 다운로드하여 실습에 활용하기로 했다.
다음 포스트에서 할 데이터셋 라벨링은 파일의 개수에 따라 시간을 매우 많이 소모하므로 (최소 19시간 이상)
좋은 모델과 시간효율을 고려하여 데이터셋의 양을 결정해야 한다.