최근 수정 시각 : 2023-11-01 19:15:13

스크래핑

1. 개요2. 관련 소프트웨어

1. 개요

컴퓨터 프로그램 웹 페이지에 접속하여 데이터를 자동으로 추출하는 것을 뜻한다.

스크래핑은 데이터 스크래핑이라고도 하며, 스크린 스크래핑과 웹 스크래핑으로 구분된다. 스크린 스크래핑은 다른 프로그램의 화면 출력을 영상처리 기법 등으로 읽어내서 데이터를 추출하는 것이고, 웹 스크래핑은 웹 페이지에서 데이터를 추출하는 것을 말한다.보통 웹 스크래핑을 칭한다.

웹을 접속해 동적으로 움직이며 정보를 얻는 크롤링과는 엄연히 다른 것이다. 하지만 구분 없이 쓰는 경우가 많다.

2. 관련 소프트웨어

Python이 이 분야의 선두주자로서, 컴퓨터 프로그래밍이 익숙하지 않은 비전공자들인 인문학이나 통계 분야의 종사자들이 쓰기 쉽도록 라이브러리들이 발달하면서 급격히 발전하고 있다. 대표적인 파이썬 라이브러리의 예로 Beautiful Soup[1]등이 있다.

[1] beautifulsoup는 노래 가사를 가져오는 등 구글에 쳐보면 난이도별로 여러 가지 예제들이 있어 학습하기 쉬운 모듈 중 하나다.

분류