본문 바로가기
python 코딩 공부

파싱이란?

by Gustav7 2024. 11. 12.

파싱(parse)은 일반적으로 분해하거나 분석하여 처리하는 작업을 의미합니다. 웹 파싱의 경우, 웹 페이지의 html, xml 문서를 분해하여 원하는 정보를 추출하는 과정입니다. 웹 페이지는 보통 html로 구성되어 있고 이 태그들은 데이터와 함께 구조적인 정보를 포함하고 있습니다. 파싱을 통해 이 구조적 정보를 이해하고, 그 안에서 필요한 텍스트나 데이터만을 추출할 수 있습니다.

 

<왜 파싱을 할까??>

웹 페이지나 문서에서 특정 정보만을 추출하거나 처리하려면, 전체 내용을 구조적으로 분해하고 분석하는 방법이 필요합니다. 이 과정을 통해 우리가 원하는 데이터만 정확하게 얻을 수 있습니다. 예를 들어 뉴스 웹사이트에서 기사 제목만을 파싱하여 가져오거나, 상품 가격만을 추출하여 가져오는 것이 가능합니다.

 

<xml 문서란?>

xml 문서란 데이터를 저장하고 전달하기 위한 표준 포멧이다. xml은 사람이 읽을 수 있고, 기계로 처리할 수 있는 형식으로 데이터를 구조화하는데 사용합니다. html과 유사한 태그 기반 언어로, 데이터의 구조를 정의하고, 데이터를 계층적으로 표현합니다.

 

xml 문서의 특징

1. 사용자 정의 태그

xml은 html과 달리 사용자가 원하는 태그를 정의할 수 있습니다. 

2. 계층적 구조

xml 구조는 트리구조로 데이터를 표현하며, 부모 - 자식 관계를 가지고 있습니다. 데이터를 계층적으로 정리하고 표현할 수 있기 때문에 복잡한 데이터도 효율적으로 다룰 수 있습니다.

3. 태그로 감싸인 데이터

xml에서는 데이터가 태그로 감싸져 있으며, 태그는 열고 닫는 형태로 사용합니다. 

4. 데이터와 구조의 분리

xml 문서는 데이터를 구조화된 형식으로 제공하며, 데이터와 형식이 분리되어 있어 데이터 전송 및 저장에 매우 유리합니다.

 

 

 

 

 

 

 

 

'python 코딩 공부' 카테고리의 다른 글

if - elif - else 와 try - except 구문의 차이점  (0) 2024.12.18
Beautifulsoup 모듈 공부  (0) 2024.11.12
math 모듈 정리  (0) 2024.11.10
계산기 프로그램  (0) 2024.11.10
API 키에 관하여  (0) 2024.11.07