본문 바로가기
python 코딩 공부

Beautifulsoup 모듈 공부

by Gustav7 2024. 11. 12.

Beautifulsoup 모듈은 html이나 xml 문서에서 데이터를 추출하기 위해 사용되는 파이썬 라이브러리 입니다. 이 라이브러리에는 웹 페이지나 xml 파일에서 원하는 정보를 쉽게 추출할 수 있도록 다양한 함수들이 포함되어 있습니다. 

 

주요 Beautifulsoup 함수

1. beautifulsoup(  ) 함수

Beautifulsoup(  ) 함수는 html이나 xml문서를 파싱할 때 사용하는 기본 함수입니다. 문서를 파싱할때 사용하는 파서를 선택할 수 있다. 기본적으로 html.parser을 사용한다.!!!

BeautifulSoup() 함수는 두 가지 주요 매개변수를 사용한다.

  1. markup:
    • markup은 파싱할 HTML 또는 XML 문서의 문자열이다. 이 문자열은 웹 페이지의 소스 코드일 수 있으며, requests.get()을 사용해 가져온 HTML 텍스트일 수도 있다.
  2. parser:
    • parser는 파서를 지정하는 매개변수입니다. HTML이나 XML 문서를 어떻게 파싱할지를 설정하는데, html.parser, lxml, html5lib 등 여러 파서가 존재합니다.
      • html.parser는 파이썬 내장 HTML 파서입니다.
      • lxml은 속도가 빠르고 강력한 외부 파서로, 설치가 필요합니다.
      • html5lib는 HTML5 표준을 따르는 파서로, 설치가 필요합니다.

 

2. soup.find(  )

find(  )는 처음으로 일치하는 태그를 찾습니다. 태그와 속성값을 지정할 수 있으며, 일치하는 첫 번째 요소만 반환합니다.

 

3. soup.find_all(  )

find_all(  )은 일치하는 모든 태그를 리스트 형태로 반환합니다.

 

4. soup.select(  )

select(  )는 css 선택자를 사용하여 태그를 찾습니다. 

 

5. soup.get_text(  )

get_text( )는 html 태그를 제외한 텍스트 내용만 추출합니다.

 

6. find_parent(  )

현재 태그의 부모 요소를 찾습니다.

 

7.find_all_next(  )

현재 태그 이후에 나오는 모든 태그를 찾습니다.

 

8. find_all_previous(  )

현재 태그 이전에 나오는 모든 태그를 찾습니다.

 

9. soup.get(  )

get(  )은 특정 태그의 속성값을 가져옵니다. 속성이 없으면 None을 반환합니다.

 

10. soup.attrs(   )

attrs 속성은 태그의 속성을 딕셔너리 형태로 반환합니다.

 

11.  link_tag['href']

link_tag = soup.find('a')

모든 a 태그의 요소를 가져온 다음 link_tag['href']를 사용하면 href요소만 가져온다.

'python 코딩 공부' 카테고리의 다른 글

if __name__ == "__main__"에 대한 공부  (1) 2024.12.19
if - elif - else 와 try - except 구문의 차이점  (0) 2024.12.18
파싱이란?  (0) 2024.11.12
math 모듈 정리  (0) 2024.11.10
계산기 프로그램  (0) 2024.11.10