Beautifulsoup 모듈 공부

Beautifulsoup 모듈은 html이나 xml 문서에서 데이터를 추출하기 위해 사용되는 파이썬 라이브러리 입니다. 이 라이브러리에는 웹 페이지나 xml 파일에서 원하는 정보를 쉽게 추출할 수 있도록 다양한 함수들이 포함되어 있습니다.

주요 Beautifulsoup 함수

1. beautifulsoup( ) 함수

Beautifulsoup( ) 함수는 html이나 xml문서를 파싱할 때 사용하는 기본 함수입니다. 문서를 파싱할때 사용하는 파서를 선택할 수 있다. 기본적으로 html.parser을 사용한다.!!!

BeautifulSoup() 함수는 두 가지 주요 매개변수를 사용한다.

markup:
- markup은 파싱할 HTML 또는 XML 문서의 문자열이다. 이 문자열은 웹 페이지의 소스 코드일 수 있으며, requests.get()을 사용해 가져온 HTML 텍스트일 수도 있다.
parser:
- parser는 파서를 지정하는 매개변수입니다. HTML이나 XML 문서를 어떻게 파싱할지를 설정하는데, html.parser, lxml, html5lib 등 여러 파서가 존재합니다.
  - html.parser는 파이썬 내장 HTML 파서입니다.
  - lxml은 속도가 빠르고 강력한 외부 파서로, 설치가 필요합니다.
  - html5lib는 HTML5 표준을 따르는 파서로, 설치가 필요합니다.

2. soup.find( )

find( )는 처음으로 일치하는 태그를 찾습니다. 태그와 속성값을 지정할 수 있으며, 일치하는 첫 번째 요소만 반환합니다.

3. soup.find_all( )

find_all( )은 일치하는 모든 태그를 리스트 형태로 반환합니다.

4. soup.select( )

select( )는 css 선택자를 사용하여 태그를 찾습니다.

5. soup.get_text( )

get_text( )는 html 태그를 제외한 텍스트 내용만 추출합니다.

6. find_parent( )

현재 태그의 부모 요소를 찾습니다.

7.find_all_next( )

현재 태그 이후에 나오는 모든 태그를 찾습니다.

8. find_all_previous( )

현재 태그 이전에 나오는 모든 태그를 찾습니다.

9. soup.get( )

get( )은 특정 태그의 속성값을 가져옵니다. 속성이 없으면 None을 반환합니다.

10. soup.attrs( )

attrs 속성은 태그의 속성을 딕셔너리 형태로 반환합니다.

11. link_tag['href']

link_tag = soup.find('a')

모든 a 태그의 요소를 가져온 다음 link_tag['href']를 사용하면 href요소만 가져온다.

if __name__ == "__main__"에 대한 공부 (1)	2024.12.19
if - elif - else 와 try - except 구문의 차이점 (0)	2024.12.18
파싱이란? (0)	2024.11.12
math 모듈 정리 (0)	2024.11.10
계산기 프로그램 (0)	2024.11.10

27살 정보보안 전문가라는 새로운 꿈을 위하여