Beautifulsoup 모듈은 html이나 xml 문서에서 데이터를 추출하기 위해 사용되는 파이썬 라이브러리 입니다. 이 라이브러리에는 웹 페이지나 xml 파일에서 원하는 정보를 쉽게 추출할 수 있도록 다양한 함수들이 포함되어 있습니다.
주요 Beautifulsoup 함수
1. beautifulsoup( ) 함수
Beautifulsoup( ) 함수는 html이나 xml문서를 파싱할 때 사용하는 기본 함수입니다. 문서를 파싱할때 사용하는 파서를 선택할 수 있다. 기본적으로 html.parser을 사용한다.!!!
BeautifulSoup() 함수는 두 가지 주요 매개변수를 사용한다.
- markup:
- markup은 파싱할 HTML 또는 XML 문서의 문자열이다. 이 문자열은 웹 페이지의 소스 코드일 수 있으며, requests.get()을 사용해 가져온 HTML 텍스트일 수도 있다.
- parser:
- parser는 파서를 지정하는 매개변수입니다. HTML이나 XML 문서를 어떻게 파싱할지를 설정하는데, html.parser, lxml, html5lib 등 여러 파서가 존재합니다.
- html.parser는 파이썬 내장 HTML 파서입니다.
- lxml은 속도가 빠르고 강력한 외부 파서로, 설치가 필요합니다.
- html5lib는 HTML5 표준을 따르는 파서로, 설치가 필요합니다.
- parser는 파서를 지정하는 매개변수입니다. HTML이나 XML 문서를 어떻게 파싱할지를 설정하는데, html.parser, lxml, html5lib 등 여러 파서가 존재합니다.
2. soup.find( )
find( )는 처음으로 일치하는 태그를 찾습니다. 태그와 속성값을 지정할 수 있으며, 일치하는 첫 번째 요소만 반환합니다.
3. soup.find_all( )
find_all( )은 일치하는 모든 태그를 리스트 형태로 반환합니다.
4. soup.select( )
select( )는 css 선택자를 사용하여 태그를 찾습니다.
5. soup.get_text( )
get_text( )는 html 태그를 제외한 텍스트 내용만 추출합니다.
6. find_parent( )
현재 태그의 부모 요소를 찾습니다.
7.find_all_next( )
현재 태그 이후에 나오는 모든 태그를 찾습니다.
8. find_all_previous( )
현재 태그 이전에 나오는 모든 태그를 찾습니다.
9. soup.get( )
get( )은 특정 태그의 속성값을 가져옵니다. 속성이 없으면 None을 반환합니다.
10. soup.attrs( )
attrs 속성은 태그의 속성을 딕셔너리 형태로 반환합니다.
11. link_tag['href']
link_tag = soup.find('a')
모든 a 태그의 요소를 가져온 다음 link_tag['href']를 사용하면 href요소만 가져온다.
'python 코딩 공부' 카테고리의 다른 글
| if __name__ == "__main__"에 대한 공부 (1) | 2024.12.19 |
|---|---|
| if - elif - else 와 try - except 구문의 차이점 (0) | 2024.12.18 |
| 파싱이란? (0) | 2024.11.12 |
| math 모듈 정리 (0) | 2024.11.10 |
| 계산기 프로그램 (0) | 2024.11.10 |