2019-02-25

BeautifulSoup의 selector를 조금만 더 고급스럽게 사용하기

0. 공식 홈페이지에선 굳이 네 가지를 구분하고 있다.

(Blogger에서 글자가 깨져서 사진으로 가져오는 미천한 수준)

가만히 보면 href 뒤의 특수문자들이 붙어있는데, 이것의 의미를 눈치로 배워보았다.



1. a[href= 는 정말 단순하게 a 태그의 하이퍼링크가 http://example.com/elsie로 연결되는 엘리먼트만을 찾는다. 가장 많이 사용하는 형태이지 않을까 싶다.

2. a[href^= 는 "..." 안에 들어갈 문장으로 시작하는 주소를 찾는다. 그래서 반환된 엘리먼트들이 모두 .com/까지는 똑같지만 elsie, lacie, tillie 처럼 뒤가 다르다. 마치 RegEx같다.

3. a[href$= 는 "..." 안에 들어갈 문장으로 끝나는 주소를 찾는다.

4. a[href*= 는 "..." 안에 들어갈 문장이 가운데에 끼어있는 경우를 찾는다. 예시를 보면 ".com/el"을 줬는데, 저 문장 앞과 뒤에 무엇이 오건간에 상관없이, ".com/el"가 들어있기만 하면 찾아서 리턴해주는 것이다. 마치 와일드카드처럼 작동한다.

댓글 없음:

댓글 쓰기