Java로 HTML 처리는 jsoup이 짱이네요.

반응형

안녕하세요, 하마연구소입니다.

요즘 개인 프로젝트를 시작했으며 HTML 파싱이 필요하였습니다.
고민하지도 않고 jsoup을 사용하고 있습니다.
역시 부족한거 없이 잘 사용하고 있습니다.

https://jsoup.org/

 

jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety

jsoup: Java HTML Parser jsoup is a Java library that simplifies working with real-world HTML and XML. It offers an easy-to-use API for URL fetching, data parsing, extraction, and manipulation using DOM API methods, CSS, and xpath selectors. jsoup implement

jsoup.org

 

과거에 회사에서 HtmlCleaner를 사용했었는데 필요한 기능은 모두  구현하였지만 무엇인가 부족하고 아쉬운 느낌이었습니다. (좀 오래되어서 어떤 부분이 힘들었는지 기억이 안나네요.)
그러던 중에 jsoup을 경험했는데 완전 신세계였습니다.
너무 쉽고 편하고, 딱 HTML을 다루기에 최적이었습니다.
그러나 HtmlCleaner을 너무 깊게 적용시켜놔서 jsoup으로 변경하기에는 너무 큰 작업이 필요하였습니다.

320x100

이후로 HTML을 다뤄야한다면 무조건 jsoup을 사용합니다.
저는 jsoup에서 XPath로 select하는 방법을 많이 사용하는데요, 사용할 때마다 놀랍습니다. 너무 편해서...

다른 라이브러리도 나왔나 검색해보았지만, 딱히 없네요.

HTML을 다루기에는 jsoup이면 만족하고 충분합니다.
파싱이나 생성, 최적화 등 HTML을 만져야 한다면 jsoup 믿고 사용해보세요.

감사합니다.

반응형

Designed by JB FACTORY