JSOUP实现网络爬虫

JSOUP是款HTML解析工具,JSOUP内置了对HTML,DOM进行解析的方法,利用JSOUP我们可以能够轻松的实现网络爬虫,该项目主页:http://jsoup.org/。

下面我们来认识JSOUP。

1.通过url解析HTMl。

Document doc = Jsoup.connect("http://www.baidu.com").get();

System.out.println(doc.title());

结果:百度一下,你就知道
上述例子,通过调用JSOUP的静态方法connect传入一个url,得到一个基于该url的Connection对象,然后调用Connection的get方法,获得结果。

8 thoughts on “JSOUP实现网络爬虫

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>