Jsoup爬虫并解析网页
京东搜索 java,爬取有关java的商品信息
1、获取请求
String url="https://search.jd.com/Search?keyword=java";
2、解析网页。(Jsoup返回的Document对象就是浏览器的Document对象)
所有js中操作Document对象的方法这里都能使用
Document document= Jsoup.parse(new URL(url),30000);
3、分析网页,可以看到所有的商品信息都在id为J_goodsList的div内
获取这个div
Element element=document.getElementById("J_goodsList");
4、单个的产品信息存储在一个个li标签内
获取这些li标签
Elements elements=element.getElementsByTag("li");
5、获取这些li标签中的商品信息
如价格,商品名字等
for (Element element1 : elements) {String price=element1.getElementsByClass("p-price").eq(0).text();String description=element1.getElementsByClass("p-name").eq(0).text();System.out.println("价格:"+price+" 名称:"+description);}
6、运行结果