前言
要实现从网页中提取数据,原理很简单。只需要模拟浏览器发起请求,得到网页内容。然后根据一定的规则提取数据即可。
本例使用 HttpClient 来发起请求的,使用 Jsoup 的 parse 方法将 HTML 字符串解析为一个 Document 对象的。你也可以选择其他方式。
实现过程
1、添加依赖:在 pom.xml 文件中添加
---
-------------------------------
----------------
------------
---
---
---------------
-----------
------------
---
2、获取网站内容
public static void getWebContent(String ----){
HttpClient ---------- = HttpClients.createDefault();
HttpGet ------- = new HttpGet(----);
try {
HttpResponse -------- = ----------.execute(-------);
HttpEntity ------ = --------.getEntity();
String ---- = EntityUtils.toString(------, "UTF-8");
Document -------- = Jsoup.parse(----);
// 此时拿到 document 对象了。写你自己提取数据的逻辑
} catch (Exception -) {
-.printStackTrace();
}
}