做Java爬蟲，有些感悟心得，分享給大家

更新時間：2019-09-29 13:42:56 來源：動力節點瀏覽3553次

首先，看完這篇文章，不能保證你成為大神，但是卻可以讓你懂得什么是爬蟲，如何使用爬蟲，如何利用http協議，侵入別人的系統，當然只是一些簡單的教程，拿到一些簡單的數據。

timg (12).jpg

先上代碼，在一步一步講解：

這是一個工具類，不用詳細看，網上哪里都能找到發送http請求的工具類，少包自己導　　

packagecom.df.util;
importjava.io.BufferedReader;
importjava.io.IOException;
importjava.io.InputStreamReader;
importjava.io.OutputStreamWriter;
importjava.io.PrintWriter;
importjava.net.HttpURLConnection;
importjava.net.URL;
importjava.net.URLConnection;
importjava.util.List;
importjava.util.Map;
importorg.apache.log4j.Logger;
importorg.jsoup.Connection;
importorg.jsoup.Connection.Method;
importorg.jsoup.Connection.Response;
importorg.jsoup.Jsoup;
importcom.df.controller.DFContorller;

publicclassHttpPosts{
  privatefinalstaticLoggerlogger=Logger.getLogger(DFContorller.class);
  publicstaticStringsendPost(Stringurl,Stringparam){
  PrintWriterout=null;
  BufferedReaderin=null;
  Stringresult="";
  try{
  URLrealUrl=newURL(url);
  //打開和URL之間的連接
  URLConnectionconn=realUrl.openConnection();
  //設置通用的請求屬性
  conn.setRequestProperty("accept","*/*");
　conn.setRequestProperty("connection","Keep-Alive");
　　conn.setRequestProperty("user-agent",
　　"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
　　//發送POST請求必須設置如下兩行
　　conn.setDoOutput(true);
　　conn.setDoInput(true);
　　//獲取URLConnection對象對應的輸出流
　　out=newPrintWriter(conn.getOutputStream());
　　//發送請求參數
　　out.print(param);
　　//flush輸出流的緩沖
　　out.flush();
　　//定義BufferedReader輸入流來讀取URL的響應
　　in=newBufferedReader(
　　newInputStreamReader(conn.getInputStream(),"utf-8"));
　　Stringline;
　　while((line=in.readLine())!=null){
　　result+=line;
　　}
　　}catch(Exceptione){
　　logger.info("發送POST請求出現異常！"+e);
　　e.printStackTrace();
　　}
　　//使用finally塊來關閉輸出流、輸入流
　　finally{
　　try{
　　if(out!=null){
　　out.close();
　　}
　　if(in!=null){
　　in.close();
　　}
　　}
　　catch(IOExceptionex){
　　ex.printStackTrace();
　　}
　　}
　　returnresult;
　　}
　　publicstaticStringsendGet(Stringurl,Stringparam){
　　Stringresult="";
　　BufferedReaderin=null;
　　try{
　　StringurlNameString=url+"?"+param;
　　URLrealUrl=newURL(urlNameString);
　　//打開和URL之間的連接
　　URLConnectionconnection=realUrl.openConnection();
　　//設置通用的請求屬性
　　connection.setRequestProperty("accept","*/*");
　　connection.setRequestProperty("connection","Keep-Alive");
　　connection.setRequestProperty("user-agent",
　　"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1)");
　　connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
　　//建立實際的連接
　　connection.connect();
　　//獲取所有響應頭字段
　　Map<String,List<String>>map=connection.getHeaderFields();
　　//遍歷所有的響應頭字段
　　for(Stringkey:map.keySet()){
　　System.out.println(key+"--->"+map.get(key));
　　}
　　//定義BufferedReader輸入流來讀取URL的響應
　　in=newBufferedReader(newInputStreamReader(
　　connection.getInputStream(),"utf-8"));
　　Stringline;
　　while((line=in.readLine())!=null){
　　result+=line;
　　}
　　}catch(Exceptione){
　　System.out.println("發送GET請求出現異常！"+e);
　　e.printStackTrace();
　　}
　　//使用finally塊來關閉輸入流
　　finally{
　　try{
　　if(in!=null){
　　in.close();
　　}
　　}catch(Exceptione2){
　　e2.printStackTrace();
　　}
　　}
　　returnresult;
　　}
　　}

---------------------------------------分割線

下面進入主題：首先你要先進入，你要去爬取網站的登錄頁面，查看頁面源碼，找到登錄請求發送的方法名；一般來所，小型網站會直接寫在from表面action里面，很容易找得到，中型的網站就不會寫的這么直接了，找起來要費些功夫，可能在js里面，也可能不在這個頁面，推薦使用抓包工具登陸一次，看抓到的請求信息，大型的網站，本人爬取過的京東商城后臺，用游覽器自帶的f12，抓不到登錄的信息，一閃即逝，最后想了很多招才搞到京東的登錄接口；實現爬去；拿到了登錄接口地址后。上代碼

Stringdata=HttpPosts.sendGet(登錄地址（不帶參數；String類型地址）,參數（如：user_id=6853&export=112）);（返回的登錄狀態，一般是json格式，他會高數你是否登錄成功，有的是true，有的是1，視情況而定）選擇get還是post，模仿登錄頁面的請求

然后再來一個請求獲取cookie　

Connectionconn=Jsoup.connect("登錄后頁面的地址");
conn.method(Method.GET);
conn.followRedirects(false);
Responseresponse=conn.execute();
System.out.println(response.cookies());

再講cookie動態傳入get或者post方法里面替換到寫死的cookie；因為是測試所以寫死了cookie，可以寫成動態的；

之后再掉你要訪問登錄之后的頁面，主頁，或者是數據頁面，里面一定要攜帶cookie，和http請求的基本參數信息，不然一定會被攔截的。

Stringdata=HttpPosts.sendGet(登錄地址（不帶參數；String類型地址）,參數（如：user_id=6853&export=112）);訪問方法同上；這回給你返回的就是他們的頁面了，如何你找到了對面的某個數據接口，那就可以直接訪問他，返回的就直接是數據，不然你還要解析，他的頁面，很麻煩的。解析頁面一般用jsoup。

其實這個等于另類的入侵，不需要知道對方的接口文檔，用程序利用http協議直接訪問對方的服務器，

拿到你想要的東西。當然有驗證碼的情況下，是很難的。這是爬蟲基礎。只是一帶而過，講的有些片面，不到之處多多海涵。

以上就是動力節點java培訓機構小編介紹的“做Java爬蟲，有些感悟心得，分享給大家”的內容，希望對大家有幫助，更多java最新資訊請繼續關注動力節點java培訓機構官網，每天會有精彩內容分享與你。

上一篇北京電腦短期培Java學費多少下一篇在Java培訓學校學習Java基礎要多久？

大战熟女丰满人妻av-荡女精品导航-岛国aaaa级午夜福利片-岛国av动作片在线观看-岛国av无码免费无禁网站-岛国大片激情做爰视频

做Java爬蟲，有些感悟心得，分享給大家

JVM

多線程下載器項目實戰

Java日志框架全集（選學）

高并發解決方案（選學）

零基礎能學Java嗎？

零基礎能學Java嗎？

零基礎能學Java嗎？

關于我們

課程中心

在線課程

資料廣場

全國免費電話