利用HtmlUnit 模拟浏览器抓取网页数据详解编程语言

最近写爬虫的时候，利用httpclient抓取一些网页出现一些问题，就是抓取回来的内容都含有大量的加密文本（通过javascript脚本），无法获得真实的内容（也就是用浏览器打开网页呈现的内容）。所以，一般需要配合js引擎来解决这个问题，搜索了下，发现htmlunit这个工具就可以帮忙。了解和使用过程中，发现这是一个非常牛逼的开源工具，虽然名气比httpclient小，但是实力绝对不容小觑。闲话少说。可以从这里下载：http://sourceforge.net/projects /htmlunit/files/htmlunit/2.15/

String  url="http://outofmemory.cn/";//想采集的网址 
            String refer="http://open-open.com/"; 
            URL link=new URL(url);  
            WebClient wc=new WebClient(); 
            WebRequest request=new WebRequest(link);  
            request.setCharset("UTF-8"); 
            request.setProxyHost("120.120.120.x"); 
            request.setProxyPort(8080); 
            request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段 
            ////设置请求报文头里的User-Agent字段 
            request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); 
            //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); 
            //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。 
            //其他报文头字段可以根据需要添加 
            wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理 
            wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页，这个是必须的 
            wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页，这个是必须的。 
            wc.getOptions().setThrowExceptionOnFailingStatusCode(false); 
            wc.getOptions().setThrowExceptionOnScriptError(false); 
            wc.getOptions().setTimeout(10000); 
            //设置cookie。如果你有cookie，可以在这里设置 
            Set<Cookie> cookies=null; 
            Iterator<Cookie> i = cookies.iterator(); 
            while (i.hasNext())  
            { 
                wc.getCookieManager().addCookie(i.next()); 
            } 
            //准备工作已经做好了 
            HtmlPage page=null; 
            page = wc.getPage(request); 
            if(page==null) 
            { 
                System.out.println("采集 "+url+" 失败!!!"); 
                return ; 
            } 
            String content=page.asText();//网页内容保存在content里 
            if(content==null) 
            { 
                System.out.println("采集 "+url+" 失败!!!"); 
                return ; 
            } 
            //搞定了 
            CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name 
            Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里，下次请求的时候可能可以用上啦。

原创文章，作者：Maggie-Hunter，如若转载，请注明出处：https://blog.ytso.com/11014.html

利用HtmlUnit 模拟浏览器抓取网页数据详解编程语言

相关推荐

发表回复