电商的商品信息采集

电商爬虫一直都有,采集淘宝,天猫的人也越来越多,电商网站都有反爬虫策略,比如淘宝PC的反爬策略,一般都是验证码,一般登陆之后如果频繁访问就会出现验证码,此时就需要使用爬虫代理IP去解决验证码。就算使用了IP去访问,如果还是频繁访问过渡,还是会出现另一种验证码。所以需要控制好访问的频率和请求。或者去采集淘宝APP版本的。因为APP版本的并没有这种限制。但是APP的采集难度会比采集PC端的难度大些。就看自己的技术能力是否支持采集淘宝APP了。

采集PC端的淘宝一般分为以下及步骤:

  • 1、解决淘宝登陆:可以使用爬虫代理IP解决。
  • 2、指定采集的页面:http://h5api.m.taobao.com/
  • 3、查看采集数据页面的源码,进行数据采集
  • 4、过滤所需数据
  • 5、保存所采集的数据到文件

爬虫程序展示:

import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Demo
{
    // 代理验证信息
    final static String ProxyUser = "username";
    final static String ProxyPass = "password";
    // 代理服务器(产品官网 www.16yun.cn)
    final static String ProxyHost = "t.16yun.cn";
    final static Integer ProxyPort = 31111;
    // 设置IP切换头
    final static String ProxyHeadKey = "Proxy-Tunnel";
    public static String getUrlProxyContent(String url)
    {
        Authenticator.setDefault(new Authenticator() {
            public PasswordAuthentication getPasswordAuthentication()
            {
                return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
            }
        });
        // 设置Proxy-Tunnel
        Random random = new Random();
        int tunnel = random.nextInt(10000);
        String ProxyHeadVal = String.valueOf(tunnel);
        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));
        try
        {
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();
            if(doc != null) {
                System.out.println(doc.body().html());
            }
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }
        return null;
    }
    public static void main(String[] args) throws Exception
    {
        // 要访问的目标页面
        String targetUrl = "http://httpbin.org/ip";
        getUrlProxyContent(targetUrl);
    }
}

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/52999.html

(0)
上一篇 2021年8月6日
下一篇 2021年8月6日

相关推荐

发表回复

登录后才能评论