使用 Python 的 Amazon Web Scraper


使用 Python 的 Amazon Web Scraper

使用 Python 的 Amazon Web Scraper

Photo by 马吕斯表 on 不飞溅

介绍

网络抓取是任何数据科学家在他们的工具箱中拥有的一项重要技能。 网络抓取可用于收集有关待售产品、用户帖子、图像以及几乎任何其他在网络上有用的数据 .

网络抓取(或数据抓取)是一种用于从互联网收集内容和数据的技术。这些数据通常保存在本地文件中,以便可以根据需要对其进行操作和分析。如果您曾经将网站上的内容复制并粘贴到 Excel 电子表格中,这本质上就是网络抓取,但规模非常小。

对于网络抓取,需要考虑几个不同的库,包括:

  • 美丽的汤
  • 要求
  • 刮擦

在这个例子中,我们将使用 Beautiful Soup。

概括

  1. 导入库
  2. 用户代理
  3. 检查网页
  4. 创建 CSV 文件
  5. 结论

1.导入库

首先,我们将导入所需的库。

**从** BS4 **进口** 美丽汤  
 **进口** 要求  
 **进口** 时间  
 **进口** 约会时间  
 **进口** smtplib

2. 用户代理

复制并粘贴我们要废弃的网站的链接。然后,我们从计算机中获取“标题”,即“用户代理”,通过 这里 .

 网址 **=** 'https://www.amazon.com/Funny-Data-Systems-Business-Analyst/dp/B07FNW9FGJ/ref=sr_1_3?dchild=1&keywords=data%2Banalyst%2Btshirt&qid=1626655184&sr=8-3&customId=B0752XJYNL&th=1' 标题 **=** {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36", "Accept-Encoding":"gzip, deflate" , "接受":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "升级不安全请求":"1"} 页 **=** 要求 **.** 获取(网址,标题 **=** 标题)

3.检查网页

现在我们开始实际使用 Beautiful Soup 库。

 汤1 **=** 美丽汤(页 **.** 内容,“html.parser”)  
 汤2 **=** 美丽汤(汤1 **.** 美化(),“html.parser”)  
 标题 **=** 汤2 **.** 找到(身份证 **=** '产品标题') **.** 获取文本()  
 价格 **=** 汤2 **.** 找到(身份证 **=** 'priceblock_ourprice') **.** 获取文本()  
  
 打印(标题)  
 打印(价格)

我们得到的输出是:

 有趣的得到数据 MIS 数据系统业务分析师 T 恤  
                    
  
 16.99 美元

4. 创建 CSV 文件

下一步是为输出创建时间戳以跟踪收集数据的时间。

**进口** 约会时间  
 今天 **=** 约会时间 **.** 日期 **.** 今天()  
  
 打印(今天)

我们将数据附加到 cs 五。

**和** open('AmazonWebScraperDataset.csv', 'a+', 换行 **=** '', 编码 **=** 'UTF8') **作为** F:  
 作家 **=** CSV **.** 作家(女)  
 作家 **.** 写手(数据)

现在我们可以可视化我们抓取的数据。

**进口** 熊猫 **作为** PD  
  
 df **=** PD **.** read_csv(r'C:/Users/Alysson/AmazonWebScraperDataset.csv')  
  
 打印(df)

5. 结论

这是我们可以用来在互联网上废弃数据的方法之一。我希望这很清楚。一个好的数据科学家必须知道如何使用上面提到的各种方法。完整代码可以访问 这里 .

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/23550/25301001

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/288544.html

(0)
上一篇 2022年9月10日
下一篇 2022年9月10日

相关推荐

发表回复

登录后才能评论