快速指南:如何创建基于Python的爬虫

陈python 2020-11-16 20:32:13
Python 爬虫 快速 创建 指南


Web抓取的使用正在积极增加,特别是在大型电子商务公司中,Web抓取是一种收集数据以竞争,分析竞争对手和研究新产品的方式。Web抓取是一种从网站提取信息的方法。在本篇文章中,学习如何创建基于Python的刮板。深入研究代码,看看它是如何工作的。

多人学习python,不知道从何学起。

很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。

很多已经做案例的人,却不知道如何去学习更加高深的知识。

那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤

QQ群:1057034340

在当今的大数据世界中,很难跟踪正在发生的一切。对于需要大量信息才能取得成功的企业来说,情况变得更加复杂。但是首先,他们需要以某种方式收集此数据,这意味着他们必须处理数千个资源。

有两种收集数据的方法。您可以使用API媒体网站提供的服务,这是获取所有新闻的最佳方法。而且,API非常易于使用。不幸的是,并非每个网站都提供此服务。然后剩下第二种方法-网页抓取。

什么是网页抓取?

这是一种从网站提取信息的方法。HTML页面不过是嵌套标记的集合。标签形成某种树,其根在<html>标签中,并将页面分成不同的逻辑部分。每个标签可以有其自己的后代(子级)和父级。

例如,HTML页面树可以如下所示:

要处理此HTML,您可以使用文本或树。绕过这棵树是网页抓取。我们只会在所有这些多样性中找到我们需要的节点,并从中获取信息!这种方法主要集中在将非结构化的HTML数据转换成易于使用的结构化信息到数据库或工作表中。数据抓取需要一个机器人来收集信息,并通过HTTP或Web浏览器连接到Internet。在本指南中,我们将使用Python创建刮板。

我们需要做什么:

  •  获取我们要从中抓取数据的页面的URL
  •  复制或下载此页面的HTML内容
  •  处理此HTML内容并获取所需的数据

此序列使我们可以弹出所需的URL,获取HTML数据,然后对其进行处理以接收所需的数据。但是有时我们需要先进入网站,然后再转到特定的网址以接收数据。然后,我们必须再增加一个步骤-登录该网站。

配套

我们将使用Beautiful Soup库来分析HTML内容并获取所有必需的数据。这是抓取HTML和XML文档的绝佳Python包。

Selenium库将帮助我们在一个会话中使抓取器进入网站并转到所需的URL地址。Selenium Python 可以帮助您执行诸如单击按钮,输入内容等操作。

让我们深入研究代码

首先,让我们导入将要使用的库。

  1. # 导入库  
  2. from selenium import webdriver 
  3. from bs4 import BeautifulSoup 

然后,我们需要向浏览器的驱动程序展示Selenium启动网络浏览器的方式(我们将在这里使用Google Chrome)。如果我们不希望机器人显示Web浏览器的图形界面,则将在Selenium中添加“ headless”选项。

没有图形界面(无头)的Web浏览器可以在与所有流行的Web浏览器非常相似的环境中自动管理网页。但是在这种情况下,所有活动都通过命令行界面或使用网络通信进行。

  1. # chrome驱动程序的路径  
  2. chromedriver = '/usr/local/bin/chromedriver'  
  3. options = webdriver.ChromeOptions()  
  4. options.add_argument('headless') #open a headless browser   
  5. browser = webdriver.Chrome(executable_path=chromedriver,   
  6. chrome_options=options) 

设置浏览器,安装库并创建环境之后,我们便开始使用HTML。让我们进入输入页面,找到用户必须在其中输入电子邮件地址和密码的标识符,类别或字段名称。

  1. # 进入登录页面  
  2. browser.get('http://playsports365.com/default.aspx')  
  3. # 按姓名搜索标签  
  4. email =  
  5. browser.find_element_by_name('ctl00$MainContent$ctlLogin$_UserName')  
  6. password =   
  7. browser.find_element_by_name('ctl00$MainContent$ctlLogin$_Password')  
  8. login =   
  9. browser.find_element_by_name('ctl00$MainContent$ctlLogin$BtnSubmit') 

然后,我们会将登录数据发送到这些HTML标签中。为此,我们需要按下操作按钮以将数据发送到服务器。

  1. # 添加登录凭证  
  2. email.send_keys('********')  
  3. password.send_keys('*******')  
  4. # 点击提交按钮  
  5. login.click()  
  6. email.send_keys('********')  
  7. password.send_keys('*******')  
  8. login.click() 

成功进入系统后,我们将转到所需的页面并收集HTML内容。

  1. # 成功登录后,转到“ OpenBets”页面  
  2. browser.get('http://playsports365.com/wager/OpenBets.aspx')  
  3. # 获取HTML内容  
  4. requiredHtml = browser.page_source 

现在,当我们有了HTML内容时,剩下的唯一事情就是处理这些数据。我们将在Beautiful Soup和html5lib库的帮助下做到这一点。

html5lib是一个Python软件包,实现了受现代Web浏览器影响的HTML5抓取算法。一旦获得了内容的标准化结构,就可以在HTML标记的任何子元素中搜索数据。我们正在寻找的信息在表格标签中,因此我们正在寻找它。

  1. soup = BeautifulSoup(requiredHtml, 'html5lib')  
  2. table = soup.findChildren('table') 
  3. my_table = table[0] 

我们将找到父标记一次,然后递归地遍历子标记并打印出值。

  1. # 接收标签和打印值  
  2. rows = my_table.findChildren(['th', 'tr'])  
  3. for row in rows:  
  4.  cells = row.findChildren('td')  
  5.  for cell in cells:  
  6.  value = cell.text  
  7.  print (value) 

要执行此程序,您将需要使用pip安装Selenium,Beautiful Soup和html5lib。安装库之后,命令如下:

  1. # python <程序名称

将把这些值打印到控制台中,这就是您抓取任何网站的方式。

如果我们抓取经常更新内容的网站(例如,运动成绩表),则应创建cron任务以在特定时间间隔启动该程序。

非常好,一切正常,内容被抓取,数据被填充,除了这之外,其他一切都很好,这就是我们要获取数据的请求数。

有时,服务器会厌倦同一个人发出一堆请求,而服务器禁止它。不幸的是,人们的耐心有限。

在这种情况下,您必须掩饰自己。禁止的最常见原因是403错误,以及在IP被阻止时向服务器发送的频繁请求。服务器可用并能够处理请求时,服务器会抛出403错误,但出于某些个人原因,拒绝这样做。第一个问题已经解决了–我们可以通过使用html5lib生成伪造的用户代理来伪装成人类,并将操作系统,规范和浏览器的随机组合传递给我们的请求。在大多数情况下,这样可以很好地准确地收集您感兴趣的信息。

但是有时仅将time.sleep()放在正确的位置并填写请求标头是不够的。因此,您需要寻找功能强大的方法来更改此IP。要抓取大量数据,您可以:

– 开发自己的IP地址基础架构;

– 使用Tor –该主题可以专门讨论几篇大型文章,而实际上已经完成了;

– 使用商业代理网络;

对于网络抓取的初学者来说,最好的选择是与代理提供商联系,例如Infatica等,他们可以帮助您设置代理并解决代理服务器管理中的所有困难。收集大量数据需要大量资源,因此无需通过开发自己的内部基础结构来进行代理来“重新发明轮子”。甚至许多最大的电子商务公司都使用代理网络服务将代理管理外包,因为大多数公司的第一要务是数据,而不是代理管理。

版权声明
本文为[陈python]所创,转载请带上原文链接,感谢
https://www.cnblogs.com/4186c/p/13986529.html

  1. 利用Python爬虫获取招聘网站职位信息
  2. Using Python crawler to obtain job information of recruitment website
  3. Several highly rated Python libraries arrow, jsonpath, psutil and tenacity are recommended
  4. Python装饰器
  5. Python实现LDAP认证
  6. Python decorator
  7. Implementing LDAP authentication with Python
  8. Vscode configures Python development environment!
  9. In Python, how dare you say you can't log module? ️
  10. 我收藏的有关Python的电子书和资料
  11. python 中 lambda的一些tips
  12. python中字典的一些tips
  13. python 用生成器生成斐波那契数列
  14. python脚本转pyc踩了个坑。。。
  15. My collection of e-books and materials about Python
  16. Some tips of lambda in Python
  17. Some tips of dictionary in Python
  18. Using Python generator to generate Fibonacci sequence
  19. The conversion of Python script to PyC stepped on a pit...
  20. Python游戏开发,pygame模块,Python实现扫雷小游戏
  21. Python game development, pyGame module, python implementation of minesweeping games
  22. Python实用工具,email模块,Python实现邮件远程控制自己电脑
  23. Python utility, email module, python realizes mail remote control of its own computer
  24. 毫无头绪的自学Python,你可能连门槛都摸不到!【最佳学习路线】
  25. Python读取二进制文件代码方法解析
  26. Python字典的实现原理
  27. Without a clue, you may not even touch the threshold【 Best learning route]
  28. Parsing method of Python reading binary file code
  29. Implementation principle of Python dictionary
  30. You must know the function of pandas to parse JSON data - JSON_ normalize()
  31. Python实用案例,私人定制,Python自动化生成爱豆专属2021日历
  32. Python practical case, private customization, python automatic generation of Adu exclusive 2021 calendar
  33. 《Python实例》震惊了,用Python这么简单实现了聊天系统的脏话,广告检测
  34. "Python instance" was shocked and realized the dirty words and advertisement detection of the chat system in Python
  35. Convolutional neural network processing sequence for Python deep learning
  36. Python data structure and algorithm (1) -- enum type enum
  37. 超全大厂算法岗百问百答(推荐系统/机器学习/深度学习/C++/Spark/python)
  38. 【Python进阶】你真的明白NumPy中的ndarray吗?
  39. All questions and answers for algorithm posts of super large factories (recommended system / machine learning / deep learning / C + + / spark / Python)
  40. [advanced Python] do you really understand ndarray in numpy?
  41. 【Python进阶】Python进阶专栏栏主自述:不忘初心,砥砺前行
  42. [advanced Python] Python advanced column main readme: never forget the original intention and forge ahead
  43. python垃圾回收和缓存管理
  44. java调用Python程序
  45. java调用Python程序
  46. Python常用函数有哪些?Python基础入门课程
  47. Python garbage collection and cache management
  48. Java calling Python program
  49. Java calling Python program
  50. What functions are commonly used in Python? Introduction to Python Basics
  51. Python basic knowledge
  52. Anaconda5.2 安装 Python 库(MySQLdb)的方法
  53. Python实现对脑电数据情绪分析
  54. Anaconda 5.2 method of installing Python Library (mysqldb)
  55. Python implements emotion analysis of EEG data
  56. Master some advanced usage of Python in 30 seconds, which makes others envy it
  57. python爬取百度图片并对图片做一系列处理
  58. Python crawls Baidu pictures and does a series of processing on them
  59. python链接mysql数据库
  60. Python link MySQL database