【Python爬虫】Python爬虫入门案例

SunriseCai 2020-11-13 11:28:13
Python 爬虫 入门


此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。
本文章纯野生,无任何借鉴他人文章及抄袭等。坚持原创!!

前言

这是一篇总结文或说是目录文,将我在 CSDN 的所有的文章贯穿起来,使得 Python爬虫初学者 仅凭该博文,便能达到 Python爬虫入门 的门槛边缘。
当然了,仅凭我个人的经验总结还是不够的,我只能将我走过的一些路告诉你,帮助你少走弯路。

平心而论,我觉得这是比较良心 + 优质的 Python爬虫入门 教程,亮点如下:

  1. 博文
  2. 多案例
  3. 源码
  4. 视频讲解

教程内容质量甚至可以说是比当下全网免费乃至乎少数 割韭菜的培训机构Python爬虫入门教程 还要好,你给我说,谁不爱???
(当然了,别人的教程也是有很多可以借鉴之处。因为我这里讲的并不够全面,但是我又不是搞培训的,难道我还要手把手教学???)

比较有意思的一点是:我写文章的风格就是没有风格 。所以不用去在乎那些有的没的,总之,内容,很干,备好矿泉水,就对了。


文章多为干货,请放心食用。

顺便吐槽一下,这么好的文章不给我推荐首页,每次首页都是给我推送那些诸如 《教你爬取豆瓣电影Top250》 之类,拜托,我不需要好不好!!!
所以我真心觉得, CSDN 的首页推荐系统不是一般差!!!


1. Python爬虫教程提纲

这里会有以下几步:

  1. Python运行环境的配置;
  2. Python常用知识 + 简单爬虫案例;
  3. Python自动化爬虫;
  4. 难度循序渐进的Python爬虫;
  5. 简单的Js逆向爬虫;
  6. 数据可视化。

学习完毕,可以称得上是 Python爬虫入门 了。可能也不算是入门,说是到了门槛边缘会更贴切。


2. Python 爬虫相关

提纲中的部分文章都已经写过了,后面可能会把老文章改一改,或者直接拿来就用。请勿嫌弃。
更多的是将老文章进行一个整合。待空闲下来就可以进行博文与视频的更新了。
更新速度随缘,
冷饭嘛,热一下就能吃了。

以下内容全干货,请自备矿泉水,否则无法食用;


2.1 Python运行环境的配置

俗话说,工欲善其事必先利其器,所以这里是安装 Python,并且配置好它 的运行环境。

这里我推荐新手安装 Anaconda,因为会省很多事,具体操作点击以下链接。

类型/标题 博文 视频
环境配置:Python运行环境的配置 Python运行环境的配置 Bilibili:Python运行环境的配置

相信配置完运行环境后的你,已经迫不及待磨刀霍霍向猪羊了。


2.2 Python常用知识 + 简单爬虫案例

这里主要介绍了一些常用Python语法,和几个简单的 Python爬虫案例
对小说、图片、音乐、视频等简单的案例做了一个介绍。

2.2.1 Python常用知识

类型/标题 博文 视频
知识点:Python爬虫中的常用语法与模块 Python爬虫中的常用语法与模块 暂无
知识点:Python爬虫中的高级语法 Python爬虫中的高级语法 暂无
知识点:Python爬虫之请求网页 Python爬虫之请求网页 暂无
知识点:Python爬虫之解析网页 Python爬虫之解析网页 暂无
知识点:Python爬虫之数据存储 Python爬虫之数据存储 Bilibili:Pyton爬虫之数据存储
知识点:配合 2.2.2 进行学习 暂无 多线程加速你的爬虫

2.2.2 简单爬虫案例

类型/标题 博文 视频
案例:下载豆瓣电影Top250 豆瓣电影Top250 豆瓣电影Top250
案例:Ajax 暂无 Ajax豆瓣电影分类
案例:下载某小说 下载某小说 暂无
案例:下载王者荣耀全皮肤(高清壁纸) 下载王者荣耀全皮肤 暂无
案例:下载英雄联盟全英雄皮肤 下载英雄联盟全英雄皮肤 Bilibili:下载英雄联盟全英雄皮肤
案例:下载网易云音乐 下载网易云音乐 暂无
案例:下载bilibili在线列表视频 下载bilibili在线列表视频 暂无
案例: Python爬虫下载bilibili视频 Python爬虫下载bilibili视频 暂无( 与上面那个不一样 )

学习完这里,你应该略能体会到爬虫的乐趣了。


2.3 Python自动化爬虫

这里主要是介绍利用 Selenium 自动化工具去实现爬虫。

类型/标题 博文 视频
知识点:Python运行Selenium的配置 暂无 Python运行Selenium的配置
知识点:Selenium的基本使用 暂无 Selenium的基本使用
知识点:Selenium的进一步的基本使用 暂无 Selenium的进一步的基本使用
案例:模拟豆瓣登录 暂无 Selenium模拟豆瓣登录
案例:Selenium爬取京东商城 Selenium爬取京东商城 Selenium爬取京东商城
案例:Selenium爬取Boss直聘岗位 暂无 Selenium爬取Boss直聘岗位
案例:网易云音乐下载 暂无 网易云音乐下载

学习完这里,是不是觉得 Selenium 还不错呢!!!


疑难杂症
在使用 Selenium 的过程,不排除会出现一些疑难杂症,下面两篇文章是常会遇到的问题。

类型/标题 博文 视频
案例:【Selenium疑难杂症】无法清空输入框 无法清空输入框 暂无
案例:【Selenium疑难杂症】无法模拟定位点击 无法模拟定位点击 暂无

2.4 难度循序渐进的Python爬虫

这里介绍了一些常见的反爬手段:CSS偏移,字体反爬,模拟拖动滑块,Scrapy框架的使用等。

知识点:

类型/标题 博文 视频
知识点:字体反爬破解过程 暂无 字体反爬破解过程讲解
知识点:Scrapy常用操作 Scrapy常用操作 暂无

案例:

类型/标题 博文 视频
案例:CSS偏移反爬案例 CSS偏移:自如租房 CSS偏移:自如租房
案例:大众点评字体反爬 暂无 大众点评字体反爬
案例:猫眼电影字体反爬 猫眼电影字体反爬 猫眼电影字体反爬
案例:模拟拖动滑块登陆 Selenium极验滑动验证 模拟登录 暂无
案例:Scrapy框架的使用 暂无 Scrapy简单使用
案例:笨方法利用Python抖音无水印视频下载 利用Python抖音无水印视频下载 暂无

学习完该阶段,相信你已经觉得自己很强了,其实这才只是刚刚开始。。。


2.5 简单的Js逆向爬虫

这里介绍charles 和fiddler 两个抓包工具的配置 和 基本使用。以及简单的Js逆向 和 APP爬虫。
虽然没什么作用,但胜在讲的通透!!!

最简单的Js逆向:

类型/标题 博文 视频
环境配置:PyCharm运行Js代码配置 PyCharm运行Js代码配置 Bilibili:PyCharm运行Js代码配置
案例:Js逆向反爬:在线有道翻译 Js逆向:在线有道翻译 Bilibili:Js逆向:在线有道翻译
案例:Js逆向反爬:在线百度翻译 Js逆向:在线百度翻译 Bilibili:Js逆向:在线百度翻译
案例:Js逆向反爬:在线谷歌翻译 Js逆向:在线谷歌翻译 暂无

最简单App爬虫:

类型/标题 博文 视频
知识点:Charles的配置 待更新 抓包工具Charles的配置
知识点:fiddler的配置 待更新 暂无
案例:豆果美食APP 暂无 豆果美食
案例:掌上英雄联盟APP 暂无 掌上英雄联盟
案例:今日头条APP 暂无 今日头条

至此,你可以算得上是到了 Python爬虫入门 的门槛了。
数据在手,天下我有,接下来就是去将这些数据绘制成图表啦,(即 可视化
去感受一番扑面而来的数据带给你的感觉。


2.6 数据可视化

主要介绍了pyecharts模块的使用,利用它去绘制一些常见的图表等。
Python制作精美的可视化大屏 非常值得一看。

类型/标题 博文 视频
知识点:快速掌握 pyecharts 的常用图表基本操作 5分钟上手 Pyecharts 暂无
知识点:利用Python规范Excel表格数据(数据清洗) Python对Excel基本的数据清洗 暂无
案例:Python分析维密Bra(文胸)销售记录,这个罩杯最多女生。。。。 Python分析维密bra(文胸) 暂无
案例:Python分析淘宝4200款Bra(文胸)后,发现最好卖的款式居然是。。 Python分析淘宝哪款bra最好卖 暂无
案例:Python制作精美的可视化大屏 待更新 Python制作精美的可视化大屏

至此,你已经是一名出色的 Python爬虫小白 了。


2.7 推荐几本Python爬虫书籍

这里下面几本书都是我看过的Python爬虫书籍,不妨一看:

  • 崔庆才的 《Python 3网络爬虫开发实战》
  • 韦世东的 《Python 3反爬虫原理与绕过实战》
  • 谢乾坤的 《Python爬虫开发 从入门到实战(微课版)》

3. Python 其他文章

这里是几篇有趣但不怎么实用的文章,若时间充裕,不妨一看。

花里胡哨的Python文章:

类型/标题 博文 视频
案例:Python实现 文字转语音,DIY你想要的萝莉音!!! Python实现 文字转语音 暂无
案例:Python!!每天早上八点自动发送天气预报邮件到QQ邮箱 Python自动发送天气邮件 暂无
案例:忘带U盘不用急!Python来帮你!! Python解决你忘记带U盘的 尴尬+ 烦恼 忘带U盘怎么办?Python来帮助你
案例:Python获取照片中的Gps信息并定位!! Python获取照片中的Gps信息并定位 暂无
案例:Python根据车票信息算出完整身份证Number Python根据车票信息算出完整身份证Number 暂无

实用的Python文章:

类型/标题 博文 视频
知识点:Python批量创建文件与批量创建文件夹 Python批量创建文件、文件夹 Python批量创建文件、文件夹
知识点:Python批量修改文件名与删除文件及文件夹 Python批量修改文件名与删除文件、文件夹 Python批量修改文件名与删除文件、文件夹
知识点:利用Pandas获取网页表格,并保存为excel 利用Pandas获取网页表格,并保存为excel 暂无

4. 后续有更新再做补充

目前本人的文章概括如上,
后面有新的博文,则再做补充。


5. 后话

标记为 暂无 的,看情况进行不确定性的更新;
标记为 待更新 的,也是慢慢更新,一个月应该至少都会有一篇吧!!!

我相信,通篇文章都跟着学习下来的话,你定会有收获的。!!!
如果在学习过程遇到了问题,一定一定要记得自己去解决问题。

版权声明
本文为[SunriseCai]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_45081575/article/details/106324024

  1. 利用Python爬虫获取招聘网站职位信息
  2. Using Python crawler to obtain job information of recruitment website
  3. Several highly rated Python libraries arrow, jsonpath, psutil and tenacity are recommended
  4. Python装饰器
  5. Python实现LDAP认证
  6. Python decorator
  7. Implementing LDAP authentication with Python
  8. Vscode configures Python development environment!
  9. In Python, how dare you say you can't log module? ️
  10. 我收藏的有关Python的电子书和资料
  11. python 中 lambda的一些tips
  12. python中字典的一些tips
  13. python 用生成器生成斐波那契数列
  14. python脚本转pyc踩了个坑。。。
  15. My collection of e-books and materials about Python
  16. Some tips of lambda in Python
  17. Some tips of dictionary in Python
  18. Using Python generator to generate Fibonacci sequence
  19. The conversion of Python script to PyC stepped on a pit...
  20. Python游戏开发,pygame模块,Python实现扫雷小游戏
  21. Python game development, pyGame module, python implementation of minesweeping games
  22. Python实用工具,email模块,Python实现邮件远程控制自己电脑
  23. Python utility, email module, python realizes mail remote control of its own computer
  24. 毫无头绪的自学Python,你可能连门槛都摸不到!【最佳学习路线】
  25. Python读取二进制文件代码方法解析
  26. Python字典的实现原理
  27. Without a clue, you may not even touch the threshold【 Best learning route]
  28. Parsing method of Python reading binary file code
  29. Implementation principle of Python dictionary
  30. You must know the function of pandas to parse JSON data - JSON_ normalize()
  31. Python实用案例,私人定制,Python自动化生成爱豆专属2021日历
  32. Python practical case, private customization, python automatic generation of Adu exclusive 2021 calendar
  33. 《Python实例》震惊了,用Python这么简单实现了聊天系统的脏话,广告检测
  34. "Python instance" was shocked and realized the dirty words and advertisement detection of the chat system in Python
  35. Convolutional neural network processing sequence for Python deep learning
  36. Python data structure and algorithm (1) -- enum type enum
  37. 超全大厂算法岗百问百答(推荐系统/机器学习/深度学习/C++/Spark/python)
  38. 【Python进阶】你真的明白NumPy中的ndarray吗?
  39. All questions and answers for algorithm posts of super large factories (recommended system / machine learning / deep learning / C + + / spark / Python)
  40. [advanced Python] do you really understand ndarray in numpy?
  41. 【Python进阶】Python进阶专栏栏主自述:不忘初心,砥砺前行
  42. [advanced Python] Python advanced column main readme: never forget the original intention and forge ahead
  43. python垃圾回收和缓存管理
  44. java调用Python程序
  45. java调用Python程序
  46. Python常用函数有哪些?Python基础入门课程
  47. Python garbage collection and cache management
  48. Java calling Python program
  49. Java calling Python program
  50. What functions are commonly used in Python? Introduction to Python Basics
  51. Python basic knowledge
  52. Anaconda5.2 安装 Python 库(MySQLdb)的方法
  53. Python实现对脑电数据情绪分析
  54. Anaconda 5.2 method of installing Python Library (mysqldb)
  55. Python implements emotion analysis of EEG data
  56. Master some advanced usage of Python in 30 seconds, which makes others envy it
  57. python爬取百度图片并对图片做一系列处理
  58. Python crawls Baidu pictures and does a series of processing on them
  59. python链接mysql数据库
  60. Python link MySQL database