被称之为永远的神!就这6个Python爬虫开源项目?

python可乐编程 2021-10-26 17:28:22
Python 永远 称之为 称之 之为

今天盘点 6 个爬虫开源项目,它们可以帮你爬天爬地爬空气,爬微博、爬B站、爬知乎、爬*站。

提前声明,切勿使用这些项目从事非法商业活动,仅用于用于科研学习

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:701698587
欢迎加入,一起讨论 一起学习!

 

 

01

微博爬虫

这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。

地址:https://github.com/dataabc/weiboSpider

爬取结果可写入文件和数据库,具体的写入文件类型如下:

  • txt文件
  • csv文件
  • json文件
  • MySQL数据库
  • MongoDB数据库
  • SQLite数据库

同时支持下载微博中的图片和视频,具体的可下载文件如下:

  • 原创微博中的原始图片
  • 转发微博中的原始图片
  • 原创微博中的视频
  • 转发微博中的视频
  • 原创微博Live Photo中的视频
  • 转发微博Live Photo中的视频

首先需要修改 config.json 文件,然后爬取,程序会自动生成一个 weibo 文件夹,我们以后爬取的所有微博都被存储在这里。

然后程序在该文件夹下生成一个名为"微博名字"的文件夹,明星的所有微博爬取结果都在这里。文件夹里包含一个csv文件、一个txt文件、一个json文件、一个img文件夹和一个video文件夹,img文件夹用来存储下载到的图片,video文件夹用来存储下载到的视频。如果你设置了保存数据库功能,这些信息也会保存在数据库里,数据库设置见设置数据库部分。

02

Python爬虫教程

Python爬虫教程系列、从 0 到 1 学习 Python 爬虫,包括浏览器抓包,手机 APP 抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy 等,以及验证码识别,MySQL,MongoDB 数据库的 Python 使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等。

地址:https://github.com/wistbean/learn_python3_spider

 

03

爬虫集合

这个开源项目收集了各种爬虫 ,包括 Blibli、博客园、百度百科、北邮人、百度云网盘、Boss、贝壳、豆瓣、CSDN、抖音、GitHub、京东、知乎、拉钩、链家、微信公众号、网易云等等,你能想到的国内外网站爬虫,都可以先来这里看看有没有开源的爬虫。

地址:https://github.com/facert/awesome-spider

04

智能爬虫平台

这个开源平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台。你可以在该平台配置各种爬虫。

地址:https://gitee.com/ssssssss-team/spider-flow

 

接下来以流程图的方式,开始配置一些变量和参数,点开始就能爬出你想要的数据。

 

 

05

Java爬虫

Spiderman 是一个Java开源Web数据抽取工具,它能够收集指定的Web页面并从这些页面中提取有用的数据。

Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

地址:https://gitee.com/l-weiwei/spiderman

 

06

爬虫大全

这个开源项目包含多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。

地址:https://gitee.com/AJay13/ECommerceCrawlers
版权声明
本文为[python可乐编程]所创,转载请带上原文链接,感谢
https://www.cnblogs.com/pythonQqun200160592/p/15466809.html

  1. Python:多输入数字求和(Python 程序控制结构)
  2. python忽略警告
  3. Python多维数组问题(编写程序统计成绩)
  4. 一步一步展示并总结Python的异常【建议收藏】
  5. Python中奇葩的round函数!
  6. 总结一下Python的模块加载解析
  7. 保姆级指导给Python库创建桌面快捷方式【赶紧收藏】
  8. 多图速成Python基础语法下篇【万字建议收藏】
  9. Python 命令行工具辅助getopt使用解析!
  10. 【python种子项目ppc】保姆级别指导给项目添加测试
  11. 【python种子项目ppc】一行代码生成项目与开发详细指导
  12. 保姆级教程带你开发优质的Python库之下篇【种子项目】
  13. 保姆级教程带你开发优质的Python库之中篇【命令行发行】
  14. 保姆级教程带你开发优质的Python库之上篇【建议收藏】
  15. python列表自动计算总分程序
  16. 某企业职工的月薪问题python 求解 不知道自己哪里写错了
  17. Python中外部函数对class类中的属性的调用
  18. 朋友股票亏惨了,我一怒用Python爬取了证券最新数据
  19. 习题8和9怎么写(Python基础)
  20. python数据分析,求任务4,5
  21. Python 的 f-strings,远比你想象的要强大!
  22. django channels channel_layer.group_send 造成内存溢出
  23. 判断天数问题用python 解决 不知道自己哪里写错了 一直显示invalid syntax
  24. OpenCV-Python对比度受限的自适应直方图均衡CLAHE知识介绍
  25. pandas 如何读取指定位置和数量的列
  26. django后台模型中的文件字段,上传后再下载时提示找不到页面
  27. 关于#python#的问题:使用requests请求网页时出现网页过期是怎么回事啊,cookie也没有过期,也提交了头文件的
  28. Pycharm开发Django项目外键和表关系
  29. [PYTHON][BAT][SHELL] 常见易忘 python、bat、shell 脚本操作汇总(持续更新)
  30. django学习-34.【多对多】表关系对应的完整业务操作
  31. 在GitHub上下载了一个python代码,看readme很疑惑,求解答
  32. 怎么用python程序做这问题
  33. python程序设计实验4-程序的异常处理
  34. 【Python每日作业】Day7: 如何在一个表达式里面合并两个字典?
  35. Python Type Hints 从入门到实践
  36. pyinstaller 打包 exe 无法在没有装python的电脑上运行,提示如下。。
  37. 关于Python中的Image. open函数的使用出现的问题
  38. 代码0基础先学哪个?WEB、python、JAVA
  39. Python基于PCANBasic二次开发使用方法
  40. Python实现相加为奇数则用户赢,如果并且用户能自行选择退出游戏,且计算他们的分数
  41. python编写程序, 先输入一组10个元素,再输出数组中比平均值小的所有奇数。
  42. 《用python写网络爬虫》完整版+源码
  43. python中的小问题,友友们来看一下
  44. python自定义函数CircleArea求圆面积
  45. 判断年月日问题python 不知道自己哪里写错了
  46. 关于Python语言表达的问题
  47. Python代码阅读(第23篇):将变量名称转换为短横线连接式命名风格
  48. Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列
  49. 云计算开发:Python3-encode()方法详解
  50. python编写程序自动计算个人总分平均分各科最高最低平均分
  51. 在不同python版本下的python代码可以集成到一个应用中吗?
  52. 吹弹牛皮之Unity 工具制作常用交互bat ini python
  53. 手动新建和pycharm新建Djagno项目时候,Django项目的文件夹和虚拟环境文件夹venv的位置有所不同
  54. python课提的求解答一下,是什么意思
  55. python画图X轴太密集了,为什么加了代码也没用
  56. 用PYTHON实现EXCEL数据改动的cell高亮显示
  57. Python Type Hints 从入门到实践
  58. 求一个python大大( •︠ˍ•︡ )(想哭)如果可以的话可以开课,我可以去听课
  59. 真香!值得收藏的30道Python练手题(附详细答案)
  60. django+uwsgi+nginx 前后端分离部署配置