你要偷偷的学Python,然后惊呆所有人(第十二天)

python阿喵 2020-11-14 18:01:15
Python 所有人 偷偷 惊呆 有人


 

标题无意冒犯,就是觉得这个广告挺好玩的

文章目录

  • 前言
  • 欢迎来到我们的圈子
  • 先上一段代码,云淡风轻
  • 代码解释
  • 第一个坑:find_element_name
  • 第二个坑: switch_to_frame()
  • cookies绕过登录验证,绕进了荒漠
  • 迎来转机
  • 成功路前的磕磕碰碰

前言

前期回顾:你要偷偷学Python(第十一天)

上一篇啊,上一篇说这一篇要带大家玩selenium,那自然是没错的。不过这一篇会不一样一点,这一篇会持续更新。

插播一条推送:(如果是小白的话,可以看一下下面这一段)

欢迎来到我们的圈子

 我建了一个Python学习答疑群,有兴趣的朋友可以了解一下:如果大家在学习中遇到困难,想找一个python学习交流环境,可以加入我们的python圈,裙号947618024,可领取python学习资料,会节约很多时间,减少很多遇到的难题。


本系列文默认各位有一定的C或C++基础,因为我是学了点C++的皮毛之后入手的Python。
本系列文默认各位会百度,学习‘模块’这个模块的话,还是建议大家有自己的编辑器和编译器的,上一篇已经给大家做了推荐啦?
然后呢,本系列的目录嘛,说实话我个人比较倾向于那两本 Primer Plus,所以就跟着它们的目录结构吧。
本系列也会着重培养各位的自主动手能力,毕竟我不可能把所有知识点都给你讲到,所以自己解决需求的能力就尤为重要,所以我在文中埋得坑请不要把它们看成坑,那是我留给你们的锻炼机会,请各显神通,自行解决。
1234567

先上一段代码,云淡风轻

# 本地Chrome浏览器设置方法
from selenium import webdriver #操作浏览器所需的包
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC #Xpath导航所需的包
import time #延时所需的包
from selenium.webdriver.chrome.options import Options
class golden_data:
def __init__(self):
options = Options()
#chrome_options.add_argument('--no-sandbox') # 解决DevToolsActivePort文件不存在的报错
#options.add_argument('--disable-gpu') # 谷歌文档提到需要加上这个属性来规避bug
#options.add_argument('blink-settings=imagesEnabled=false') # 不加载图片, 提升速度
#options.add_argument('--headless') # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
self.driver = webdriver.Chrome(options=options,executable_path="D:/Python3.9/chromedriver.exe") # 获取谷歌浏览器控制句柄
self.driver.get('https://jinshuju.net/login') # 打开金数据登录页面
self.wait = WebDriverWait(self.driver, 10) # Xpath导航
time.sleep(2)
#登录金数据
def login_data(self):
# 往账户栏写入内容
name_input = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="auth_key"]')))
name_input.clear()
name_input.send_keys('18039027069') # 在这写入你的姓名
time.sleep(2)
# 点击“下一步”
next_step = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="login_form"]/div/div[3]/button')))
next_step.click()
time.sleep(2)
# 往密码栏输入内容
pwd_input = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="password"]')))
pwd_input.clear()
pwd_input.send_keys('123456.sp') # 在这写入你的姓名
time.sleep(2)
# 点击登录
login_click = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="login_form"]/div/div[4]/button')))
login_click.click()
time.sleep(2)
#创建表单
#def create_table(self):
#收集表单数据
def collect_data(self):
#点击第一个问卷
first_block = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="5fa54cff61936cdee3121fa5"]/div/a')))
first_block.click()
time.sleep(2)
#点击‘数据’
table_click = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="entries_nav"]')))
table_click.click()
time.sleep(2)
#数据导出
data_out = self.wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[3]/div[1]/div[3]/div/div[2]/table/tbody/tr/td[15]')))
data_out.click()
time.sleep(60) #这里的等待时间有点不好控制
#数据预下载
data_fore_download = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="export_job_modal"]/div/div/div[3]/div/a[1]')))
data_fore_download.click()
time.sleep(10)
#数据下载
data_download = self.wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[3]/div[1]/div[3]/div/div[2]/table/tbody/tr/td[15]/table/tbody/tr/td/div[1]/span[2]/a[1]')))
data_download.click()
self.driver.close()
test = golden_data()
test.login_data()
test.collect_data()
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081

别喷,我知道代码健壮性不行,也知道没有什么高可用性。但是这只是我作为一个新手一天的成果而已,又不是学不会,后面慢慢就补上了。

代码解释

还记得多少就解释多少吧。

第一个坑:find_element_name

最开始的时候,我的代码并不是像上面那套写的,是这类的:

···
name_in = driver.find_element_by_name('···')
teacher.send_keys('····')
pwd_in = driver.find_element_by_name('···')
assistant.send_keys('····')
time.sleep(1)
button = driver.find_element_by_class_name('···')
time.sleep(1)
button.click()
time.sleep(1)
driver.close()
1234567891011

好家伙,报什么错呢?
NoSuchFrameException: Message: no such frame

好家伙,我虽然没有身经百战,大大小小也数十战了吧,我果断的打开了百度,一大堆的解决方案映入眼帘,我会眼花缭乱?会个球,我一眼就抓出了这堆凌乱的解决方案中的共同点,他们都在重复着一个标签名“ifraem”,哎,不重要,反正就这几个字母的组合排列。

说什么,是由于存在了标签页的切换,所以要先进入到那个标签页,只需要把那页的id或者class提出来做一个引导就好。

呐,像这样:browser.switch_to_frame('新iframe')

嘿,你还真别说,我还就照做了,这也成了我一晚上崩溃的起点。

第二个坑: switch_to_frame()

哇,这个巨坑。一贴上去这行代码就显示被删掉了,然而我并不这么认为,于是。。。

那么这个是怎么肥四呢?

这个函数确实是被弃用了,在我的不断努力之下,我找到了替代函数:switch_to.frame()

这个解决了就万事大吉了?

请绕回第一个问题。

崩溃吗?当你以为自己正在过关斩将,一路高歌猛进的时候,突然发现自己原来还在原地打转。

绕来绕去绕不出来,都大晚上的一两点了,我就果断的去睡了。

睡之前,我思量再三,明天起来换cookies吧。


cookies绕过登录验证,绕进了荒漠

用cookies怎么绕我就不多说了,不会绕的请回到“第七天”开始。

就直接说我绕过去之后得出了个什么玩意儿吧:

D:\pythonProject3\Scripts\python.exe C:/Users/asus/PycharmProjects/pythonProject3/main.py
<Response [200]>
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8"/>
<title>金数据 - 找不到页面</title>
<meta content="IE=Edge,chrome=1" http-equiv="X-UA-Compatible"/>
<link href="https://gd-assets.jinshujucdn.com/assets/favicon-62fe2f27ea9d532a13fc76ed0e8b5e68bc2f61dde4a7935f54ff5dc3e3a727b2.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="https://gd-assets.jinshujucdn.com/assets/blank-layout-67aac9b8f147aa0bf1d9b85c3683738452c3f41160e169b85e61130171db5992.css" media="screen" rel="stylesheet"/>
</head>
<body>
<div class="main-content blank-container">
<div class="page-alert">
<div class="status-code">404</div>
<h2>对不起,您要找的页面不存在</h2>
<p>您确定是这个网址吗?或者<a href="/">返回首页</a></p>
</div>
</div>
<footer>
<a class="powered-by" data-no-turbolink="true" href="/">
<p><span>Powered By </span><i class="gd-icon-logo powered-logo"></i><span> 金数据</span></p>
</a> </footer>
<script>
var _hmt = _hmt || [];
(function() {
if(document.querySelectorAll("script[src*='hm.baidu.com']").length === 0){
var hm = document.createElement("script");
hm.src = "//hm.baidu.com/hm.js?47cd03e974df6869353431fe4f4d6b2f";
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(hm, s);
}
})();
</script>
</body>
</html>
12345678910111213141516171819202122232425262728293031323334353637

你知道吗?当我绕过了登录验证的时候,我心里还有一阵窃喜,嘿,小样儿,还不是让我过了。
然后,‘pia’

 

后来想了想,还是回来用selenium了。
为什么呢?首先肯定是有我的考量的。其次还是有我的考量的,最后是因为项目中的其他模块还要用到selenium呢,早晚都要面对,早死晚死都得死。


迎来转机

就在这山穷水尽之时,我抱着试一试的心态,直接搜“selenium操作金数据”。。
死马当活马医了,你们猜怎么着?

 

果然球都没查到哈哈哈哈哈

最后,迫于无奈,我又去换了套教程,“selenium自动化测试操作Chrome”,哎,翻来覆去翻来覆去,找到一个电科大的学长留给他的学弟们的偷懒脚本,我的天,终于帮我开张了(注意,此前我一步都没迈出去,连UI都摸不到)!!!

于是,就出现了文章开头那段代码。

其实那段代码也不简单,并不是说改一下就完了,那么简单的早就搞好了。


成功路前的磕磕碰碰

其实我刚开始并不是写成这样的,刚开始我是写成C语言格式的,虽然我知道现在这个也是C语言风格的,谁要是跟我说这是面向对象,那我劝你回去学一下设计模式吧。

# 本地Chrome浏览器设置方法
class golden_data:
def __init__(self):
#这几行用于隐藏浏览器,但是会导致文件无法下载,所以暂时搁置
#options = Options()
#chrome_options.add_argument('--no-sandbox') # 解决DevToolsActivePort文件不存在的报错
#options.add_argument('--disable-gpu') # 谷歌文档提到需要加上这个属性来规避bug
#options.add_argument('blink-settings=imagesEnabled=false') # 不加载图片, 提升速度
#options.add_argument('--headless') # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
获取句柄,登录,略过
#收集表单数据
def collect_data(self):
#点击第一个问卷
这里需要提高可拓展性
first_block = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="5fa54cff61936cdee3121fa5"]/div/a')))
first_block.click()
time.sleep(2)
#点击‘数据’
table_click = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="entries_nav"]')))
table_click.click() 这里曾经死活点不过去,后来发现是由于复制粘贴之后忘记把first_block改成table_click了
time.sleep(2)
#数据导出
data_out = self.wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[3]/div[1]/div[3]/div/div[2]/table/tbody/tr/td[15]'))) 这里曾经无法将数据导出,直接copy Xpath已经无法满足业务需求了
注(1)
data_out.click()
time.sleep(60) #这里的等待时间有点不好控制
这里曾经在函数写法改为类写法的时候出现超时,原因在于那时候我就放了10秒
所以这里的速度就非常之受网络影响,此处应该应try···throw···
#数据预下载
data_fore_download = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="export_job_modal"]/div/div/div[3]/div/a[1]')))
data_fore_download.click()
time.sleep(10)
#数据下载
data_download = self.wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[3]/div[1]/div[3]/div/div[2]/table/tbody/tr/td[15]/table/tbody/tr/td/div[1]/span[2]/a[1]')))
这里问题和上面一样,无法满足业务需求,不过有了上面做铺垫,所以这里解决起来就很快
data_download.click()
self.driver.close()
test = golden_data()
test.login_data()
test.collect_data()
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051

在我看来,copy full Xpath比较稳一些,也不知道是不是Xpath比较快一些嘛,毕竟绝对路径和相对路径比起来,相对路径就是快一些的。

先到这里,其实前面的表单自动生成我也写的快OK了,不过保留一些悬念,慢慢加进来,对,就是放在这篇,这篇持续更新!!!

 

最后多说一句,想学习Python可联系小编,这里有我自己整理的整套python学习资料和路线,想要这些资料的都可以进q裙947618024领取。

本文章素材来源于网络,如有侵权请联系删除。

版权声明
本文为[python阿喵]所创,转载请带上原文链接,感谢
https://www.cnblogs.com/python-miao/p/13972415.html

  1. 利用Python爬虫获取招聘网站职位信息
  2. Using Python crawler to obtain job information of recruitment website
  3. Several highly rated Python libraries arrow, jsonpath, psutil and tenacity are recommended
  4. Python装饰器
  5. Python实现LDAP认证
  6. Python decorator
  7. Implementing LDAP authentication with Python
  8. Vscode configures Python development environment!
  9. In Python, how dare you say you can't log module? ️
  10. 我收藏的有关Python的电子书和资料
  11. python 中 lambda的一些tips
  12. python中字典的一些tips
  13. python 用生成器生成斐波那契数列
  14. python脚本转pyc踩了个坑。。。
  15. My collection of e-books and materials about Python
  16. Some tips of lambda in Python
  17. Some tips of dictionary in Python
  18. Using Python generator to generate Fibonacci sequence
  19. The conversion of Python script to PyC stepped on a pit...
  20. Python游戏开发,pygame模块,Python实现扫雷小游戏
  21. Python game development, pyGame module, python implementation of minesweeping games
  22. Python实用工具,email模块,Python实现邮件远程控制自己电脑
  23. Python utility, email module, python realizes mail remote control of its own computer
  24. 毫无头绪的自学Python,你可能连门槛都摸不到!【最佳学习路线】
  25. Python读取二进制文件代码方法解析
  26. Python字典的实现原理
  27. Without a clue, you may not even touch the threshold【 Best learning route]
  28. Parsing method of Python reading binary file code
  29. Implementation principle of Python dictionary
  30. You must know the function of pandas to parse JSON data - JSON_ normalize()
  31. Python实用案例,私人定制,Python自动化生成爱豆专属2021日历
  32. Python practical case, private customization, python automatic generation of Adu exclusive 2021 calendar
  33. 《Python实例》震惊了,用Python这么简单实现了聊天系统的脏话,广告检测
  34. "Python instance" was shocked and realized the dirty words and advertisement detection of the chat system in Python
  35. Convolutional neural network processing sequence for Python deep learning
  36. Python data structure and algorithm (1) -- enum type enum
  37. 超全大厂算法岗百问百答(推荐系统/机器学习/深度学习/C++/Spark/python)
  38. 【Python进阶】你真的明白NumPy中的ndarray吗?
  39. All questions and answers for algorithm posts of super large factories (recommended system / machine learning / deep learning / C + + / spark / Python)
  40. [advanced Python] do you really understand ndarray in numpy?
  41. 【Python进阶】Python进阶专栏栏主自述:不忘初心,砥砺前行
  42. [advanced Python] Python advanced column main readme: never forget the original intention and forge ahead
  43. python垃圾回收和缓存管理
  44. java调用Python程序
  45. java调用Python程序
  46. Python常用函数有哪些?Python基础入门课程
  47. Python garbage collection and cache management
  48. Java calling Python program
  49. Java calling Python program
  50. What functions are commonly used in Python? Introduction to Python Basics
  51. Python basic knowledge
  52. Anaconda5.2 安装 Python 库(MySQLdb)的方法
  53. Python实现对脑电数据情绪分析
  54. Anaconda 5.2 method of installing Python Library (mysqldb)
  55. Python implements emotion analysis of EEG data
  56. Master some advanced usage of Python in 30 seconds, which makes others envy it
  57. python爬取百度图片并对图片做一系列处理
  58. Python crawls Baidu pictures and does a series of processing on them
  59. python链接mysql数据库
  60. Python link MySQL database