全栈工程师开发手册 (作者:栾鹏)
python教程全解
首先你需要了解python数据挖掘库urllib、urllib2、cookie的知识。参考http://blog.csdn.net/luanpeng825485697/article/details/78383884
知乎需要设置cookie模拟登陆状态,需要设置http头,满足知乎服务器的检测。
知乎地址https://www.zhihu.com
在没有登陆时访问这个网址,只能出现登陆界面
如果登陆以后,在访问这个网址,就会出现文章列表。
这是因为访问此地址,知乎服务器会查询请求cookie,如果请求cookie没有用户信息,就证明没有登陆,就会返回登陆界面,如果有cookie信息就会返回文章列表界面,同时包含用户的其他信息