📰 最近消息
VP删除NVP示例# vp节点查询状态,显示和多个nvp节点连接>>> nvp status global{hostname: nvp1, vp_status: IDLE, nvp_status: NORMAL, height: 0, msg: NULL}{hostname: nvp2, vp_status: IDLE, nvp_status: NORMAL, height: 0, msg: NULL}# 删除其中一个NVP节点>>> nvp remove global nvp1remove [nvp1] success# 删除成功,查询状态>>> nvp status global{host
爬虫实战本节课我们将以爬取豆瓣电影top250为例讲解爬虫的具体实现import requestsimport codecsfrom bs4 import BeautifulSoupURL="http://movie.douban.com/top250" #要爬取的地址HEADERS = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}#user-agent,模仿浏览
模拟登录爬取很多目标网站的页面信息时都有登录的要求,本节将讲解如何使用程序进行表单提交进而完成用户登录。一般的模拟登录流程如下:1. 查看需要提交的表单信息通过页面及chrome工具查看request中的request payload即可确认登录时需要提交的数据有哪些。再此提醒注意,不要认为页面上填写的用户名和密码以及验证码就是请求的全部参数,很多网站会自动添加其他参数(如时间戳,版本信息,网站附加字符等),所以要认真检查request的过程提交参数有哪些。2. 组织表单数据确定了要提交的数据后就需要组织数据,组织数据时一般包括组装用户名,密码,获取相关参数,进行参数加密(一般会对密码进行加密
模拟登录本节课将以登陆知乎为例介绍模拟登录的具体方法和实现。首先研究知乎的登录页面,确定要提交的表单信息。进入知乎登录页面后可以看到页面需要输入用户名,密码和验证码,输入相关信息后点击提交,使用chrome查看相关信息可以看到真正提交的数据除了上述三个还有xsrf,该变量可以在查看网页源代码中查到,只需要提取出具体的值即可。首先看如何获取xsrf变量的值def search_xsrf(): url= " http://www.zhihu.com " #登录页面地址 r=requests.get(url)#获取页面 if int(r.status_code)!=200: raise Networ