Python 版本是3.5
第一关
http://www.heibanke.com/lesson/crawler_ex00/
每页都会出现新数字,这一关考的就是获取网页和解析内容,非常简单:
1 | import requests |
输出:
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/19016
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/13579
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/43396
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/39642
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/96911
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/30965
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/67917
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/22213
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/72586
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/48151
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/53639
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/10963
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/65392
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/36133
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/72324
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/57633
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/91251
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/87016
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/77055
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/30366
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/83679
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/31388
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/99446
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/69428
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/34798
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/16780
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/36499
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/21070
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/96749
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/71822
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/48739
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/62816
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/80182
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/68171
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/45458
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/56056
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/87450
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/52695
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/36675
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/25997
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/73222
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/93891
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/29052
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/72996
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/73999
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/23814
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/98084
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/51103
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/39603
正在读取网址 http://www.heibanke.com/lesson/crawler_ex00/34316
结束!
访问最后一个网址,提示:恭喜你,你找到了答案.继续你的爬虫之旅吧!
OK,进入下一关。
第二关
http://www.heibanke.com/lesson/crawler_ex01/
1 | import requests |
输出:
密码是 26
回到登录网址,输入密码过关!
第三关
http://www.heibanke.com/lesson/crawler_ex02/
这一关需要登录,随便注册一个账号,在爬虫中要用。另外要注意Post中不能少了csrfmiddlewaretoken。上一关中虽然有这一项,但是不加也可以。不过这一关里必须加上这个参数。
header必须加上Cookie。
以上信息是把每一步获取的网页源码控制台打印,然后分析出来的。
1 | import requests |
输出:
正在猜密码: 1
正在猜密码: 2
正在猜密码: 3
正在猜密码: 4
正在猜密码: 5
正在猜密码: 6
正在猜密码: 7
正在猜密码: 8
正在猜密码: 9
正在猜密码: 10
正在猜密码: 11
正在猜密码: 12
正在猜密码: 13
正在猜密码: 14
正在猜密码: 15
正在猜密码: 16
正在猜密码: 17
正在猜密码: 18
正在猜密码: 19
密码是 19
手动输密码过关!
第四关
这一关的逻辑设置得很奇怪,找作者问了也没看明白。不做了。