今天来搜一搜「他」:百度图片搜索结果。
下载简单页面
查看网页源码,发现同一张图片有四种网址:
有网友想下载2014年4月至今的新加坡PSI数据:Historical PSI Readings,看这页面比较简单就练手写了个爬虫。
运行的时候出现RecursionError
:
Traceback (most recent call last):
File "C:\Python 3.5\lib\multiprocessing\queues.py", line 241, in _feed
obj = ForkingPickler.dumps(obj)
File "C:\Python 3.5\lib\multiprocessing\reduction.py", line 50, in dumps
cls(buf, protocol).dump(obj)
RecursionError: maximum recursion depth exceeded
最近发现知乎的登录界面改了,抓包看了看,果然登录方式也变了,会根据用户名字符串发送不同字段的POST。中午研究了一会,写了个登录知乎的工具类,可以自动处理Cookie,维持登录状态。目前仅实现登录和打开网页的功能。
requests
BeautifulSoup
lxml
这个不装没关系,把__login()
方法中的lxml
改成html.parser
即可。注意,本文适用于hexo 3.x 版本,与2.x略有出入!
多说评论已经于2017年6月关闭,文中关于多说的内容可以忽略
GitHub Pages 本用于介绍托管在 GitHub 的项目,也可以用来搭建博客,有300M免费空间。
hexo是一个基于Node.js的静态博客程序,可以方便的生成静态网页托管在github和Heroku上。作者是来自台湾的tommy351。
优势:
生成静态页面快
支持 Markdown
兼容于 Windows, Mac & Linux
部署方便。日常使用仅需五个命令。
高扩展性、自订性,文件少、小,易理解
按网上的教程终于配置好了Hexo,其实挺简单的,不过由于Hexo版本的原因,遇到不少坑。顺便学了SSH,push起来方便不少。
稍后把此次博客搭建心得整理好发出来。
以前用新浪的博客,可惜不支持代码块和Markdown,主题近十年没怎么变化,三天两头收到无聊的纸条、转发消息。后来转战CSDN,主题和Markdown非常丑,右上角定期出现广告,没法取消。有次还无故封了博客,找管理员询问得知是误操作。试了博客园,后台有无用的新闻、文章、日志分类,无法取消,默认的代码块不显示行数,Markdown比CSDN还丑。