上次发的从sina上抓小说的代码,这次来一个sohu的,不过总结python爬虫的方法,其实无外乎urllib和正则表达式的使用。掌握了这俩,基本就是有了就抓。 直接上代码了,以下代码仅供参考,切不可用于非法用途。
分类:
网络爬虫
| 标签:
python爬虫
| 发布:2011-12-20 11:50 p.m.
| 阅读量: 21039
分享一个最早接触python时写的一个图片爬虫程序,从flicker上面根据关键字抓取图片,具体流程看代码很容易理解,不过这个程序目前只能抓取第一页的图片,第二页的图片抓取不到,因为flicker上的分页是通过ajax来做的,所以如果想从flicker上同一关键字抓取很多图片的