博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[python]做一个简单爬虫
阅读量:4980 次
发布时间:2019-06-12

本文共 800 字,大约阅读时间需要 2 分钟。

为什么选择python,它强大的库可以让你专注在爬虫这一件事上而不是更底层的更繁杂的事

 

爬虫说简单很简单,说麻烦也很麻烦,完全取决于你的需求是什么以及你爬的网站所决定的,遇到的第一个简单的例子是paste.ubuntu.com

 

这是一个贴代码的网站,没事喜欢看看有没有什么好玩的东西,只是上面大部分都是minecraft的东西,于是写了以下代码

1 import urllib2 2 import socket 3 import re 4 def getData(url, timeOut = 10): 5     try: 6         html = urllib2.urlopen(url, timeout = timeOut) 7         htmlData = html.read() 8     except Exception, e: 9         htmlData = None10     finally:11         return htmlData12 13 for i in xrange(13124750, 131230000):14     c = getData("http://paste.ubuntu.com/"+str(i)+"/")15 16     #if re.search("#include", c):17     if c.find("#include") != -1:18         print i

 

一段很简单的程序,在官方文档中可以看到在python2.6以后urllib2.urlopen加入了timeout参数,万一网站打不开也不会无限卡死在这里,代码中注释了一行正则表达式,如果想匹配复杂的东西可以使用re

 

转载于:https://www.cnblogs.com/philippica/p/4944919.html

你可能感兴趣的文章
浅谈多态机制的意义及实现
查看>>
Oracle数据库添加用户
查看>>
HDOJ 1247 -- Hat Words Trie
查看>>
protobuf 测试 & Makefile example
查看>>
数组排序 和 二分法查找
查看>>
CSS定位
查看>>
python学习---第一周作业
查看>>
learn python the hard way 习题18~25总结
查看>>
函数的连续和可导的关系
查看>>
cookie
查看>>
iOS Core Animation Advanced Techniques(五):图层时间和缓冲
查看>>
141A
查看>>
Java Stream distinct
查看>>
Sublime Text 3中设置不记住上次打开的文件
查看>>
295. Find Median from Data Stream
查看>>
筛法求素数
查看>>
hdu3652(数位dp)
查看>>
webstrom 使用git
查看>>
【agc005d】~K Perm Counting
查看>>
okhttp实现断点上传
查看>>