【51CTO盛会】8.26带你深度解读清华大学与搜狗基于算法的IT运维实践与探索
介绍
它是一个中国人编写的强大的网络爬虫系统,拥有强大的WebUI,采用语言编写,分布式架构,支持多种数据库后端,拥有强大的WebUI,支持脚本编辑器、任务监视器、项目管理器、结果查看器等。
来自我们之前做的一个垂直搜索引擎使用的爬虫后端,需要采集200个站点的数据(由于站点故障,不是全部同时采集,有100+个同时在运行),并且要求对方网站的更新在5分钟内更新到库中,因此灵活的爬虫控制是必须的。
同时由于有100个站点,每天可能就有一个站点失效或者被修改,所以需要能够监控模板失效,并且检查抓取状况。
为了实现5分钟更新,我们利用最近更新页面上的最后更新时间来判断该页面是否需要再次抓取。
可以看出,这个项目对于爬虫的监控和调度的要求非常高。
中文网站: 官方网站: Demo: 源代码:
特征
脚本控制,你可以使用任何你喜欢的HTML解析包(内置)
编写调试脚本、启动和停止脚本、监控执行状态、查看活动历史记录并在WEB界面上获取输出结果
数据存储支持MySQL、Redis、;以及
队列服务支持,Redis,Kombu
支持抓取页面
组件可替换、支持单机/分布式部署、支持部署
强大的调度控制,支持超时重爬和优先级设置
支持 2.{6, 7}, 3.{3, 4, 5, 6}
安装
1)使用pip安装
pip 可以在以下版本下运行:2.6、2.7、3.1、3.2、3.3、3.4 和 pypy。
pip 可以在 Unix/Linux、Mac OS X 和 上运行。
a) 脚本安装
获取pip.py
如果(或)未安装,get-pip.py
它会自动为您安装
如果需要升级(或),运行 pip -U
b) 命令安装
sudo apt-get -pip //、
sudo yum -pip //、、
2)安装
它是基于的服务器端 API。它完全支持无需浏览器支持的 Web。它速度快,并且原生支持各种 Web 标准:DOM 处理、CSS 选择器、JSON 和 SVG。它可用于页面自动化、网络监控、网页截图和无头测试。它支持多种操作系统,例如、Linux 和 Mac OS X。
下载:
无需安装,解压并配置环境变量后即可直接使用,详情请参见安装与开发
安装命令:
sudo apt-get //、
sudo pkg //
brew // Mac OS X
3)安装
已安装的依赖包.txt
Flask>=0.>=2.>=2.>=0.>=2.>=3.-->=1.2.2pika>=0.9.>=2.7.>=0.5.-Login>=0.2.11u-->=1.>=3.>=0.9.7six>=1.5.0amqp>=1.3.0,安装命令:
用户请提前安装以下支持库:
-在--------lxml
4)验证安装是否成功
控制台输入命令:
使用浏览器访问:5000
页面正常出现,证明一切正常
例子
1)示例一:爬取米扑科技首页()
#!/usr/bin/#-*-:utf-8-*-#-07-2813:44:53#:#.libs.*():={}@every(=24*60)(self):self.crawl('',=self.)@(age=10*24*60*60)(self,):.doc('a[href^="http"]').items():self.crawl(each. attr.href,=self.)@(=2)(self,):{"url":.url,"title":.doc('title').text(),}
运行结果:
2)示例2:设置代理爬取网页
支持使用代理爬取网页,使用代理的方式有两种:
方法 1:
---代理文本代理ip:端口
例如启动命令:
---代理“188.226.141.217:8080”全部
方法 2:
设置代理全局变量如下所示:
= {'代理':'188.226.141.217:8080'}
示例代码:
/usr/bin/#-*-:utf-8-*-#-07-2814:13:14#:##.libs.*():={'proxy':':8080',#http'proxy':':3128'#https}@every(=24*60)(self):self.crawl('',=self.)@(age=10*24*60*60)( self,):.doc('a[href^="http"]').items():self.crawl(each.attr.href,=self.)@(=2)(self,):{"url":.url,"title":.doc('title').text(),}
运行结果:
喜欢0
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。