该项目尚不成熟,但功能基本齐全,需要用户熟悉XML和正则表达式。目前该工具可以用于爬取各种论坛、贴吧、各种CMS系统,例如PHPBB等论坛、博客的文章都可以通过该工具轻松爬取。爬取内容完全以XML定义,适合Java开发人员。
使用方法:1.下载右边的.war包并导入,2.使用/sql下的wcc.sql文件建立示例数据库,3.修改src包下的wcc.core的.txt文件,将用户名和密码设置为自己的mysql用户名和密码。4.然后运行,运行时会显示控制台,如果没有参数则执行默认的.xml配置文件,如果有参数则名称为配置文件名。
系统自带了3个示例,分别是baidu.xml用于爬取百度知道,.xml用于爬取我的博客,bbs.xml用于爬取论坛内容。
许可证:MIT
开发语言:Java
操作系统:跨平台
特点:通过 XML 配置文件实现高度可定制和扩展
12.
它是一款基于微内核+插件架构的网络蜘蛛,其目标是通过简单的方法,将复杂的目标网页信息抓取并解析成所需的业务数据。
如何使用?
首先确定你的目标网站和目标网页(即你想从中获取数据的某一类网页,比如网易新闻的新闻页面)
然后打开目标页面,分析页面的HTML结构,并获取所需数据的XPath。如何获取XPath请参见下文。
最后在一个XML配置文件中填入参数,运行就可以了!
许可协议:
开发语言:Java
操作系统:跨平台
特点:灵活、可扩展,微内核+插件架构,通过简单配置即可完成数据采集,无需编写一行代码
13.
它是一个无需配置、易于开发的爬虫框架,提供简单灵活的API,只需要少量的代码就可以实现一个爬虫。
它采用完全模块化设计,功能覆盖爬虫的整个生命周期(链接提取、页面下载、内容提取、持久化),支持多线程爬取、分布式爬取,支持自动重试、自定义UA/等功能。
包含强大的页面提取功能。开发者可以轻松使用CSS、XPath和正则表达式提取链接和内容,并支持多种选择器链式调用。
使用文档:
查看源代码:
许可协议:
开发语言:Java
操作系统:跨平台
特点:功能覆盖爬虫整个生命周期,使用Xpath和正则表达式提取链接和内容。
14.网络-
Web-是一个Java开源的Web数据提取工具,它可以采集指定的网页,并从这些网页中提取有用的数据。Web-主要利用XSLT、正则表达式等技术实现text/xml操作。
实现原理就是根据预先定义的配置文件获取页面的全部内容(本博客有些文章介绍了该内容),然后利用XPath、正则表达式等技术对text/xml进行内容筛选操作,选出精准数据。前两年比较火的垂直搜索(如酷讯等)也是采用类似的原理实现的。对于Web应用来说,关键是理解和定义配置文件,剩下的就是考虑如何在Java代码中处理数据了。当然,也可以在爬虫启动前,将Java变量填入配置文件中,实现动态配置。
许可证:BSD
开发语言:Java
特点:使用XSLT、正则表达式等技术实现Text或XML操作,具有可视化界面
15.
它是Java类包与网络爬虫的交互式开发环境。网络爬虫(也称机器人或蜘蛛)是能够自动浏览和处理网页的程序。它由爬虫工作平台和类包两部分组成。
许可协议:
开发语言:Java
特点:由履带式工作平台和类包两部分组成
16. YaCy
YaCy 是一个基于 p2p 的分布式 Web 搜索引擎。它也是一个 HTTP 缓存代理服务器。该项目是一种构建基于 p2p 的 Web 索引网络的新方法。它可以搜索您自己的或全局的索引、抓取您自己的网页或开始分发等。
许可证:GPL
开发语言:Java Perl
操作系统:跨平台
特点:基于P2P的分布式Web搜索引擎
爬行者17。
它是一个简单的信息收集工具,可以帮助您查找子域名、区域,收集电子邮件地址并用于查找人际关系等。它是用.NET编写的,支持Linux和操作系统。
许可证:GPLv3
开发语言:
操作系统:Linux
功能:查找子域名、收集电子邮件地址以及查找关系
18.
这是一个非常简单易用的爬虫工具,简单实用高效的网页爬虫模块,支持爬取渲染后的页面
许可证:MIT
开发语言:
操作系统:跨平台Linux OS X
特点:简单、轻量、高效的网络爬虫框架
下载:#
19.
它是一套基于的异步处理框架,纯爬虫框架,用户只需要定制开发几个模块就可以轻松实现一个爬虫来爬取网页内容和各种图片,非常方便~
许可证:BSD
开发语言:
操作系统:跨平台
源代码:
特点:基于异步处理框架,文档齐全
C++爬虫20.
是一种快速且高速的
严格来说只能是个系统框架,没有详细要求,目前只能实现提取URL、去重、异步DNS解析、排队任务、支持N机分布式下载、支持网站定向下载(需.ini配置)。
特点及用途:
工作流程:
许可证:BSD
开发语言:C/C++
操作系统:Linux
特点:支持多机分布式下载,支持网站直接下载
21。
它是一个开源的网络爬虫/网络蜘蛛,由一位名叫 Sé 的法国年轻人独立开发。它的目的是跟踪页面的 URL 以进行扩展抓取,最终为搜索引擎提供广泛的数据源。它只是一个爬虫,也就是说,它只抓取网页,用户负责解析它们。此外,它不提供有关如何在数据库中存储数据或创建索引的信息。一个简单的爬虫每天可以检索 500 万个网页。
有了它,我们可以很方便的获取/确定单个网站的所有链接,甚至可以镜像某个网站;我们还可以用它来构建一个URL列表组,比如获取所有网页的URL后,就可以得到XML连接。或者MP3,或者自定义,可以作为搜索引擎的信息来源。
许可证:GPL
开发语言:C/C++
操作系统:Linux
特点:高性能爬虫软件,只负责爬取,不负责解析
22。
它是一款针对WEB、FTP、以及本地文件系统进行速度优化、高度可配置的爬虫软件。
许可证:未知
开发语言:C/C++
操作系统:Linux
特点:速度优化,可以抓取WEB、FTP和本地文件系统
源代码:
C# 爬虫 23.
它是一个用C#开发的开源网络爬虫程序。
特征:
可配置:线程数、等待时间、连接超时、允许的 MIME 类型和优先级、下载文件夹。
统计数据:URL 数量、下载文件总数、下载字节总数、CPU 利用率和可用内存。
:用户可以设置MIME类型的优先级。
:10+条URL规则,陷阱规则。
许可证:GPLv2
开发语言:C#
操作系统:
项目主页:
特点:统计信息、执行过程可视化
24。
国内首个微博数据爬虫程序!原名“新浪微博爬虫”。
登录后,可以指定用户为切入点,以用户的关注、粉丝为线索,通过个人关系收集用户的基本信息、微博数据、评论数据。
本应用获取的数据可以作为新浪微博相关科研、研发等数据支持,但请勿用于商业用途。本应用基于.NET2.0框架,需要SQL作为后端数据库,为SQL提供了数据库脚本文件。
另外由于新浪微博API的限制,抓取的数据可能不完整(如粉丝数限制、微博发帖数限制等)。
5.x版本已经发布!该版本有6个后台工作线程:爬取用户基本信息机器人、爬取用户关系机器人、爬取用户标签机器人、爬取微博内容机器人、爬取微博评论机器人、调整请求频率机器人。性能更高!最大限度发挥爬虫的潜力!从目前的测试结果来看,已经可以满足个人需求了。
本程序的特点:
许可证:GPLv3
开发语言:C# .NET
操作系统:
25.
它是一个基于递归树模型的多线程网络爬虫程序,支持获取text/html资源。可设置爬取深度,最大下载字节数限制,支持gzip解码,支持gbk()和utf8编码的资源;存储在数据文件中。
源代码中的TODO:标记描述了尚未完成的功能,希望您能够提交您的代码。
许可证:MIT
开发语言:C#
操作系统:
源代码:
特点:基于递归树模型的多线程网络爬虫,支持GBK()和utf8编码的资源,使用存储数据
26.网络
mart与Web是一个网络爬虫框架。集成支持。爬虫可以从单个链接或链接数组开始,提供最大迭代次数和最大深度两种遍历模式。可以设置过滤器来限制爬回来的链接。默认提供了三种过滤器,和ter,可以用AND、OR、NOT组合。可以在解析过程中或页面加载前后添加监听器。介绍内容来自Open-Open
开发语言:Java
操作系统:跨平台
许可证:LGPL
特点:多线程,支持抓取PDF/DOC/EXCEL等文档源
27. 网络矿工
网站数据收集软件 Miner (原采)
财竹网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源的软件。财竹虽然开源,但是并不影响软件功能的提供,甚至比一些商业软件的功能还要丰富。
许可证:BSD
开发语言:C# .NET
操作系统:
特点:功能丰富,不亚于商业软件
PHP 爬虫 28.
它是一个开放源代码的多线程Web(robot:机器人、爬虫)和搜索引擎,包含很多有趣的功能。
许可证:未知
开发语言:PHP
操作系统:跨平台
特点:开源多线程网络爬虫,具有许多有趣的功能
29.
它是用PHP开发的网页爬虫和搜索引擎,通过索引动态和静态页面建立词表,当搜索查询时,会按照一定的排序规则显示包含关键词的搜索结果页面。它包含模板系统,可以索引PDF、Word、Excel、文档等。它适合更专业、更深层次个性化的搜索引擎,用它来构建某一领域的垂直搜索引擎是最好的选择。
演示:
许可证:GPL
开发语言:PHP
操作系统:跨平台
功能:具有收集网页内容和提交表单的功能
30.
它是一个社交媒体视角引擎,可以收集等社交网络的数据,是一个交互式分析工具,可以收集个人社交网络账户的数据,并对其进行归档和处理,并将数据绘制成图表,以便更直观地查看。
许可证:GPL
开发语言:PHP
操作系统:跨平台
源代码:
特点:社交媒体视角引擎,收集、等社交网络的数据,并可进行交互式分析,并将结果以可视化形式呈现。
31. 微购物
微购社交购物系统是一款基于框架开发的开源购物分享系统,也是面向站长的开源淘宝建站程序,集成淘宝、天猫、淘宝等300多个商品数据采集接口,为淘宝站长提供傻瓜式的淘宝建站服务,只要懂HTML的人都可以制作程序模板,免费开源下载,是淘宝站长的首选。
演示网址:
许可证:GPL
开发语言:PHP
操作系统:跨平台
爬行者32.Ebot
Ebot 是一个用该语言开发的可扩展分布式网络爬虫。URL 存储在数据库中,可以通过 HTTP 请求进行查询。
许可证:GPLv3
开发语言:
操作系统:跨平台
源代码:
项目主页:
特点:可扩展的分布式网络爬虫
Ruby 爬虫 33.Spidr
Spidr 是一个 Ruby 网络爬虫库,可以完全本地抓取整个网站、多个网站或一个链接。
开发语言:Ruby
许可证:MIT
特点:可以完整捕获本地的一个或多个网站或链接
版权声明:转载文章及图片均来自公众网络,版权归作者所有,除非无法证实文章,否则我们会注明作者及出处,若出处有误或侵犯原作者权利,请联系我们删除或授权。
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。