设为首页
·
加入收藏
首页
PHP项目
JAVA项目
AJAX项目
C#项目
Ruby/Rails项目
U/Linux项目
教程下载
技术文章
我要登陆
我要注册
您的帐号:
您的密码:
自动登录:
取消
不是吧,您还没注册?赶紧注册吧!
10秒钟闪电注册
我要登陆
我要登陆
我要注册
您的邮箱:
请将您的邮箱作为登录账号
您的昵称:
4~30个字符,可以为中文
登陆密码:
6~30个半角字符
确认密码:
请再次输入密码
验 证 码 :
取消
组件类库
AOP面向方面编程
工作流
IOC依赖注入
缓存框架
调度框架
JEE框架
持久层框架
报表制作
连接池
模板引擎
XML UI工具包
Web Service
日志组件
Html解析类库
XML操作类库
搜索引擎
PDF类库
网络客户端组件
网络服务器端组件
JMX框架
动态语言
规则引擎
加密与混淆
代码优化
Email客户端
RSS聚合类库
开源集合类库
Chat工具
JMS消息中间件
字节码操作
语法分析生成器
Java游戏
运行分析工具
多媒体组件
Swing外观
身份验证
EAI/ESB组件
Web爬虫
模型转换器
OSGi框架
BI商业智能工具
J2ME开源项目
Android开源项目
开源吧
>
JAVA开源项目
>
组件类库
>
Web爬虫
Heritrix
Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。
【官方主页】
【下载地址】
网友留言/评论
我要留言/评论
相关开源项目
snoics-reptile
:snoics-reptile是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。
下载地址:
snoics-reptile2.0.part1.rar
snoics-reptile2.0.part2.rar
snoics-reptile2.0-doc.rar
spindle
:spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。
WebLech
:WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。
J-Spider
:J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。
Web-Harvest
:Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。
Smart and Simple Web Crawler
:Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加监听器。
Encog
: Encog是一个高级神经网络和机器人/爬虫开发类库。Encog提供的这两种功能可以单独分开使用来创建神经网络或HTTP机器人程序,同时Encog还支持将这两种高级功能联合起来使用。Encog支持创建前馈神经网络、Hopfield神经网络、自组织图。
Encog提供高级HTTP机器人/爬虫编程功能。支持将多线程爬虫产生的内容存在内存或数据库中。支持HTM解析和高级表单与Cookie处理。
收录时间:2011-05-13 16:36:41
Arachnid
:Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。
Arale
:Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。
WebSPHINX
:WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。
联系我们
|
关于开源
CopyRight © 2008-2010
www.kaiyuanba.cn
京ICP备10010536号