RDig是一个Ruby开发的HTTP爬虫,他常常和Ferret(搜索引擎)配合。 RDig依赖于Ferret (>= 0.10.0)或Hpricot (>= 0.4) 或RubyfulSoup library (>= 1.0.4)来分析HTML网页。.
Mechanize是一个嵌入式的web浏览客户端库,http://schf.uc.org/articles/2007/02/14/scraping-gmail-with-mechanize-and-hpricot 有个很有趣的例子,不到20行代码,列出你的gmail信箱中没阅读过的邮件。.