screen-scraping - html碎片的选项?

  显示原文与译文双语对照的内容

我想尝试 Beautiful Soup,html刮 python 包。 是否有其他的HTML抓取软件包我应该查看? python 不是一个要求,我对其他语言也有兴趣。

到目前为止的故事:

时间:

我发现 HTMLSQL 是一个非常简单的screenscrape方法。 获取结果需要几分钟的时间。

查询是 super-intuitive - 类似:

SELECT title from img WHERE $class == 'userpic'

现在还有其他一些替代方法采用相同的方法。

''简单的HTML DOM解析器'对于PHP来说是一个不错的选择,如果你熟悉jQuery或者JavaScript选择器,那么你就会发现自己在家里。

在这里找到它

这里还有一篇关于它的博客文章。

从阿德里安的templatemaker效用 Holovaty ( Django的名字) 使用一个非常有趣的方法: 你喂它变化相同的页面,它"学习""球洞"变量数据。 它不是特定于HTML的,所以它很适合抓取任何其他纯文本内容。 我也将它用于pdf和HTML转换为纯文本( 分别使用pdftotext和 lynx ) 。

除了Beatiful的汤之外,python 还有几个选项用于HTML的抓取。 下面是一些其他的:

  • 机械化: 类似于 perl WWW:Mechanize 。 给你一个类似于ineract的浏览器,使用网页进行
  • lxml: python 绑定到 libwww 。 支持遍历和选择元素的各种选项( 例如。 XPath 和CSS选择)
  • scrapemark: 使用模板从HTML提取信息的高级库。
  • pyquery web: 允许你在XML文档中使用类似查询的查询。
  • crawler: 高级抓取和web爬行框架。 它可以用于编写 spider,用于数据挖掘和监视和自动化测试
...