常见爬虫框架

  • Python
  • Java
    • Nutch
      • Nutch是一个基于Apache的Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。
    • Heritrix
      • Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。
    • crawler4j
      • crawler4j is an open source web crawler for Java which provides a simple interface for crawling the Web. Using it, you can setup a multi-threaded web crawler in few minutes
    • WebMagic
      • 国人黄亿华先生的良心大作。无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫
  • Golang
  • NodeJS
  • C#

results matching ""

    No results matching ""