spider_java

spider-java框架

java爬虫,java网络数据采集:

​ 神箭手/八爪鱼 /pyspider 采集平台,有监控平台,有云采集平台,都是一套系统。

基于java的分布式爬虫

开源爬虫框架各有什么优缺点?

Java网络爬虫

JSOUP:

使用 jsoup 对 HTML 文档进行解析和操作

Jsoup学习笔记

框架:

SeimiCrawler:据称可以实现js,

Crawler4j

WebCollector

WebMagic:webmagic-avalon 监控工具。

web magic

基于webmagic的爬虫项目经验小结

基于Webmagic爬虫框架的数据抓取

从webmagic着手浅析JAVA爬虫

WebMagic Avalon设计草图

大白痴学习webmagic