精灵采集器
首页
产品功能
购买价格
建站教程
当前位置 :
精灵采集器
>
正文
精灵采集器介绍

精灵采集器介绍


精灵采集器是一款WEB版的网页数据采集工具,精灵采集器拥有强大的内容采集和数据过滤功能,能将您采集的数据发布到远程服务器。


精灵采集器基于Javascript语言开发,是平台无关的可以在任何系统上运行。精灵采集采用分布式架构可以轻易的部署爬虫集群。


精灵采集器分WEB端客户端应用WEB端与客户端应用的操作一致,只是需要连接精灵采集器提供的代理采集服务进行采集。


客户端应用完全由用户部署管理,可以对客户端应用进行可视化的管理,如:可视化的规则配置、实时采集日志查看...



精灵采集器特色功能



  • 1.支持手动采集,插件采集功能,支持ajax生成的网页的数据抓取

    2.采集数据云端保存功能。

  • 3.可配置多种版本的采集规则。

  • 4.提供采集规则有效性的检测功能(网页变动监控)。

  • 5.提供同步采集API,支持异步采集方式。

  • 6.提供数据查询API,支持JSONRSS(快速创建自己的Feed)的数据返回格式。

  • 7.支持并发速率配置。

  • 8.提供定时、循环多种采集计划任务配置。

  • 9.提供控制台实时查看采集日志,支持日志文件查看。

  • 10.提供分布式爬虫部署,支持按爬虫速率随机选择顺序选择的负载均衡方式。

  • 11.提供采集任务的备份与恢复功能。

  • 12.提供分页采集功能,解决数据分布在多个页面的情况。

  • 13.循环匹配支持数据合并功能,解决一篇文章分成多页的情况。

  • 14.支持正则XPathCSSPath多匹配方式。

  • 15.提供基于 XPath 的可视化配置功能。

  • 16.提供网页抓取插件数据发布插件等插件,让采集器适应更多更复杂的需求。


 

姓名:
评论

vvv

2020-12-05 11:12:36

dd

©2018-2020 h5spirit.cn  | 京ICP备19057243号-1 | QQ群:694364182