精灵采集器
首页
产品功能
购买价格
建站教程
当前位置 :
精灵采集器
>
正文
列表翻页配置(批量网址采集)

列表翻页配置(批量网址采集)

要大批量采集的文章,它们一般都被放在很多列表页中(翻页),而这些列表页的链接地址一般都是有规律的(等差递增1,2..n,或是字母a-z变化),为了采集到全部列表页,就可使用“按规则生成网址”来批量生成,并作为采集的列表入口网址。

1

详细使用步骤:



  1. 批量生成网址

  2. 手动输入网址


 

1. 批量生成网址


  场景:采集列表页,一般都有很多页(翻页),页面链接一般都是有规律的(等差递增,或是字母a-z变化),

那么就可使用“按规则生成网址”来批量生成要抓取的入口网址。

  示例1:


第一页是:https://www.cnblogs.com/sitehome/p/1

第二页是:https://www.cnblogs.com/sitehome/p/2

第二页是:https://www.cnblogs.com/sitehome/p/3

分析得出,最后的数字是页码,每次加1递增,这时我们可以把数字替换为参数(*)(相当于一个变量):

  1. 删掉数字,鼠标放在要插入的位置,输入(*)

  2. 起始数字指明开始下载的网页地址数字,结束数字指明结束下载的网页地址数字;

  3. 点击开始采集;


如下图:

2

 

备注:

  • 列表页最终生成总数不能超过5000个,如果需更多,可以拆分到另一个任务(复制任务)。

  • 一个批量生成网址规则生成的页数不能超过5000个,可以拆分成多个批量生成网址规则。


 

2. 手动输入网址


这个比较简单,不需要生成,直接粘贴多个网址即可,多个以";"分隔开。


 

姓名:
评论

vvv

2020-12-05 11:12:36

dd

©2018-2020 h5spirit.cn  | 京ICP备19057243号-1 | QQ群:694364182