精灵采集器
首页
产品功能
购买价格
建站教程
当前位置 :
精灵采集器
>
正文
课程目录
微信、DZX等使用自定义地址的图片处理
精灵采集器介绍
ajax生成的网页数据如何进行采集
列表翻页配置(批量网址采集)
采集入门教程(简化版)
6.2 数据发布常见问题(公共)
自定义http接口
采集入门教程(简化版)
一 采集入门教程(简化版)
一点概念:
大多数网站都是以
列表页
和
详情页
的层次结构进行组织的,例如我们进入新浪新闻频道,有很多标题链接,这可认为是列表页。点标题链接后进入的便是详情页。
而使用数据采集工具一般目的:
大批量地获取详情页里面的具体内容数据
,并使用这些数据进行各种分析,发布自有网站等等。
列表页
:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。主要作用:通过列表页可获取多个详情页的链接。
详情页
:包含具体内容的页面,如一篇网页文章,里面含有:标题,作者,发布日期,正文内容,标签等。
开始,请先登录进入“精灵采集器"页面:
详细使用步骤:
创建采集规则
完善列表页的智能抽取结果(可选)
完善详情页的智能抽取结果(可选)
启动运行
第一步:创建采集任务
右键点击左侧,选择菜单“
新
建采集规则
”,输入采集任务名和要采集的”采集路径“网址,如:
https://www.123.com/
(这里首页即作为列表页:内容含有多个详情页即可),详情页链接可不填,系统会自动识别。
如下图:
输入后点击 “应用”。
第二步:完善列表页的智能抽取结果(可选)
点击"采集列表",系统会先采用智能算法获取需要采集的详情页链接(多个),用户可以双击打开检查,如果不是想要数据,可以打开“采集设置” -> "列表采集"进行手动指定,输入正则表达式匹配路径,或者CSS选择器进行选择。修改采集设置后,可以先清空之前的数据。因为重复的链接不会被提取出来,导致看不到修改采集器的效果。
第三步:完善详情页的智能抽取结果(可选)
上一步获取了多个详情页链接后,双击详情页链接,系统会智能抽取详情页数据(如:标题,作者,发布日期,内容,标签等)
详情页智能抽取结果如下:
如果智能抽取的内容非想要的,那么可以打开"
采集设置
" -> "内容采集"进行修改。
如下图:
可以在左侧对各字段进行修改或增加删除等。
第四步:启动运行
完成后,选择要提取的链接(勾选详情页前的选择框),点击"采集内容",进行数据采集了:
采集后的数据结果,在该采集任务的“
导出..
”里面,您可以在这里对数据格式进行修改或者直接导出CSV、JSON、HTML文件或发布你的网站(WordPress,织梦DEDE,HTTP接口,数据库等)。
完成,数据采集就这么简单!!!
上一篇:
列表翻页配置(批量网址采集)
6.2 数据发布常见问题(公共)
下一篇:
姓名:
评论
姓名:
回复
vvv
2020-12-05 11:12:36
dd
上一页
1
下一页
©2018-2020 h5spirit.cn | 京ICP备19057243号-1 | QQ群:694364182
vvv
dd