精灵采集器
首页
产品功能
购买价格
建站教程
当前位置 :
精灵采集器
>
正文
6.2 数据发布常见问题(公共)

简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  


数据发布常见问题(公共)



  1. 在发布目标的 ‘设置发布对应字段’ 中 ‘来源值1’ 无法选择对应的字段?

  2. 发布后,文章时间变为计划、定时或将来时间

  3. 发布失败,提示 ‘目标网站返回错误,发布可能失败!目标ID:xxxxx(数字)’ 解决方法

  4. 发布失败,提示http异常或未知原因的,请尝试添加发布IP白名单或安全组

  5. 发布失败原因有 “发布可能失败” 提示

  6. 发布结果提示:失败原因“标题不能为空”

  7. 如何设置不发布重复数据

  8. 如何调整数据发布的间隔时间?

  9. 影响发布速度因素

  10. 如何设置发布后自动删除数据和图片




1. 在发布目标的 ‘设置发布对应字段’ 中 ‘来源值1’ 无法选择对应的字段?


  可在此任务下的 ‘发布目标管理’ 中新建或者复制发布目标,再进入新的发布目标映射字段处选择;


  注意:蓝色字体的为本任务下创建的发布目标,所属任务处也有任务名显示,可点击跳转到所属任务;




  因为发布目标中可选择的对应字段,是映射当时创建该发布目标的任务结果数据处已设置的字段名;


  新建或者复制一个发布目标,相当于重新映射可以选择的对应字段.


  如果多个采集任务的详情提取器使用的字段都是相同的(title,content,pubData等),则发布目标可共用;


  但如果新建的任务中有新自定义的字段,则在发布目标映射字段处无法选择到新字段,需采取上述新建或者复制发布目标的方法,才能选择到新字段;


  例如:一个采集任务(简称任务1)的详情提取器中只设置了title、content字段,并在任务1的发布目标管理中新建了发布目标(简称fabu-1);


  然后新建一个采集任务(简称任务2),其详情提起器除了title、content字段,还新添加了address和tel字段,此时在发布目标fabu-1中的映射字段处是无法选择到address和tel字段。只有在任务2的‘发布目标管理’ 中复制或者新建发布目标(简称fabu-2),才能在发布目标fabu-2中的映射字段选择到address和tel字段。




2. 发布后,文章时间变为计划、定时或将来时间


  可能是以下原因造成:



  • I、CMS系统本身的时区设置不正确;



  • II、 发布目标基本信息的时区设置不正确;




  若还是无法确定具体原因,则都可以通过修改发布目标的时区来解决问题:


  在发布目标的“填写网站信息“页面,通过选择加减时区来调整,调整直到正确为止。


  如:发布后时间为未来日期,那么可以减,原本为UTC+8,调整为UTC+0。





3. 发布失败,提示 ‘目标网站返回错误,发布可能失败!目标ID:xxxxx(数字)’ 解决方法


  当数据发布失败,提示错误:目标网站返回错误,发布可能失败!目标ID:xxxxx(数字,各任务不同) 请查看: 相关解决方法(添加IP白名单等);


  可以通过以下方法来排除解决:



  1. 提示发布可能失败,可能是返回超时导致实际发布成功,请在网站后台确认有无发布的数据(用搜索);



  2. 用户服务器限制了ip,请把简数服务器的ip添加到白名单,ip地址见问题4



  3. CMS系统安装的某些插件造成,试试先关闭除简数外的其余插件,再发布;(如果之前是正常发布,最近无法发布,请检查最近新安装的插件);



  4. 发布目标类型是否选择正确;



  5. 简数发布目标的映射字段有无错误,建议先只配置必填字段测试,再配置非必填字段排除;



  6. 简数发布目标的网站信息有无填写错误,特别是协议http和https;



  7. CMS系统有无安装简数插件,并启用;



  8. 用户的网站能否正常访问;



  9. 如果是发布到 ‘织梦DEDE’ CMS系统,请将PHP版本切换到5.3再试试(UTF-8版本PHP5.6也兼容);






  以下发布失败类似错误也适用(目标ID的数字可能不同):



  • ‘目标网站返回结果错误,发布可能失败!目标ID:123456,not close json text, token : error’;

  • ‘目标网站返回结果错误,发布可能失败!目标ID:8886,syntax error, expect {, actual error, pos 0’;




4. 发布失败,提示http异常或未知原因的,请尝试添加发布IP白名单或安全组


  用户服务器如果有限制ip,请加上这些ip为白名单,


  简数采集服务器ip:


120.78.140.82


39.108.151.66


120.79.2.243


119.23.228.38


120.79.225.88


112.74.24.225




  例如阿里云服务器的ip白名单设置


  


  例如宝塔的ip白名单设置:


  I、5.9版本之前的宝塔有自带的WAF防火墙(或过滤器),在软件管理的Nginx设置处,添加简数ip到IP白名单,


  6.X版本之后的宝塔没有自带的防火墙,如果没有安装防火墙,就无需在宝塔端添加IP白名单。


  


  II、如果是安装了付费版宝塔防火墙,添加IP白名单设置在软件管理处:


  
  




5. 发布失败原因有 “发布可能失败” 提示


  发布失败原因中有提及 ‘发布可能失败’,用户需到CMS后台确认有没接收到数据,因为可能是超时导致,实际发布成功的。


  发布超时(用户服务器慢或网络慢或图片较多),简数服务器或用户服务器都会为了保护自己,超时断开,这情况简数会做发布失败处理,实际可能发布成功了。


  服务器不能花很长时间去等另一端那边的响应,那样多了,会把服务器拖垮的,所以网络都会有连接超时断开的机制。




6. 发布结果提示:失败原因“标题不能为空”


  主要是有三种情况引起:



  • 在任务中,点击“结果数据&发布”,查看采集的数据,标题内容是否为空,如果为空,请检查标题字段配置是否正确;

  • 检查发布目标—映射配置标题是否正确;

  • 如果是发布到 ‘织梦DEDE’ CMS系统,请将php版本切换到5.3(UTF-8版本PHP5.6也兼容);




7. 如何设置不发布重复数据


  设置不发布重复数据,是在CMS系统后台的简数发布插件处设置,判断条件是标题是否相同。


  以WordPress系统为例:



  • 勾上【根据标题去重】,存在相同标题,则不插入,当发布重复数据,会提示发布成功但不插入,返回网站已存在相同标题的文章URL链接;



  • 不勾上【根据标题去重】,重复标题的文章会新插入,但会提高发布速度,因为不会去查询数据库中是否有相同标题的文章,减少了查询的时间,也不另外占据服务器资源,特别是当网站存储数据量很多时。







8. 如何调整数据发布的间隔时间?


  进入简数采集控制台,点击左侧列的【公共配置管理】==》 再点击【全局选项配置】;


  作用:当发布速度太快对服务器造成压力,可以调高此值来解决。


  两条数据前后发布间隔系统默认0.3秒(虽然页面显示是0),最大5秒,只能填写整数值。





9. 影响发布速度因素


  简数采集发布文章,主要是受用户服务器性能和网络影响,还有是否传输下载图片有关;


  简数这边可以非常快,默认是0.3秒发布一篇,可以在全局选项配置处修改


  如果用户服务器文章数量很多了(3万以上),简数发布插件的【根据标题去重功能】会有一定影响,因为每次插入一条数据前要根据标题搜索是否存在,而标题字段又没有建立索引,所以文章数量多了可能会导致发布非常慢。


  建议把简数发布插件的【根据标题去重功能】不启用,用户自己确认简数采集结果数据没有重复标题,这样发布会比较快。(如何关闭标题去重功能)




10. 如何设置发布后自动删除数据和图片?


  如何设置发布成功后自动删除对应的数据和图片(删除的是简数控制台中发布成功的数据,以及对应暂存在简数的图片,不影响用户网站的文章和图片):


  注意:只适用于HTTP传输图片方式,FTP方式则不支持;


  I、自动发布删除数据和图片


  在自动发布设置页面,选择【删除数据及暂存简数图片(ftp的不支持删图片!)】,保存;



  II、手动发布删除数据和图片


  在手动发布设置页面,选择【删除数据及暂存简数图片(ftp的不支持删图片!)】,发布;





简数导航: 简数采集   简数控制台   如何使用简数SEO工具   微信公众号文章采集   今日头条采集  

姓名:
评论

vvv

2020-12-05 11:12:36

dd

©2018-2020 h5spirit.cn  | 京ICP备19057243号-1 | QQ群:694364182