帝国模板之家为广大用户提供专业、一站式建站服务。

网站开发

网站开发栏目,介绍前端、后台、服务器、数据库、建站工具等实用网站开发教程。

当前位置:首页 > 教程 > 网站开发 > 正文

「百战网」火车头采集规则,采集流程图文教程

帝国模板之家 2020-09-19 网站开发 评论

火车采集器是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品,并赢得众多用户的一致认可。使用火车头采集数据,首先就得要写好采集规则。

什么是“火车头采集规则”?

火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。

下面我们以采集百战网国内新闻栏目为例来讲解火车头采集,采集流程。

1.网址采集规则,如下图:

填写采集起始网站,这里我们使用批量网站规则如下;

https://www.baizhan.net/news/guonei/index_[地址参数].html

设置采集规则,使用手动获取规程方法。

提取规则:

<a href='[标签:cjurl]' target='_blank'>(*)<img src='[标签:titlepic]' alt='' title=''>(*)</a>

拼接地址:

https://www.baizhan.net[标签:cjurl]

设置区域:

<div class="content-list">(*)<div class="paging">

2.设置内容采集规则

采集字段包括:titlepic(图片标题),cjrul(采集地址),title(文章标题),newstext(内容),infotags(标签),keyboard(关键字),采集字段可以根据网站需求进行添加修改,这些字段是根据帝国cms新闻系统模型提取的必要字段。如图所示:

title规则:从采集内容的源码中分析,我们可以看到标题使用的是<h1>标题</h1>这样的格式,h1标签在源码中式唯一的,所有我们可以使用从源码中获取使用使用前后截取的方法来获取标题。如图所示:


newstext规则:使用前后截取方式提取内容,我们还需要设置数据处理,文件下载设置,过滤掉文章中的A标签,替换掉一些隐藏的内容,内容图片保存路径。具体操作如果所示:

文件下载设置如图:

测试抓取内容结果,如下图所示:

我们可以看到已经正确的获取到了我们需要字段的内容。说明规则是没有问题的。

3.设置内容发布规则

使用web在线发布,我们用的是帝国cms新闻系统模型内容发布规则,大家可以根据自己的系统进行编写规则。设置方法如图所示:

web发布设置如图所示:

  • 选择发布模块
  • 填写网站编码
  • 网站地址
  • 获取栏目分类id和分类名称

关于内容发布模块,大家有什么不明白的地方,可以在下方进行留言,如果需要,后面出教程进行单独讲解。

4.其他设置

设置图片下载保存路径,如图所示:

这里还有任务运行线程及时间,http请求设置,ftp/sftp文件上,代理,插件,排除重复,发布相关等其他设置。可以根据个人需求进行相关配置。

以上就是「百战网」火车头采集规则,采集流程图文教程,更多相关内容请关注帝国模板之家

这世上无忧无虑的人,反而相对寿命会长点。

已有 位小伙伴发表了看法

欢迎 发表评论

  • 匿名发表

关于

帝国cms模板

网页插件

帝国模板之家 | www.moyouyouw.cn

本站所有模板/文章除标明原创外,均来自网络转载,版权归原作者所有,如果有侵犯到您的权益,请联系站长删除,谢谢! 寻找帝国cms模板首选帝国模板之家,用心做站,上线至今广受好评,值得信赖!

  • 交流群1:帝国cms交流群1
  • 交流群2:帝国cms交流群2
在线QQ 给我留言