火车头高铁采集器怎么使用,新手保姆级教程
最近在抓取一些比较有价值的网站资源,用于训练AI写作系统,保证AI能在我采集的庞大数据库中学会利用一个命题就可以创作高质量原创文章。对!我说的是原创文章 ,不是伪原创 。至于这个AI写作的系统将会在我成功后与大家展开更为细致的分享,今天我们的主题是,如何通过火车头采集器批量采集网站文章。
一、准备
软件:火车头采集器/高铁采集器
使用环境:PC端
二、采集
1.获取列表页数据
进入待采集网站,打开需要采集的栏目或者待采集的关键词搜索列表。
待采集网页
确定这个栏目的文章页数,翻到底部发现总页数为15,确定采集页数为15。
网站页码位置
;跳转到下一页,确定网页的起始网址格式,变量基本是.html前面的序号,所以我们先直接复制下来。
进入高铁采集器,点击+按钮跳出任务设置页面。
高铁采集器/火车头采集器
点击网页采集规则页面的起始网页右边的第一个按钮进入向导,填入复制下来的页面地址,并将页面的变量替换成右边的地址参数,直接删掉原页码然后点击按钮插入就可以。
网址采集规则
最终会自动生成一个采集列表文章的链接,但这只是采集页面数据,并没有将需要的内容精确地采集到。
采集起始网址
因为需要让机器知道我们要采集哪些数据,所以我们要在网页代码中找到开头和结尾的标志,以便机器采集。
右击网页空白处查看网页源代码
查看页面源代码
由于源码大多是一行显示,所以我们需要勾选源码顶部的“换行 ”复选框。
勾选换行复选框
Ctrl+F 搜索源代码中包含列表页的第一条数据的标题,并寻找与该标题临近的一个唯一标签。
查找是否唯一
<h1><span>产品运营</span></h1> </div> <div class="sec-panel-body">
在这段代码中,我选择了 “<divclass="sec-panel-body">” 作为识别开头的代码。
同样的方式,我搜寻列表页的最后一条数据的标题,找到了识别结尾的代码。
是否是唯一且能识别到的代码,我们也可以通过 Ctrl+F 去查找,只要搜索数据是唯一的就是了。
填写起始代码
填入写好的起始和结束代码后,点击右下角的网页测试按钮测试采集数据是否正常。
测试是否能采集到需要的网址
让机器采集一部分列表页数据就可以停止了,然后看到采集的数据是比较多的,有些数据不是我们需要的数据页,所以我们需要将其排除。
查阅到内容页的地址为/n/(*).html,所以我们可以用网页格式去锁定采集地址。
确定地址栏规则
在链接过滤处选择链接包含并填入刚才的格式
过滤不需要的链接
接下来发现内容页地址采集正常。
正确获取需要的地址
2.获取内容页数据
接下来我们就需要写内容页的采集规则,这里比较复杂,需要认真看。在最近的测试中,发现对于新手来说也并不是难事,因为逻辑一样的,多去调试就行了。
进入内容采集规则页面,内置有标题和内容,这里我多加两条数据“作者 ”和“日期 ”,以便大家更深理解。
内容采集规则
我们在采集过程中可能需要更多的数据,基本上都可以按照我说的操作采集出来。
同样,在文章页面右击调出源代码,我按标题、作者、时间、内容 的顺序教大家写采集规则。
首先,我们查找到文章标题的位置,确定位置在<h1>标签内,其实大部分的页面都是<h>标签,只是里面的样式不同而已。
找到标题位置
<h1 class="entry-title">标题</h1>
接着直接看后面的代码,通过一些标志,看到作者和时间,这时候就确定了时间和地址。
找到作者和日期位置
<a class="nickname url fn j-user-card">作者</a> </span> <span class="dot">•</span> <time class="entry-date published" datetime="2022-10-31T08:17:06+08:00" pubdate> 2022年10月31日 08:17:06 </time>
然后再看接下来的内容,去找找内容的代码。
通过文章内容找到旁边的div标签是唯一识别的标签(经验之谈,一般在class中包含content),咱们就可以确定内容的开始标签。
找到内容位置
<div class="entry-content text-indent">
同样的方法,找到结尾词旁边的标签为:
<div class="entry-readmore">
这就确定了标题、作者、时间、内容 了,接下来需要去软件内写清楚规则。
①标题
我们提取标题优先选择正则提取 ,并将复制的所有变量在匹配内容中用[参数] 代替,在组合结果中直接点击[参数1] 。
设置标题提取规则
②作者
同样我也选择用正则提取 ,由于某些数据是变量且不需要,我们直接用(*) 代替即可,需要的内容用[参数] 替代,并在组合结果中选择[参数1] 。
设置作者提取规则
③日期
因为我想给大家讲一下为什么有[参数1]、[参数2]、[参数N] ,所以我使用多个参数进行举例。
在这里,我把标签中的参数作为我的结果,将标签中的内容直接丢掉了,但是获取的结果是一样的。
设置日期提取规则
所以在写规则的时候也不一定要中规中矩按别人教你的来,只要保证数据准确就行。
④内容 这里不需要多说,因为前面我们分析过,前后截取的代码已经知道,直接填进去。
设置内容提取规则
但是要考虑到不同页面中的开头和结尾可能是变量,所以我们要多打开一些文章去查看网页代码,毕竟某些页面开头有引言,有的结尾有版权声明。
三、测试
现在规则写好了,我们需要找个页面测试下,我们发现数据采集是正确的,现在基本的采集就完成了。
找几个页面测试下
对于我来说,AI写作训练不需要标签,所以我需要在采集的时候直接过滤掉,所以我在内容标签下的数据处理中,选择html标签过滤,直接全选了所有标签。为了阅读方便,我取消了换行和所有标签,当然我们也可以通过对数据的处理输出我们需要的内容。
html标签过滤
html标签过滤
四、输出
我们不设置内容发布规则的话,会导致文章采集了无法输出。
由于我只需要将数据输出为文档供AI学习,包括web在线发布和导入数据库都包含比较复杂的对应关系,所以输出这里我只讲保存本地文件这一项。
内容发布规则
我们将本地文件保存打开,以txt文件格式输出为例,我们选择txt,并设置保存位置为自定义位置,文件模板我使用的是:
文章格式
把它保存为txt文件,并将文件模板选择为这个文件,软件就会按照这个格式去输出文章了。
所有设置都配置好了之后就直接保存并退出,然后进入主页面,勾选任务右边的“采网址 ”、“采内容 ”、“发布 ”复选框,右击任务并选择开始即可,如果看到运行日志中运行正常就可以让它静默采集了,如果有提示错误,分析错误产生原因,然后对症下药就行了。
直接采集并发布
以下是输出的案例:
采集到的内容
五、注意事项
我们在采集中一定不会像我说得这么简单,所以我把我遇到的坑提前告知大家,以免大家走弯路。
1.数据为空
采集的数据为空白有一部分原因是原文就是空白的,比如网页上面的问答,如果没有回答,他的内容就是空的。还有就是采集规则不适用于所有页面,重新制定新的规则,保证所有数据能够输出为止。
有时候我们采集的数据是全空,这大概率是因为网速问题或者是网站问题,重新采集即可,因为没有采集到的数据会标注未采和未发。
2.输出数据相同
由于某篇文章在不同的标签或者板块下,软件不会直接帮你过滤,但是我们可以通过设置标签下的内容过滤,勾选“采集内容不得为空重复 ”的按钮。(勾选“采集内容不得为空”也可以解决问题1)
内容过滤
3.替换部分数据
这里我们在采集后会发现有很多版权词或者一些需要过滤的词,不必重新设置采集规则,而是在本地数据中,选择所有数据,并对特定标签中的特定内容直接进行替换或者过滤即可。
替换内容
以上原创教程仅用于学术交流,请勿搬运或用于不法用途,大佬请直接关闭本文。
火车头火车采集器(火车头采集器采集文章)
火车头采集器,作为一款强大的数据采集工具,已经在各行各业广泛应用。它不仅能够帮助用户快速、高效地采集各种信息,还能够解锁更多的潜在价值。下面我将为大家介绍火车头采集器的8个魔力功能。
1.快速抓取信息
火车头采集器拥有强大的抓取能力,可以从各种网站和平台上快速抓取需要的信息。无论是产品数据、新闻资讯还是市场动态,只需简单设置参数,火车头就能轻松搞定。
2.智能筛选过滤
火车头采集器具备智能筛选过滤功能,可以根据用户设定的规则进行数据筛选。无论是按关键词、按时间还是按其他条件,火车头都能够精确提取出用户所需的数据。
3.自动化操作
火车头采集器支持自动化操作,可以根据用户设定的时间和频率进行自动抓取。用户只需设置好抓取规则,火车头就会按时自动执行,解放用户的双手。
4.数据清洗与处理
火车头采集器还拥有强大的数据清洗和处理功能。它可以帮助用户对采集到的数据进行清洗、去重、格式化等操作,保证数据的质量和准确性。
5.多种输出格式
火车头采集器支持多种数据输出格式,包括Excel、CSV、JSON等。用户可以根据自己的需求选择合适的输出格式,方便数据分析和处理。
6.定制化功能
火车头采集器提供了丰富的定制化功能,用户可以根据自己的需求进行二次开发。无论是添加新的采集源还是定制特殊的数据处理规则,火车头都能够满足用户的个性化需求。
7.强大的扩展性
火车头采集器具有强大的扩展性,支持多种插件和扩展库。用户可以根据自己的需要安装相应的插件,增加更多的功能和特性。
8.专业技术支持
火车头采集器提供专业的技术支持服务,无论是使用过程中遇到问题还是需要定制特殊功能,都可以得到及时的帮助和解决方案。
火车头采集器的出现,为用户解锁了大量的信息资源,帮助用户更好地了解市场、把握商机。相信随着技术的不断发展,火车头采集器将会有更多的功能和应用场景,为用户创造更多的价值。让我们一起期待火车头采集器的未来吧!
相关问答
火车头采集器 怎么用?如何使用?1、火车头采集器是一个数据解析工具,可以帮助用户抓取、提取和分析网页数据。使用方法非常简单。2、在使用火车头采集器之前,需要先安装软件,并学习相关的使...
火车头采集器 该如何使用?关于这个火车头采集器的使用方法很难用几句话就描述清楚的。我建议去看官方提供的两个视频教程:一个是“玩转火车采集器,9节课让你从入门到精通”;另一个是“...
火车头采集器 怎么实现分级采集内容? - 爱子润润 的回答 - 懂得这个是可以实现的,可以在获取一级页面的时候在规则上添加标签,然后在根据顺序抓取二级页面,制定二级页面抓取内容的规则。此图就是在一级页面添加标...
火车头采集 的内容怎么导出word或者Excel A - 136****3106 的...用文字转化器文字转换器就行复制、黏贴就行了把文件转换过来就好!
他大爷的,八爪鱼跟火车 采集器 难用得要死?按照目前的实际操作来说,我个人觉得八爪鱼采集器还是比火车头简单多了,而且功能也更强大,不知道你是哪一方面遇到问题了,可以多看看教程,功能强大也是需要时...
有没有高效又傻瓜一点的爬虫 采集 数据工具?当然是有的,下面我简单介绍3个非常不错的爬虫数据采集工具,分别是后羿、八爪鱼和火车头,对于大部分网络(网页)数据来说,这3个软件都可以轻松采集,而且不需...当...
火车头 的 采集 规则是什么啊。那个上面的任务名怎么填写?任务名可以随便写,意思是指当你要建立这样一个采集规则时,它会生成一个数据表来存放,既然会生成一个数据表就总得有个名,就像你一生下来,你老爸老妈就会想到...
数据 采集 软件有哪些?直接复制粘贴可以吗?前市面上常见的采集软件一般可以划分为云爬虫和采集器两种:所谓云爬虫就是无需下载安装软件,直接在网页上创建爬虫并在网站服务器运行,享用网站提供的带宽和2...
火车头采集 的内容怎么导出word或者Excel A - nkqWrC4l 的回...文字转换器就行用文字转化器复制、黏贴就行了把文件转换过来就好!
国内真正的大数据 采集 软件有哪些?搜集客,火车头,狂人采集器。搜集客,火车头,狂人采集器。