三九宝宝网宝宝绘画儿童画

如何使用火车头采集器采集网页图片详细图文教程

02月22日 编辑 39baobao.com

[可爱的火车头卡通图片简笔画教程]...+阅读

火车头采集器采集信息分两个步骤:

1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。

2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。

1,采网址。

网页上的产品信息就是所想采的,即为目标。

在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。

然后点击测试按钮测试所填信息的正确性:

测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。

2,内容的采集

经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。

明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:

找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取Description:

填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。

这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:

  • (*)Compare Prices(*)Product Details,填入模块,并测试是否成功。

    如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。

    这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。

    这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。

    以下为关联文档:

    wordpress的采集插件知多少1. Auto Get Rss插件 这个插件可以在程序上自由的更新,发布文章,还可以订阅和供稿。 2、Caffeinated Content插件 想做二次开发的可以使用这个插件,可以起到搜索,翻译的功能。 3...

    WPS ppt怎么裁剪图片图文教程1.打开一个PPT,插入一张剪切过来的图片,你发现还有一些瑕疵,但是你又不想去图片处理软件中修改怎么办,WPS里有裁剪工具,但是一般不熟悉,是很难找到的 2.先点击图片,或者选中图片,即...

    织梦采集的文章中的图片怎么去掉超链接这一属性采集文章里的图片带有原网站的链接吗? 1. 在你的文档发布页勾选删除非站内链接 2. 还有内容模型设置那里貌似也有的,设置为删除非站内链接就行了 3. 如果你用的采集软件,请参...

    如何把浏览的网页变成图片存起来楼主我给你说个方法,你的分可得给我啊。请看、 第一:打开你刚进去的那个网页,点击菜单栏里的工具。进到internet选项。在 常规 选项卡里点击 设置 再点击里面的查看文件。你是...

    如何解决网页图片不能显示的情况解决的方法如下: 1、安装专业的杀毒软件,对你的电脑全面清除病毒,清除后重新启动电脑,看看问题有没有解决,如果查杀病毒后图片仍旧不能显示,那么就进行下面的操作。 2、更改你的电...

    如何制造网页图片教学两方面问题! 第一个可能性比较大的是网页本身的问题。也就是服务端的问题。如今很多的网站页面的代码都是套用一些模板,而原模板的所有js(javascript)脚本可能又没有被完全用...

    怎样采集树叶科学教育活动中班先自己做个ppt文档 用多媒体放给孩子们 教孩子们认识树叶, 认识树叶从树叶的颜色、形状去教导他们,比如说: 树叶有像扇子形的、心形的、条形的、圆形的等。有的叶面上还有像心...

    使用javascript控制网页中背景图片的大小鼠标滚轮控制能: 鼠标滚轮自由缩放, 图片大小自定义按比例缩小, 图片大小可在装入时初始化... function resizeimg(ImgD,iwidth,iheight) { var image=new Image(); image.src=ImgD.src; if...

    图像系统构建和图像采集卡的问题!解决方法很多!CMOS是建立在大规模集成电路的面阵工艺的基础上的,早期没有,几乎全是CCD的线阵TTL工艺。成像后输出的是模拟信号,送进计算机时需要借助图像采集卡来完成数模转换和...

  • 推荐阅读
    图文推荐