网页采集

第一步:从项目管理中添加一个项目

blob.png

blob.png

标题:项目的名称

目录第一页:选择要采集的内容目录索引的第一页

内容页:要采集的内容中的任意一个页面

目录网址格式:如 http://www.baimin.com/list_{*Page}.shtml,其中{*Page}代表页面的页码数 

目录第二页开始页:目录分页中的第二页面

目录结束页:目录分页中的最后一页

目录链接中包含的文字:只有包含其中文字的链接才会被抓取

模式:源码模式,速度快,不执行代码,可能有些网页不能被正确采集到。浏览模式:完全模拟浏览器访问,速度比较慢,采集比较全。

标签路径:通过标签选择器动态选择最小包含内容标签,需要正确选择到要采集的内容,当前先择的应是一个链接区域

blob.png



本地路径:默认保存下载图片的路径

网上路径:上传网上后图片保存的图标,导出数据后,需要将图片上传到这个路径


第二步:点击项目开表进入项目内容管理

blob.png

第三步:采集目录

blob.png

点击开始采集,就开始采集内容链接入库!


第四步:规则管理

blob.png


名称:导出字段名

类型:HTML-采集网页格式,文字-采集文本格式,图片-采集一张图片

标签路径:用标签选择器选择相应的采集区域

本地文件夹:如果有图片将保存本地的位置。

blob.png

第五步:回到内容管理,选择要采集的项目,点击采集开始采集数据

blob.png

第六步: 导出数据生成csv文件