采云是什么?采云能做什么?

采云是一款互联网数据抓取工具,采云实现了简单可视化的互联网数据采集功能。

大数据时代,各行各业在对内部或合作伙伴系统的各种数据进行汇集分析的同时,更希望获得外部互联网数据的行业数据,当内外数据进行整合关联后,可以丰富数据内容,提升数据平台的价值。

常规的互联网数据抓取爬虫系统,偏重于文本类内容的抓取,比较粗放,无法对指定区域的表格类数据进行精确提取,一般需要专业技术人员定制配置文件甚至进行程序开发,在使用方面则主要用于知识性检索或舆情分析,数据质量无法保证,难以与企业已有的数据进行良好的整合。

如果希望对指定页面指定区域的数据进行精确提取,则需要进行专门的定制化开发,这种开发方式不仅成本高,而且灵活度非常差,当目标网页稍微发生变化,就不得不调整程序甚至重新开发。

针对传统爬虫系统的不足,本产品实现了精确定向数据爬取的需求,并在易用性、可靠性等方面进行了更高的要求。

采云-功能介绍和操作演示

采云主要提供以下功能:

  • 系统登录:包括宣传页面,登录页面,注册功能等。

  • 概览首页:包括采集任务数量监控,失败任务和执行中任务的监控;还有采集规则的总量监控和异常规则的监控。24小时的抓取量的TOP5和全部任务的抓取量趋势图分析。

  • 规则管理:包括创建规则,修改查看规则,规则测试,复制,删除等功能,包括左侧的规则分类的管理。

  • 我的采集:包括创建采集任务,修改采集任务状态和配置,任务复制,任务删除,查看任务执行历史等功能,包括左侧的任务分类的管理。

  • 我的数据:包括查看每个周期的采集任务列表,查看数据详情删除数据等操作。

  • 采云API:API安全验证码,基础API,数据API等接口。

  • 系统管理界面:监控和启停后台抓取节点和服务。

采云-小助手入门教程-第二版

采云小助手第二版提供了更简洁的操作界面,更简化的操作流程,同时增加了对输入框、下拉框、点击事件和鼠标移入事件的支持,帮助您配置更加复杂的网站

  • 简介
  • 下载和安装
  • 主界面介绍
  • 基本操作流程
  • 表格提取
  • 基本点击事件的配置(多选和取消选择的操作)
  • 复杂点击事件的配置
  • 输入框的配置
  • 下拉框的配置

采云-小助手入门教程-第一版

Deprecated 采云小助手第一版已不再更新,第二版有更简洁的界面和更快捷的操作流程,并提供了对输入框和事件的支持,请您使用第二版

本视频主要介绍采云插件小助手第一版的详细入门操作,通过演示并配置一个常规的列表和正文的规则来讲述采云小助手的功能:

  • 开始点选/停止点选。

  • 清空全部配置。

  • 选择页面相同元素,提取文本,提取属性,配置翻页。

  • 简单的数据清洗,文本替换,分隔符,正则提取,时间类型提取,innerhtml,outerhtml类型提取。

  • 当前选中的csspath的修改和应用。

  • 已配置字段的修改,删除,查看。

  • 小助手的快捷键使用,小助手的点选页面字段颜色,背景色的区分和验证等功能。

采云小助手是什么?

抓取某个网页的时候,需要配置抓取规则,采云小助手就是可视化的浏览器插件点选工具,帮助用户配置采集规则的实用小工具。

插件下载

第二版(最新) “chromeextendV2.zip” 点击下载

第二版(2.0.0.3) “chromeextendV2.0.0.3.zip” 点击下载

Deprecated 第一版 chromeextendV1_final.zip” 点击下载

安装步骤

  • 提示:插件只支持谷歌浏览器,如果没有,请先自行下载谷歌浏览器。
  • 1,解压下载后的zip到任意文件夹下。
  • 2,打开浏览器,点击右上角进入->更多工具->扩展程序,如下图所示:
  • 3,进入配置页面,开启开发者模式,点击加载已解压的扩展程序,弹出框选中解压后的文件夹并确认,如下图:
  • 4,确认后,成功添加插件到浏览器,并且右上角有采云小助手的logo表示安装成功,如下图所示:
  • 5,进入采云,点击创建规则,输入url后,即可进入插件页面进行点选配置。

点选配置规则的说明

  • 1,登录采云,进入规则列表页,点击创建规则。
  • 2,新建规则,填写基本信息和要采集页面的URL,点击进入点选页面配置;
  • 3,配置规则也页面,点击“开始选择页面元素"启动。如下图所示:
  • 4,选择页面某个元素作为父元素(仅限列表页有此操作)。
  • 5,选择页面相同元素(仅限列表页有此操作)
  • 6,配置提取的文本/属性,选择类型和字符串提取规则,点确定,会添加到已配置列表,可查看。
  • 7,可选配置翻页规则,没有可不选。
  • 8,保存并测试。
  • 9,其他:css路径是当无法选中某个元素时,输入元素的路径。

  1. 用户使用说明

使用场景一:常规采集)一般主要用于采集从列表、到详情页的场景。当特殊的一些场景,通过步骤设计,也可以实现较复杂的采集模式。比如新闻列表到详情;汽车论坛采集;电商商品采集;房屋市场数据采集;新闻聚合与搜索的采集。

步骤1:新建采集规则(先搜索要配置的目标网站的域名或者网站名称,如果系统内置的已经有了,测试查看抓取的结果是否满足自己的需求,满足的话可以不需要创建规则了)。

步骤2:新建我的采集任务。这步必选。从导航栏点击“我的采集”进入列表页,之后点击“创建采集”按钮进入到采集编辑页面。填写基本信息和设置采集周期等,默认选择的是【常规采集】的模式,在左侧点击列表页,右侧输入目标网站的URL地址,按照提示,可以填多个目标网站地址,当然规则相同的地址才可以采集到数据。之后下拉菜单选择规则。指定下一步的url,填写正文页的样例URL和选择正文采集规则。最后配置完成和通知,测试保存即可完成任务的配置。

步骤3:继续步骤2的基础上,点击立即生效,这样就可以了。到指定周期的时候,后台抓取就会去执行了。

使用场景二:递归采集)用于给定一个起始URL,根据采集到的新URL不断递归获取数据的采集场景。如百科数据采集场景;全站数据镜像场景。

步骤1:新建采集规则。一般是正文页,配置要采集的文本等各个字段,之后配置一个列表,得到一个urllist字段。

步骤2:新建我的采集任务,新建任务后,选择递归模式,删除左侧的列表页那个卡片,保留正文页的步骤,输入目标网站的url,选择规则以后,在选择“递归字段”(urllist),填写递归深度。最后配置完成和通知,测试保存即可完成任务的配置。

步骤3:继续步骤2的基础上,点击立即生效,这样就可以了。到指定周期的时候,后台抓取就会去执行这个递归采集了。

使用场景三:微信采集)用于微信公众号数据的采集场景。支持微信公众号内容搜索的采集;基于公众号清单的监测采集。

注意,微信采集的规则是系统内置的,用户不需要自己创建规则。

步骤1,新建采集任务,选择微信模式。点击左侧选择是按照微信公众号来采集,还是按照微信搜索关键词采集的类型。 左侧分别添加微信公众号,和关键词就可以进行采集了。其中一个任务只支持要么微信公众号采集,要么是关键词采集。

使用场景四:微博采集)用于新浪微博数据的采集场景。支持新浪微博基于关键词搜索的采集;基于微博账号清单的监测采集。

采云的首页就是采云的宣传页面,如下图所示,可以通过底部的联系方式和右侧的微信和电话可以联系到采云的运营人员。

1. 宣传页

没有采云账号的用户,需要用手机号注册一下采云得到账号。用户名可以是英文和中文,密码最少要在字母数字和符合的组合,并且在8位以上。这个也是为了保证用户的账号安全考虑。并且需要输入手机号,并且得到手机号验证码。填写正确信息后,点击确定即可注册成功,注册用户,代表同意了采云用户协议。如下图:

3. 注册页面

注册有账户后,点击宣传页面右上角的登录按钮,可以进入系统内部。如果有采云账号的用户,直接输入用户名和密码和验证码即可登录成功,如果忘记密码,可以点击忘记密码,输入验证码进行修改密码。

2. 登录页面

登录平台后,概览页包括上部分的系统的任务和规则的概览情况,包括常规任务总数,递归任务总数,微信监控总数和微博抓取总量。还有正则执行中的任务数量。失败的任务数量。采集规则数量,异常规则数量等。如下图:

. 概览页面

概览页面还包含24小时抓取量变化趋势图,用户可以监控到24小时的抓取量的一个监控情况,并且默认会显示抓取量排行TOP5的排行趋势。从右侧的抓取量top5可以点击隐藏和现实某个任务的趋势图。

还可以从下拉菜单,选择某个任务进行查看任务的24小时抓取量变化趋势。勾选某个任务名称可以进行定制。定制的任务会显示在右下角的定制任务列表里面,方便下次进入的时候,直接查看自己关注的任务的抓取量趋势。每次最多可以定制5个任务进行监控,不需要关注的任务可以从定制列表删除掉,如图:

底部还显示了按照抓取量排行的任务列表,用户可以根据抓取量进行排序,也可以根据任务的名称进行查询相关的任务。也可以点击修改任务状态:生效或者失效。 测试任务结果,查看执行历史,修改任务的配置信息,复制任务,和删除任务。(*这些任务的操作说明,会在我的采集章节说明)

点击顶部导航“规则管理”可进入规则管理页面,如下图所示:

1)左侧分类管理是一颗分类树,分类树有系统内置的分类和用户自定义的分类。分类的目的主要用于区分和查找对应的规则,点击左侧的分类树,右侧会显示出该分类下的规则列表。点击父节点的分类,子节点的规则也会显示出来。

系统内置的分类包含:电商网站,金融网站,生活网站,行业网站,新闻网站,社交网站,其他网站这8个一级分类网站,每个分类下又包含各自的二级分类网站。

用户自定义的分类网站,首页是各自用户的名称,下面的二级分类用户可以自己随意创建。

分类的权限说明:超级管理员可以看到系统内置的规则,和所有的用户自定义的规则。普通用户可以查看系统内置的规则和自己创建的规则。如图所示:

2)右侧区域顶部,显示了当前用户可以看到所有规则的总个数。

用户可以根据规则所属类型(列表页,正文页)进行规则筛选。

可以根据规则状态的筛选(正常,系统上报异常,异常)进行规则筛选。

可以输入规则名称或者规则URL进行规则筛选。

3)规则列表:包含字段(规则名称,所属类型,规则创建的URL,状态,使用规则的任务,操作:查看,复制,测试,修改,删除,标记),列表支持翻页,每页10条。

其中,使用规则的任务的意思是,当前系统使用了这个规则配置了的采集任务的数量,点击这个数量,可以跳到任务的列表页面,可以查看任务的配置。

查看规则,可以点击进入规则详情,查看规则配置的字段和测试规则抓取到的数据格式。

复制规则,如果用户需要配置一个相似规则,可以直接复制之前创建的规则,复制的时候可以修改规则名称和选择复制后规则存放放分类,如图:

测试规则,配置好的规则,可以点击列表的测试操作,进行测试,看规则是否正常。

修改规则,点击后进入规则的编辑页面,可以修改名称,url等所有的规则的基本信息,和规则的配置信息。

标记规则,采云后台系统会定期的检查规则是否能抓到数据,如果抓取失败的话会判断这个规则是异常规则,会上报到前端展示,用户修改后如果后台还没有修改状态的话,用户可以通过这个操作按钮进行标识,标识这个规则是正常的或者异常的。如下图:

【创建规则】按钮点击后,跳到规则的创建页面。

【新建规则】页面

  1. 需要输入规则名称。

  2. 选择规则分类,也就是列表页左侧的分类导航树,在新建页面也可以对导航树进行增删改。

  1. 选择页面类型,分为列表页和正文页规则。区别就是列表页配置的时候点选的页面需要父节点。

  2. 页面URL,是要配置的规则页面的URL地址。

  3. URL模板,输入页面URL,会默认填充URL模板,之后在修改模板。模板的存在意义是方便规则的可复用。配置方法一般是URL的域名后面用通配符*替代。比如页面URL填入http://news.baidu.com/nszz.html。模板一般配置成http://news.baidu.com*。选择需要替换的部分,右键选择替换成*。如图:

也可以通过右侧的问号提示进行查看:

模板标识:这个不是必填。使用的场景是类似规则池的概念。同一个标识的规则,可以同一个采集任务里面使用。

【保存】点击后保存刚才填写的基本信息。之后在继续下面的操作。

【进入点选配置】:点击后就进入点选页面。进入点选页面,建议要使用chrome浏览器,并且要下载和安装采云小助手插件。如果没有安装,会提示去安装。到帮助页面进行下载和安装,步骤如下图:或者通过帮助页面查看。

配置列表页规则

点击进入点选页面,就可以开始配置目标网站的采集规则了。

选择列表相同元素
  1. 点击页面列表的任意元素。

  2. 选择相同元素。

提取标题元素
  1. 选择相同元素后,开始提取这些列表元素的文本。

  1. 选中列表中的任意一个标题元素,其他的标题也会被勾选上,说明配置正常。

  2. 选中后右侧小助手会提示输入采集的该元素的字段名称,类型等。之后点击确定。

  1. 点击确认后,即可以继续配置这个标题的URL属性。

提取URL属性元素
  1. 点击提取属性,之后点击页面标题那个元素,左侧输入字段名称=url,选中href这个属性,点击确定,这样就可以取到每个列表的url地址属性了。如图。

  1. 提取完后可以检查配置。

  1. 列表页一般就提取这两个字段,您也可以根据需求提取其他更多字段,比如来源,时间(时间字段选中文本,DATE类型,系统默认会提取成时间格式)。

  1. 配置完成后,点击测试,查看测试结果,可以继续配置下一个正文的采集规则(鼠标右键,必须是url地址的才可以。点击配置下一个内容页)。

  1. 也可以先保存当前规则,回到规则编辑页面之后新建一个。

配置正文页规则

以下两个入口可以配置正文页规则。

  1. 可以根据列表页的步骤10(如上),点击配置下一个内容页。

  1. 从规则列表,点击创建规则,类型选择“正文页”,点击“进入点选配置”。

进入点选页面后,一般正文要提取的字段是标题,正文内容,发布时间和来源字段,以下就根据这些字段分别做说明。

提取标题

1,进入点选页面后,点击小助手的“提取文本”,之后点击页面的标题元素,小助手会展开提取的字段信息,填入字段名和选择类型,之后确定。就配置好标题字段了。

提取正文
  1. 提取完标题,需要提取正文部分内容。

  2. 再次点击“提取文本”,之后鼠标点击正文部分元素。提示:如果一次点击选不对,鼠标再次点击,会选中当前元素的上一级元素。 选中全部的正文信息,输入正文采集的字段名称,类型选中innerhtml,并且提取正文一般勾选,下载正文内的图片。如图。 (说明,innerhtml的意思是提取这部分的文本包括html标签。)

4,如果提取的正文内容,有广告或者别人的二维码等不想要的信息,可以添加排除路径:点击添加排除路径的加号,会有输入框,鼠标点击不要的部分,就可以把相对路径选上,如图:白色的部分的csspath路径会被填入输入框中,用户也可以手动修改这个路径,修改完后,点击输入框后面的确定按钮即可。

提取发布时间
  1. 点击小助手页面的“提取文本”,之后点击页面元素的时间字段,如下图:

  1. 输入字段名称,选中文本类型,在选择date类型。确定即可配置完成。

  1. 配置完成后,查看提取的时间正确即可。

  1. 当特殊的场景,时间字段和其他元素混合在一起的时候,也使用上面的方法,选择DATE类型,系统会自动把时间字段取出来。

提取来源
  1. 提取来源字段的方法同上,点击“提取文本”,之后选择页面的来源字段的元素,之后输入字段名称后确定即可。特殊的情况,如下,选择这个区域后,显示【来源:新华网】这个结果,但是一般要获取的是【新华网】这个来源字段, 这个时候,就可以对采集字段进行数据清洗:可以选择分隔符,文本替换,正则。()

1,数据清洗:分隔符

以上来源字段的提取,比较明显,【来源:新华网】可以选择冒号分隔,取第二个。这个就可以把新华网提取出来了。

  1. 数据清洗:字符串替换

以上来源字段的提取,【来源:新华网】也可以选择替换【来源:】这个字段,替换为空。这个就可以把新华网提取出来了。

字符串替换,还用再提取url地址的时候,如果提取到的是除了域名以后的地址,系统会补齐域名地址,有时候需要把多余的部分去掉,这个根据页面需求来观察这配置,比如这个Simple地址:http://cg.hzft.gov.cn/www/noticelist.do?noticetype=3

  1. 数据清洗:正则

以上来源字段的提取,【来源:新华网】还可以选择正则提取,选中正则后,输入框会显示被选中部分的全部文本,选中你想要提取的那部分文本,会弹出“提取字符串”,点击“提取字符串”,小助手会帮你自动生成正则。这个就可以把新华网提取出来了。

如果你会自己写正则,也可以手动输入正则进行提取。提取表达式用$1或者$2表示,代表提取正则里面的第几个字符串,一般至少是输入$1就可以了。

正则提取还有另一种常用的场景,比如提取列表的时候,a标签没有href属性,而是onclick属性的时候,提取正则就把onclick内部的部分提取出来,之后拼上$1,如图:

小助手更多功能说明

开始/停止点选

从规则配置页面进入小助手页面,默认是开启点选的状态,这个时候是会把页面的hover事件和点击事件都屏蔽掉的,如果你想点击查看页面的事件,可以先停止点选,这个时候会显示‘开始点选’,点击开始点选,回复刚才点选的状态。如下图:

清除所有配置

点击清除后,配置好的信息都会被删除掉,恢复初始化小助手页面。不过如果你不点击【保存规则】按钮,也不会彻底清除的,关闭这个页面,重新进入,还会显示之前的配置。

收起按钮

会把小助手中间的点击部分的操作隐藏起来,只显示已配置的字段信息和底部按钮。一般是当你配置了比如78个或者10个那么多的字段时,小助手页面会展开比较长,这个时候方便配置任意查看已配置字段而设置的按钮。

应用css路径/ 选择上一级元素

这个【应用css路径】的按钮的作用,是当鼠标点击某个元素的时候,这个元素的csspath会显示在【选中元素css路径】的输入框内,如果无法选择目标元素的时候,可以通过人工修改这个路径来达到目的, 修改完路径以后,需要点击【应用css路径】的按钮,修改的内容就会在页面生效。

选择上一级元素的按钮的作用是选择当前元素的上一级元素,同样鼠标在页面上二次点击也能达到这个效果。

选择相同元素

一般是获取列表信息的时候,选中某个列表元素后,在点击这个按钮,会自动把页面的相同元素都选择上。

提取文本

一般都是采用提取文本的方式提取某个字段。上面章节有说明使用方法。

提取属性

一般是需要提取URL地址,IMG图片或者其他属性的时候,才需要提取属性字段。上面章节有说明。

设置翻页

采云小助手支持配置列表页的翻页抓取。点击翻页元素,比如下一步。点击【设置翻页】,选择是滚动翻页还是点击翻页。就可以完成配置了。配置的翻页次数,需要在采集任务里面去设置(后面章节)。如下图:

AJAX异步加载

有些网站的页面加载方式是异步的情况,需要勾选上异步加载的方式,并且勾选某个字段为判断异步加载完成的字段。不过勾选异步后测试会比较慢,这个情况是正常的。

判断这个页面是不是异步的方法如下:

测试规则按钮

配置好规则后,一般都测试一下,查看测试结果检查配置的是否是自己想要的结果数据。

保存规则按钮

保存规则就是保存当前所有的配置,并且返回到规则的基本信息页面。

撤销按钮

就是取消上一步的操作。



上面的章节,对新建规则有了认识,新建规则页面,还有两部分需要关注一下:

  1. 配置完点选页面后,这个页面会把已配置的规则的列集合显示出来,也可以点击【测试当前规则】。

  2. 相似规则:当输入页面url的时候,系统会自动去检查是否有配置过当前URL模板下的相似规则,有的话就会显示在下面的相似规则列表。可以对相似规则进行查看和修改。

点击顶部导航“我的采集”可进入采集任务管理页面,如下图所示:

1)左侧分类管理是一颗分类树,分类树有系统内置的分类和用户自定义的分类。分类的目的主要用于区分和查找对应的任务,点击左侧的分类树,右侧会显示出该分类下的任务列表。点击父节点的分类,子节点的任务也会显示出来。

2)右侧区域顶部,显示了当前用户可以看到所有任务的总个数。

用户可以根据采集模式(全部,常规,递归,微信,微博)进行任务筛选。

可以根据执行状态(全部,未执行,执行中,执行成功,执行失败,停止)进行筛选。

可以根据是否生效(全部,已生效,未生效)进行筛选。

可以输入采集名称或者采集URL进行筛选。

3)列表数据包含任务id,任务名称,任务模式,是否生效,任务状态,采集周期等项目,还可以通过列表对任务进出操作:失效/生效,测试任务执行结果,查看执行历史(数据),修改任务,复制当前任务,删除任务等操作。列表每页10行。

【创建采集】按钮点击后,跳到采集任务的创建页面。

顶部是采集任务的基本信息:采集名称,数据分类,采集周期,每次执行间隔,和是否使用代理。

高级配置:有些网站需要登录才可以访问的,可以配置登录的post信息等高级配置。

中间部分是4种模式的采集:常规采集,递归采集,微信采集,微博采集。

底部的左侧卡片显示红色,代表没有配置完成,不能保存,如果都是绿色的,代表配置完成了。点击左侧卡片,有红色边框的,代表被鼠标当前选中,右侧会显示被选中的卡片的配置信息,填写配置信息后,继续配置下一个卡片步骤。

左侧的卡片可以删除,添加(列表采集,或者正文采集),也可以拖拽,采集任务的执行步骤,是从上到下的顺序,如图:就是先采集一个列表页,之后列表页采集到的URL地址属性,作为下一个步骤的执行条件,之后执行正文页采集,最后配置完成的字段和采集结束的通知等。这样就完成了一个采集任务的配置。

常规采集

1,点击左侧的列表页采集,在右侧的列表url地址,输入目标网站地址,可以输入多个。之后选择你的采集规则。如下图顺序 :

2,可以查看列表页规则的列集合字段等操作:

  1. 可以设置去重字段,一般默认是按照url字段存在的时候跳过的方式去重。

  2. 如果列表页配置了翻页的时候,这里可以指定一下翻页的次数。否则默认翻页0次。

  3. 继续配置下一步的执行条件,这步非常重要,一定要选择URL字段作为下一步的执行条件,否则执行失败。如图:

  1. 15步配置了列表页的,之后配置一下正文页的规则。

  1. 默认选择的是固定规则,如果你的目标网站有多个正文页的时候,就需要配置智能提取:

  1. 完成和通知,勾选上http方式通知第三方,意思是采集到数据的时候,系统会给这个地址发一个消息。这个是给开发人员用的。还可以设置数据标识,比如标识为头版头条或者自定义标识,也可以设置内容分类,选择某个字段,当选择字段包含某个值的时候,映射到某个分类去。

  1. 设置字段的名称,可以用默认的,也可以自定义字段名称。可以添加常量字段。

10,以上都配置完成后,就可以点击测试,保存,立即生效按钮了,等到指定周期的之后,并且执行成功以后,查看数据执行历史,就可以看到抓取到的数据了。

递归采集

递归采集一般用在百度百科,获取某个人物关系,或者抓取明星关系的场景。一般配置一个正文的规则就可以,正文规则里面配置一个相关人物的urllist字段。

并且把这个urllist字段作为递归字段:

设置递归深度,就可以采集了。

微信采集

采集方式有2种:可以选中采集多个公众号,或者采集多个关键词的搜索列表。

1,微信公众号采集:新建一个任务,选中微信采集的模式,之后选择左侧微信公众号,左侧会显示公众号列表,点击添加公众号按钮:

弹出框输入公众号之后点击搜索,得到列表后,点击右侧的添加按钮,就可以采集某个公众号了。

点击添加了三个公众号后,如下图:

设置结束和通知,这一步和上面的常规采集和递归采集一样,只不过这个字段是系统内置的采集字段,可以自己重新映射成自己想要的字段名称即可。

2微信关键词采集:新建一个任务,选中微信采集的模式,之后选择左侧微信搜索采集,左侧会显示关键词列表,输入关键词,点击添加按钮:

完成和结束通知,和之前配置的一样。 这样的一个任务,就会根据添加的搜索关键词,去微信采集文字列表和正文内容。

微博采集

微博的采集方式也有2种:可以选中采集多个微博账号,或者采集多个关键词的搜索列表。

1,微博账号采集:新建一个任务,选中微博采集的模式,之后选择左侧微博账号,左侧会显示账号列表,点击添加微博按钮:

弹出框输入微博账号之后点击搜索,得到列表后,点击右侧的添加按钮,就可以采集某个号了。

点击添加了三个微博账号后,如下图:

设置结束和通知,这一步和上面的常规采集和递归采集一样,只不过这个字段是系统内置的采集字段,可以自己重新映射成自己想要的字段名称即可。

2微博关键词采集:新建一个任务,选中微博采集的模式,之后选择左侧微博搜索采集,左侧会显示关键词列表,输入关键词,点击添加按钮:

点击导航“数据”进入我的数据列表

  1. 左侧是数据分类导航,和任务的分类导航是同一个目录。

  2. 我的数据概览,这个统计了4个信息分别是采集到数据的任务的个数,这些任务采集到的数据的总条数,总共采集的耗时,还有平均每条数据采集的耗时。

  3. 底下列表是按照任务的维度来展示采集到的数据总量,包含字段是任务id,任务名称,任务url,最近一次在抓取时间,最近一次的抓取条数,还有这个任务的总条数,这个数据的所属者。还可以点击按钮,查看这个任务下数据详情,或者清空并重抓某个任务。

  4. 因为是按照任务的维度统计的数据,所以可以按照任务名称和URL搜索任务和查看对应的数据。

点击数据列表的某个任务的操作,可以查看某个任务对应的数据概览:

  1. 首先显示当前的任务名称,点击名称右侧的编辑采集,可以进入到任务编辑页面。

  2. 数据总量:显示的是这个任务下采集到的数据的总条数。点击总数可以到当前任务的所有的数据详情列表界面,参照下面的章节。

  3. 平均耗时:显示的是这个任务下采集到的数据的平均耗时时长,单位是每条多少秒。

  4. 周期采集次数:显示的是这个任务的采集历史一共采集了多少个周期,也就是采集次数。点击数字可以定位到当前页面底部的采集周期列表部分。

  5. 执行成功次数:显示的是这个任务采集成功的次数。点击后可以跳转到本页面底部的采集周期列表,并带上采集状态=成功的筛选条件。

  6. 执行失败次数:显示的是这个任务采集失败的次数。点击后可以跳转到本页面底部的采集周期列表,并带上采集状态=失败的筛选条件。

  7. 告警次数:如果没有设置告警,这里会提示可以设置。点击后弹出告警编辑页面(如图)。如果设置了告警的,可以进行修改告警条件,和查看告警个数,并且可以点击这个个数,跳转到告警历史的列表页,筛选出当前任务所发出来的告警。设置您的告警条件(只能选择截图里面的四种条件),点击确定即可创建这个任务的监控告警。

  1. 采集任务趋势(每个执行周期的采集数据量):柱状图显示的是最近1天的每个周期采集到的数据量的一个趋势图,绿色的是真实采集到的,橙色的是采集到的但是因为数据重复而过滤掉的数据条数。

  2. 采集任务趋势(每个执行周期的耗时趋势):趋势图显示的是最近1天的每个周期采集到的耗时的一个趋势图。

  3. 执行历史列表,周期执行列表,显示的主要是强调每一次执行这个采集任务的开始时间和结束时间,还有采集到的数据条数和状态信息等。其他字段包含采集id,采集周期,启动时间,结束时间,耗时,数据条数,过滤条数,通知状态,任务执行状态,还有操作(查看详情和删除)。

  1. 通知的状态有四种:未设置(当前没有设置通知地址),未通知(0条的时候是不会发通知的),通知失败(可能网络问题或通知地址不对,或者其他原因失败,),通知成功。可以点击这个状态,可以弹出重新通知的界面,如下图。

  1. 执行历史列表,可以根据通知状态和任务执行状态来筛选。查看某个周期的数据。

  2. 执行历史列表操作:查看详情,这个按钮操作,可以打开的是这个周期下,抓到的数据的列表。

  1. 执行历史列表操作:删除,这个按钮操作,可以删除这个周期下,抓到的数据,删除后,这个周期数据就会被删除,并且执行历史列表的这条数据就会被划线划掉。如下图所示:

互联网的数据多非结构化的数据,所以采云配置的任务和规则,每个任务采集的字段都有可能不同,所以,采云查看数据,都是按照任务的维度来查看。

可以从两个入口进入查看全部数据页面;

  1. 点击数据概览的总数据量:

  1. 点击历史任务右边的按钮,查看全部数据:

点击后进入界面如下:可以进入任务编辑页面,可以根据采集周期和查询条件查找数据,已确认采集到的数据的准确性。

从这个页面也可以清空并重抓这个任务的数据,也可以导出这个页面的数据,可以选择导出当前页的10条数据,或者导出全部的数据。

点击导航的告警,进入告警的界面:监控管理和告警历史界面。从上面的的章节【我的数据概览】页面,可以创建某个任务的监控告警条件。创建后的告警信息,可以统一到监控管理页面管理(编辑,删除)。当任务执行结束的时候,如果触发了某个告警信息,就会发出告警,在告警历史查看。

点击左侧导航的监控管理,进入监控管理界面,如下图:

  1. 可以查看当前用户的监控信息个数,注意:每个任务只能创建一个监控。

  2. 筛选条件可以选择是未解决告警(大于0或者全部),告警级别(中,高,低)。

  3. 可以输入任务名称和任务URL查找监控告警。

  4. 监控列表项目包含(任务id,任务名称(点击任务名称可以跳转到当前任务的数据概览页面),监控信息,未解决告警数(可以点击进入未解决的告警列表),已解决告警数,最新告警时间)。操作包含(查看告警历史,编辑监控,删除监控)

  5. 操作-编辑监控,弹出监控的编辑页面。可以修改监控条件,如下图

6)操作-删除,就把这个任务的监控信息清空了。

7)操作-查看告警历史,会跳到当前任务的告警历史界面。如下图:

点击左侧导航的告警历史界面,如下图:或者点击右上角的告警闹钟,也能进入告警页面:如下图。

  1. 可以查看告警的总条数

  2. 可以根据已解决,未解决的状态筛选告警历史,或者根据告警级别中高低筛选。

  3. 告警内容:就是触发了这条告警的信息。

  4. 告警时间,是触发这条告警信息的时间。

  5. 状态,点击未解决,可以把当前告警的状态改成已解决,如图

6)也可以批量操作,选择当前页,标记已解决,删除当前页。还可以点击全部解决按钮,把所有未解决的告警改成已解决。(注意,解决未解决是需要运营人员去检查任务和修改任务的,这个告警信息只是一个提示的作用。)

数据api界面,主要是开发人员获取采云数据的时候需要的接口。现在主要用到的接口如下:点击使用此API,里面有必要的参数和样例。

可以修改绑定手机和修改密码等操作。

可以邀请某个成员协助配置任务,也可以删除组内成员的权限。

被邀请的人,可以看到邀请人的界面和目录,规则,任务等页面。可以点击右上角分组进行切换分组:如图

查看自己所属的分组,和退出分组的操作。

  1. 常见问题

配置了点击事件或鼠标移入事件,并提取列表,可是测试结果却只出了其中一个列表的数据,其他数据都是重复的

这是因为每个点击元素下面的列表都是单独的列表,他们的css路径不同,所以这样的列表只能一个一个点击去配置

配置没问题,却测不出结果,或是报某个元素找不到,尝试将页面加载改成异步试试,如果还是不行,就选择一个异步元素

点击一个元素,却怎么也点不中,这个元素可能被包含在iframe里面,请找到iframe的地址,去配置这个iframe页面

正常情况下,点击一个链接会打开一个新的页面,可以用小助手执行点击事件的时候,页面却没有任何反应,请查看浏览器地址栏的右侧,是不是弹窗被阻止了,如果被阻止,点击弹窗中的链接即可。

采云小助手提示有更新的时候,用户需要下载最新的插件zip包,替换正在使用的插件。替换后,需要在浏览器的插件列表,点击刷新一下插件,这样才能更新最新的插件。具体操作如下图:

创建规则的时候,测试的时候正常,在任务里面使用规则的时候,测试不出东西,可以从以下几个方面检查一下规则和任务的配置。

  1. 检查列表规则详情的样例URL和采集任务配置的URL,是不是一致的,把任务里面配置的列表页URL,拷贝替换规则点选页面的url,测试是否能够采集到数据。

  1. 检查规则(任务使用到的列表和正文的规则)是否是异步的,因为如果规则勾选异步以后,测试会比较慢,把异步条件去掉,看是够能采集到数据,如果可以采集到数据,说明不是异步的,就不要勾选异步的条件。



首先检查一下任务的结束和通知的配置,是不是被勾选上了不保存,如下图:

配置列表规则的时候,测试得出结果,继续配置下一个正文页的时候,打开正文的页面一直提示404。 这个时候可以考虑以下两种配置错误:

  1. 首先把原网站点击列表的某个正文的地址拷贝出来,和你配置列表规则测试得到的正文url拷贝出来比对看有什么差异。从差异的地方入手。


设置翻页的方法有3种:

    1. 同步翻页)翻页后,地址比较规律,比如:

第一页的urlhttp://www.ccgp.gov.cn/cggg/zygg/index_1.htm

第二页的urlhttp://www.ccgp.gov.cn/cggg/zygg/index_2.htm

配置翻页的方法:通过列表页URL配置,把url变量部分替换成中括号,如[1-10]。如图:

    1. 同步翻页)翻页后页面整体刷新,可以通过采云小助手配置翻页的元素,之后在任务里面设置翻页次数,比如:

    1. 异步翻页)异步翻页,指的是点击翻页后,页面只有列表局部的数据刷新了,url并没有刷新,这个时候配置方法同1-2,只需要配置翻页元素和翻页页数即可,比如:



同步是指:发送方发出数据后,等接收方发回响应以后才发下一个数据包的通讯方式。 比如: 用户填写所有信息后,提交给服务器,等待服务器的回应(检验数据),是一次性的。信息错误又要重新填写!

异步是指:发送方发出数据后,不等接收方发回响应,接着发送下个数据包的通讯方式。比如:当用户填写完一条信息后,该信息会自动向服务器提交,然后服务器响应客户端,在此过程中,用户依然在填写表格的信息,即向服务器请求多次,节省了用户的时间,提高了用户的体验。

那在采云怎么确认创建某个规则是选择ajax异步还是不选呢?可以通过规则点选测试的结果查看,如果配置完规则后,不勾选异步直接测试,某个字段显示是空的,其他字段可以显示,如下图:

这个时候可以尝试把这个空的字段当成异步字段,

勾选上ajax异步以后,才能采集到这个字段,就可以判断是异步字段:

注意事项:如果不是异步的字段,切记不要勾选异步,因为异步会影响任务执行的效率。

配置采集任务的结束和通知步骤的时候,第三方通知接口的作用是,当这个任务采集到数据的时候, 会请求这个第三方通知接口,并且给这个接口传任务ID,周期和条数等参数。你的平台收到这个通知后,就可以通过采云api接口来拿数据了。所以,这个通知的接口是需要自己的平台开发的接口,不是邮箱的地址。

(通知地址样例:http://你的域名/api?taskid=XX&taskperiod=XX&count=10)


联系我们

感谢您一直以来对采云产品的大力支持!如果有任何问题和建议,欢迎您与我们联系。

联系地址:北京市西城区国英一号大厦13层

邮箱:zhengshun@stonesun-tech.com

电话:13810644035