如何获取数据 数据采集的方法和技巧?

如何获取数据 数据采集的方法和技巧?,第1张

八爪鱼数据采集器的内置功能比较多,一时半会难以说完,只能根据你 的实际使用需求来,能满足你的需求就够了,其他的功能对于你来说就都是多余的,但是你慢慢研究你会发现他有多强大,简直无所不能!处处给你惊喜。

下面我简单说一下:

1 入门词汇介绍

111 积分

分是用来支付八爪鱼增值服务的一种方式,主要的用途包括:通过八爪鱼采集器采集并导出数据,在规则市场下载规则,在数据市场下载数据包,不同的账号类型在

使用上述增值服务时会有不同的收费策略,具体的收费策略和区别在下面版本说明里面有详细的解释。积分可以通过八爪鱼官方购买专业版或者旗舰版每月赠送,也

可以单独购买积分,还可以通过关注,签到,分享规则,关注微信,绑定社交账号等多种方式获得。

112 规则

规则是八爪鱼用来配置程序按照人工操作流程记录的一条程序规则,当软件配置好的则的时候,则可以按照您所配置的规则进行数据的采集,代替人工步骤。

113 云加速

八爪鱼系统是通过分布式集群部署的方式,每个集群由数量庞大的云节点组成,单个节点的采集能力相当于一台PC机的采集能力,通过八爪鱼后台的版本资源分配策略,分配到多少个云节点资源就享有几倍的加速,版本高的账户有更高的加加速倍数。

114 云优先

如果是多用户共享一个云集群的资源,一个集群的规模大小是有上限的,如果同一时间提交云集群任务过多,造成资源拥堵,那么根据用户账号版本的不同,八爪鱼系统会进行默认排序,版本高的,优先级高,将有优先获得资源分配的权益。暂时未分配到资源的任务将进行排队轮候。

115 URL

URL指正常网站的网址。

116 单机采集

单机采集是指不占用云集群的资源,只能通过八爪鱼客户端所在的PC进行工作,在工作期间,需要电脑和软件都处于运行状态,电源中断或者网路中断都会导致数据采集任务的中断

117 云采集

采集是指通过使用八爪鱼提供的服务器集群进行工作,该集群是724小时的工作状态,在客户端将任务设置完成并提交到云服务执行进行云采集之后,可以关闭

软件,关闭电脑进行脱机采集,真正的实现无人值守。除此之外云采集通过云服务器集群的分布式部署方式,多节点同时进行作业,可以提高采集效率,并且可以高

效的避开各种网站的IP封锁策略。

118 定时采集

定时采集指的是用户在设定好八爪鱼的采集规则时,定时的启动 采集程序。

119 URL循环

URL循环是指设定八爪鱼在制定的URL网址里面循环采集。

1110 自动导出

自动导出是指用户在设定好导出

1111 Cookie

1)

Cookie诞生

当某个用户打开浏览器发出页面请求时,web服务器只是进行简单相应,然后就关闭与该用户的连接。所以当用户每发起一个打开网页请求到web服务器的时

候,无论是否是第一次打开同一个网页,web服务器都会把这个请求当作第一次来对待,那这样的缺陷可想而知,比如每次打开登录页面的时候都需要输入用户

名、密码。为了弥补这个缺陷,Cookie应运而生。

2) Cookie概述

Cookie就是服务器暂时存放在你计算机上的一笔资料,好让服务器来辨认你的计算机。当你在浏览网站的时候,web服务器会先送出小小资料放在你的计算

机上,cookie会帮你在网站上所打的文字(如用户名、密码)和其他一些操作都记录下来。当下次你再打开同一个网站。web服务器会先看看有没有它上次

留下的cookie资料,有的话就会依据cookie的内容来判断使用者,送出特定的网页内容给你。

3) Cookie工作原理

1112 XPATH

XPATH:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。

XPATH专用于XML中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对HTML的XPATH引擎,使得直接用XPATH就能精准的查找定位网页里面的数据。

1113 HTML

1)

HTML概念

HTML:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。

2) HTML结构

完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标

签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以

设置页面的背景色、背景图像等。

2 八爪鱼基本流程教程

21 打开网页

该步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。

1) 网页地址

网址,一般可以从网页浏览器如IE等的地址栏中复制得到,如:http://wwwskieercom

2) 使用当前循环项

配合循环骤来使用,用以重复打开多个类似的网页,然后执行同样的一套流程,循环打开网页时,应为作为循环步骤的第一个子步骤。 如果勾选此项,则无需手动设置网页地址,网页地址会自动显示循环设定的网址列表的当前循环项。

3) 阻止弹出窗口

用以屏蔽网页弹窗广告,如果打开的网页偶尔会变成另外一个广告页面,则可以使用本选项阻止广告页面弹出。

4) 超时

在网页加载完成前等待的最大时间,如果网页打开缓慢,或者长时间无法打开,则流程最多等待超时指定的时间,之后无论网页是否加载完成,都直接执行下一步骤,应尽量避免设置过长的超时时间,因为这会影响采集速度。

5) 滚动到底部

个别网页在打开网页后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部

6) 激活重试

如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。

7) 结果页面网址包含

如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500htm等,则使用此选项可以判断没有打开预期页面,需要重试

8) 结果页面文本包含

如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试

9) 结果页面文本不包含

如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试

10) 最大重试次数

为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

11) 重试间隔

在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度

22 点击元素

该步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮,点击超链接等。

1) 使用当前循环项

合循环步骤来使用,用以重复点击循环中设置的多个元素,适用于循环单个固定元素,循环固定元素列表,循环可变元素列表。

如果勾选此项,则无需设置点击的元素,要点击的元素会自动显示循环设定的当前循环项,使用该选项时,应当作为循环步骤的子步骤,但不必是第一个子元素。

2) 新标签页中打开

果点击元素时希望在新的标签页中打开,而不是在当前页打开,请勾选此选项。

一般情况下,在需要循环打开一个页面上的多个超链接时,需要勾选此选项以便保留列表页面,以便点击列表页上的下一个超链接;但是如果是循环点击下一页时,

则不要勾选此选项,以在当前页面打开下一页。

3) 滚动到底部

个别网页在加载完成后并没有显示所有数据,需要滚动鼠标滚轮或者拖动页面滚动条到底部,才会加载没有显示的数据,使用此选项在页面加载完成后滚动到底部

4) 异步加载数据

异步加载也叫Ajax,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤, 使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用

5) 异步加载超时

等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用,通常使用本选项时,不能勾选“新标签页中打开”

6) 激活重试

如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。

7) 结果页面网址包含

如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500htm等,则使用此选项可以判断没有打开预期页面,需要重试

8) 结果页面文本包含

如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试

9) 结果页面文本不包含

如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试

10) 最大重试次数

为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

11) 重试间隔

在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度

23 输入文本

本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。

将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。

24 提取数据

本步骤根据提取数据模板的配置,从网页中提取数据,同时还可配置为提取网址,网页标题,或者生成一些数据如当前时间等。

1) 抓取模板

本步骤根据提取数据模板的配置,从网页中提取数据,同时还可配置为提取网址,网页标题,或者生成一些数据如当前时间等。

2) 名字

给抓取的数据字段取个别名,如新闻标题,新闻正文

3) 提取到的数据

从网页上提取到的数据,将会在本列显示所抓取到的示例

4) 描述

对本数据字段的一些描述信息

5) 使用当前循环项

合循环步骤来使用,用以重复的从循环中设置的多个元素中提取数据,适用于循环单个固定元素,循环固定元素列表,循环可变元素列表。

如果勾选此项,会从循环所设置的元素中根据抓取规则提取出示例数据,使用该选项时,提取数据步骤应当作为循环步骤的子步骤,但不必是第一个子元素。

25 循环

1) 本步骤用来重复执行一系列步骤,根据配置不同,支持多种模式。

循环固定单个元素,例如循环点击每一页中的下一页按钮;

2) 循环固定列表,例如循环处理一个页面中指定的多个元素;

3) 循环可变列表,当需要循环处理多个页面,但是每个页面上要处理的元素数量不固定时使用;

4) 循环网址列表,主要用来循环打开一批指定网址的网页,然后执行同样的处理步骤。

1) 循环注意事项

1) 元素在IFRAME里

如果循环中设置的元素在IFRAME里,请勾选此项,并在后面的IFAMEXPah中填写IFRAME的XPATH

2) IFAMEXPah

元素所在IFRAME的路径,只有当勾选'元素在IFRAME里'时这个设置才会生效。

3) 固定的一个元素

循环的对一个元素进行特定操作,如循环点击下页,下翻下拉列等,当翻到最后一页或下拉列表已到最后一项时,会自动结束当前循环。

4) 固定的元素列表

逐个的对列表中的元素进行特定操作,如循环点击、从中提取数据、将鼠标悬停在元素上,当所有元素循环完毕时,会自动结束当前循环。

5) 动态元素列表

当元素列表不是固定的,可指定一个动态路径(多个元素都符合此路径,即可以根据此路径定位到多个元素),系统会根据指定路径先找到一个元素列表,然后执行跟‘固定的元素列表’一样的操作。

6) URL列表

配合打开网页操作作用,指定一个URL列表,确保循环里面的打开网页操作的使用当前循环项标识已勾选,以逐个的打开URL列表中的连接。

7) 循环执行次数等于

在执行到指定次数时退出循环

26 翻下拉列表

步骤用于切换下拉列表

1) 从option顺序/到option顺序

默认为空,代表从下拉列表第一个顺序切换,直到最后一个,但有时需要跳过第一个选项,从第二个或者中间某个位置开始切换下拉列表,

使用这两个选项可以控制切换的起始和结束顺序,例如,假设下拉选项有5个,需要从第2个顺序切换到第4个,则“从option顺序”设置为2,“到

option顺序”设置为4。

2) 跳过值/到值

默认为空,表示按照设定,顺序切换下拉列表,但如果切换中需要跳过某个下拉项,则使用此设置,可以控制跳过的范围,

例如,假设下拉列表有5个选项,值分别是10、11、12、13、14,如果需要跳过12,则设置“跳过值”为12,如果需要跳过12、13,则设置“跳

过值”为12,“到值”设置为“13”。

3) 使用当前循环项

配合循环步骤来使用,用以重复的循环中的指定的下拉列表切换到下一个选项。

4) 异步加载数据

异步加载也叫Ajax,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤,

使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续流程步骤。本选项需要配合异步加载超时使用

5) 异步加载超时

等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用。

6) 激活重试

如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,

但必须配合以下几个重试参数执行,请注意以下几种判断的情况任意一种出现都会导致重试。

7) 结果页面网址包含

如果出现的页面网址中总是出现某个特殊的字符串,例如网页找不到时一般会出现500htm等,则使用此选项可以判断没有打开预期页面,需要重试

8) 结果页面文本包含

如果出现的页面文字中中总是出现某个特殊的字符串,例如"访问频率太快",则使用此选项可以判断没有打开预期页面,需要重试

9) 结果页面文本不包含

如果正常打开网页一定会出现某个特殊的字符串,但没有正常打开的时候一定不会出现该字符串,则可以据此判断判断没有打开预期页面,需要重试

10) 最大重试次数

为了避免无限制重复尝试,请示用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤

11) 重试间隔

在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等

待时间,因为这会影响采集速度

27 条件分支

本步骤会从左到右选择第一个符合条件的分支,并执行该分支

1) 总是

不设置任何判定条件,该分支总是符合执行条件

2) 当页面中包含文本

当页面中包含指定文本是,该分支符合执行条件

3) 当页面中包含元素

当页面中包含指定元素时,该分支符合执行条件,配合元素XPATH使用

4) 元素XPATH

判定条件元素的XPATH路径

5) 在IFRAME里

如果判定条件元素在IFRAME里,请勾选此项,并在后面的IFAMEXPah中填写IFRAME的XPATH

6) IFAMEXPah

元素所在IFRAME的路径,只有当勾选'元素在IFRAME里'时这个设置才会生效。

28 鼠标悬停

本步骤用于将鼠标悬停在指定元素上。

1) 使用当前循环项

配合循环步骤来使用,用以重复的将将鼠标悬停循环中指定的元素上,然后执行下面的流程。

2) Ajax加载数据

Ajax

也叫异步加载,是一种无需重新加载网页就能刷新局部数据的技术,因此流程不能检测到网页加载完成,就不能决定何时该执行下一个步骤。

很多网页会在鼠标悬停在某些元素上时异步加一些数据,并在页面上显示。使用此选项,流程会在等待设定的超时时间后默认数据已经加载完成,从而继续执行后续

流程步骤。本选 项需要配合异步加载超时使用

3) 异步加载超时

等待异步加载完成的时间,在点击元素之后,流程会开始计时,超时时间到达后,执行下一个流程步骤。本选项需要配合异步加载使用。

29 如何下载采集规则

了避免配置采集规则的重复工作,八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。

使用规则市场下载规则的好处显而易见,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。

下载规则需要使用八爪鱼采集器,具体操作步骤:打开八爪鱼采集器->采集规则->规则市场。

30 如何使用规则

1)

使用从规则市场下载的规则

一般从规则市场下载的规则是otd为后缀的规则文件,4以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。

手动导入方式:八爪鱼规则文件(OTD)直接双击即可打开导入向导,或者打开八爪鱼采集器, 快速开始 ->

导入规则,然后按照向导提示导入规则。 但有时候会下载到zip为后缀的压缩文件,压缩文件解压后包含多个otd规则文件,需要先解压,然后导入。

2) 使用接收到的规则

使用邮件或者其他即时通讯软件接受到的规则,可以参考上一节说明,手动导入。

首先爬虫分为爬取移动APP数据和网站数据,主要方法都是一致,但细节上有点区别。

拿爬取网站数据分析:

1用浏览器开发者工具的Network功能分析对应的数据接口或者查看源代码写出相应的正则表达式去匹配相关数据

2将步骤一分析出来的结果或者正则用脚本语言模拟请求,提取关键数据。这中间可能牵扯多个请求接口,而且一般要做数据签名以及数据加密,这一块需要找到对应js文件分析算法。

爬取一个网站数据大致就以上两步,当然细节还有很多,比如模拟请求头,请求方式以及请求体。如果你是爬取移动APP数据,那就还要牵扯抓包分析,软件砸壳反编译等等,相对来说APP爬虫要复杂一点。

数据是当今社会中最为重要的资源之一,而获取数据是进行数据分析和决策制定的前提条件。因此,数据采集成为了企业、组织和个人必须要掌握的一项技能。本文将介绍一些常见的数据采集方法和技巧。

数据抓取工具是一种自动化的数据采集软件,可以通过简单的配置实现对目标网站的数据采集。常用的数据抓取工具有Octoparse、ParseHub、WebHarvy等。使用数据抓取工具可以不需要编程技能,快速地获取目标网站的数据。

一、网络爬虫

四、数据交换

网络爬虫是一种自动化的数据采集方法,通过程序模拟人类浏览器的行为来获取网络上的数据。网络爬虫可以获取网页上的文本、、视频等各种数据。使用网络爬虫采集数据需要掌握一定的编程技能,可以使用Python、Java、PHP等语言来编写爬虫程序。

数据交换是一种合作的方式,可以通过与数据提供方进行协商,获取他们的数据。数据交换需要建立信任关系,需要保证数据的安全性和隐私性。

数据收集的四种常见的方式包括问卷调查、查阅资料、实地考查、试验,几种方法各有各的又是和缺点,具体分析如下。

一是问卷调查。问卷调查是数据收集最常用的一种方式,因为它的成本比较低,而且得到的信息也会比较全面。但是问卷调查所得到的答案通常是没有针对性的,也就是说,对问卷调查所收集到的数据要进行进一步的分析。并且以前问卷调查推广的时间会比较慢,因为很耗人力。但是现在网上有很多问卷调查的网站,如果通过问卷调查网站收集数据的话,那么会更方便快速一些。所以问卷调查操作方便,缺点是数据没有针对性,无法得到深层次的数据。

二是查阅资料。查阅资料是最古老的数据收集的方式,通过查阅书籍,记录等资料来得到自己想要的数据。在这个数据收集的过程中,本来就有筛选性和分析性,也就是说,查阅资料所得到的数据,相对而言,可能更接近你想要得到的结果。现在不管是图书馆还是网络查询,都是非常方便的,给查阅资料提供了很好的环境。查阅资料的缺点是对操作者的要求很高,并且现在资料繁琐真假参半,需要有很高的判断力。

三是实地考查。实地考察就是到指定的地方去做研究 。指为明白一个事物的真相,势态发展流程,而去实地进行直观的,局部进行详细的调查。在考察过程中,要随时对自己观察到的现象进行分析,努力把握住考察对象的特点。这种收集数据的方式就比较耗时耗力,并且也需要大家的配合。这种收集方式的优点是可以第一时间得到第一手的资料,缺点就是可能没有办法达到你想要的目标,因为考察过程中变数也是很大的。

四是实验。实验设计数据是四种方法中最耗时间的一种,因为它是通过各种各样的实验来得到一个统一的方向,也就是说,在这个过程中,可能有无数次的失败。但是实验得到的数据是最准确的,而且可能会推动某个行业的进步。所以,实验收集数据的优点是数据的准确性很高,而他的缺点就是未知性很大,不管实验的周期还是实验的结果都是不确定性的。

随着科技的发展和大数据时代的到来,收集数据越来越容易,而大家也应该更注重于保护和利用数据。

八爪鱼采集器提供了两种方式来采集淘宝数据:模板采集和自定义采集。模板采集是八爪鱼内置的采集规则,只需填写简单参数即可调用,节省时间和精力。自定义采集则可根据个人需求设置,抓取所需数据。您可以参考自定义入门教程,系统学习八爪鱼,快速上手,采集事半功倍。八爪鱼电商采集覆盖全球主流电商平台数据,涵盖90%以上数据类型及字段,帮助用户进行价格监控、电商选品、竞品分析、消费者洞察等。请前往官网了解更多详情。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 如何获取数据 数据采集的方法和技巧?

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情