网页数据抓取(全面的网页数据抓取教程)

Hello,大家好,今天跟大家分.享下我们如何批量的抓取网页中的数据,以抓取汽车投诉量跟大家分.享下如何批量抓取网页中的数据,这也是一个粉丝问道的问题,他准备买车想看下各个厂家的投诉量如何。话不多说,我们直接开始吧。如果你是进来了解各厂家的投诉量以及投诉的车型排名的,直接拉到最后即可

网页数据抓取(全面的网页数据抓取教程)

一、分析网页

我们以抓取车质网的汽车投诉为例跟大家演示下如何批量抓取数据,如下图,分别是第一页到第三页的网址,我们可能看到这三页的网址,仅仅只有标红的123也就是对应的页码是不一样的,其余的都是一样的

网页数据抓取(全面的网页数据抓取教程)

二、抓取数据

紧接着我们打开excel,然后点击数据功能组找到自网站,我们点击高级选项然后将代表页码的数字单独放置在一个输入框内,可以通过点击添.加部件来添.加输入框,当设置完毕后我们直接点击确定

这样的话我们就进入导航器的界面,在这个网页中power query一共抓取到了两个内容,我们可以点击看下具体哪个是我们需要的数据,在这里table0就是我们想要抓取的数据,直接选择table0这个选项然后点击转换数据即可,这样的话我们就进入了powerquery的编辑界面

网页数据抓取(全面的网页数据抓取教程)

紧接着我们点击高级编辑器在let前面输入(x as number) as table =>然后将网址中的“1”更改为(Number.ToText(x))直接点击完成即可

网页数据抓取(全面的网页数据抓取教程)

这样的话我们就将我们前面的操作封装成了一个函数,我们只需输入对应的数字,然后点击调用就会跳到对应页码的数据

网页数据抓取(全面的网页数据抓取教程)

紧接着我们点击左边的一个空白的区域,点击鼠标右键选择新建查询,在其中找到其他源然后选择空查询,接着我们在编辑栏中输入={1..100}点击回车,这样的话我们就得到一个1到100的 序列,然后点击到表,将查询转换为表,直接点击确定即可

网页数据抓取(全面的网页数据抓取教程)

紧接着选择添.加列,然后找到自定义函数在功能查询中选择table0,直接点击确定即可,这样话power query就会开始抓取数据,在这里我们抓取的100页的网页数据,这个过程可能会比较漫长,在这里我大概耗时3分钟,抓取完成后每个序列的后面都会得到一个table我们点击左右反向的箭头来扩展数据,将使用原始列名前面的对勾去掉,然点击确定,将我们添.加的序列删除,这样的话就完成了,我们只需在开始中选择关闭并上载至即可将数据加载进Excel中,因为数据比较多,这个过程也会耗费比较多的时间,在这里我耗时大概1分钟

网页数据抓取(全面的网页数据抓取教程)

三、统计分析

当数据加载进Excel中我们就可以通过数据透视表来的快速的分析数据,如下图是根据在车质网的投诉记录中抓取到的3000条数据然后通过数据透视表得到了投诉品牌以及投诉车系的排名,在这里3000条数据将近1个月的投诉量

网页数据抓取(全面的网页数据抓取教程)

以上就是我们批量抓取100页网页数据的方法以及各厂家的投诉排名,整个过程做起来耗时大概在7分钟左右,大部分时间都花费在数据的抓取与加载中。

怎么样?你学会了吗?赶快动手试试把

效率技巧

wps文档(免费下载和使用教程)

2024-2-4 10:45:21

效率技巧

夸克浏览器网页版(高速稳定、功能强大的网页浏览器推荐)

2024-2-4 10:54:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
有新私信 私信列表
搜索