爬虫 web scraper 爬取 抓取数据 笔记 九 自动翻页,躺着也能获得数据

实例:统计知乎张佳玮所有文章标题

https://www.zhihu.com/people/zhang-jia-wei/posts

步骤(通用!!!

1、打开 web scraper

2、创建 sitemap

3、设置 selector (抓取规则)

4、启动抓取程序

5、导出 excel 到本地电脑


分析

规律分页

规律就是第一页到第n页如下

https://www.zhihu.com/people/zhang-jia-wei/posts?page=1

……

https://www.zhihu.com/people/zhang-jia-wei/posts?page=n

抓取方法

https://www.zhihu.com/people/zhang-jia-wei/posts?page=n

将 start URL 改为:两个数字,前面的一定要比后面的小

https://www.zhihu.com/people/zhang-jia-wei/posts?page=[1-42]

[1-42] 表示从第 1 页到第 42

[1-10] 表示从第 1 页到第 10

[6-20] 表示从第 6 页到第 20


这篇只展示主要内容

修改 start URL 为指定格式

新建 start URL 为指定格式

不同网站规律不同,多点几下不同的页码,注意第一页!!!

知乎:https://www.zhihu.com/people/zhang-jia-wei/posts?page=n

赶集网:http://weinan.ganji.com/fang1/on/

链家网:https://bj.lianjia.com/ershoufang/pgn/

微博:必须登录才能抓取1页之后的页

https://weibo.com/bylixiaolai?is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=1#feedtop

https://weibo.com/bylixiaolai?is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=[1-3]#feedtop

其他规律分页

豆瓣:相邻页 的数字差:20

第 1 ⻚:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

第 2 ⻚:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T

第 3 ⻚:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T

应该这样设置 start URL :

首页对应的数字:0

末页对应的数字:180

相邻页对应的数字:20 如果是1 可以省略(默认也是省略的)

抓 1-10 页:

https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=[0-180:20]&type=T

不同的网页的规律不同 !!!

如果要抓取一个网站的翻页数据

首先,分析 URL 是否有规律,

如果有规律,就按照本节的方法抓取

如果没有规律,后面会介绍其他的翻页方法。


发表评论

zh_CNChinese
zh_CNChinese