实例:统计知乎张佳玮所有文章标题
https://www.zhihu.com/people/zhang-jia-wei/posts
步骤(通用!!!)
1、打开 web scraper
2、创建 sitemap
3、设置 selector (抓取规则)
4、启动抓取程序
5、导出 excel 到本地电脑
分析
规律分页
规律就是第一页到第n页如下
https://www.zhihu.com/people/zhang-jia-wei/posts?page=1
……
https://www.zhihu.com/people/zhang-jia-wei/posts?page=n
抓取方法
https://www.zhihu.com/people/zhang-jia-wei/posts?page=n
将 start URL 改为:两个数字,前面的一定要比后面的小
https://www.zhihu.com/people/zhang-jia-wei/posts?page=[1-42]
[1-42] 表示从第 1 页到第 42 页
[1-10] 表示从第 1 页到第 10 页
[6-20] 表示从第 6 页到第 20 页
这篇只展示主要内容
修改 start URL 为指定格式
新建 start URL 为指定格式
不同网站规律不同,多点几下不同的页码,注意第一页!!!
知乎:https://www.zhihu.com/people/zhang-jia-wei/posts?page=n
赶集网:http://weinan.ganji.com/fang1/on/
链家网:https://bj.lianjia.com/ershoufang/pgn/
微博:必须登录才能抓取1页之后的页
https://weibo.com/bylixiaolai?is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=1#feedtop
https://weibo.com/bylixiaolai?is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=[1-3]#feedtop
其他规律分页
豆瓣:相邻页 的数字差:20
第 1 ⻚:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T
第 2 ⻚:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T
第 3 ⻚:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T
应该这样设置 start URL :
首页对应的数字:0
末页对应的数字:180
相邻页对应的数字:20 如果是1 可以省略(默认也是省略的)
抓 1-10 页:
https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=[0-180:20]&type=T
不同的网页的规律不同 !!!
如果要抓取一个网站的翻页数据
首先,分析 URL 是否有规律,
如果有规律,就按照本节的方法抓取
如果没有规律,后面会介绍其他的翻页方法。