爬虫 web scraper 爬取 抓取数据 笔记 十二 一键采集微博所有评论,监测用户兴趣点

实例:得到 APP 用户意见反馈微博

https://weibo.com/5745019302/DCC6EAQdO?type=comment#_rnd1529984083763

步骤(通用!!!

1、打开 web scraper

2、创建 sitemap

3、设置 selector (抓取规则)

4、启动抓取程序

5、导出 excel 到本地电脑

只展示重点内容


分析翻页规律

第一页:https://weibo.com/5745019302/DCC6EAQdO?type=comment#_rnd1529984083763

第二页:https://weibo.com/5745019302/DCC6EAQdO?type=comment#_rnd1548910673113

第三页:https://weibo.com/5745019302/DCC6EAQdO?type=comment#_rnd1548910699656

满足 2 个条件,可用本篇的翻页抓取方式

1、网页的 URL 无规律

2、可以点击“页码”翻页


3、设置 selector (抓取规则)

Element click 也是 Element(结构体)

只是多了一个鼠标点击翻页的功能

所以,如果要用它抓取数据,也需要创建一个子选择器


4、启动抓取程序……


5、导出 excel 到本地电脑……

微博会过滤一部分评论,所以抓取的数据会和显示的评论数不一致


Click more —-》Unique CSS Selector(下拉,点击,下拉,点击)

Click more —-》Unique Text

发表评论

zh_CNChinese
zh_CNChinese