爬虫 web scraper 爬取 抓取数据 笔记 四 web scraper 原理浅析
web scraper 原理浅析
1、选择器(selector)参数讲解
2、爬虫数据抓取原理(如何应用到所有网页)
3、选中元素顺序原理
4、CSV 文件讲解
5、selector 操作选项讲解
6、sitemap 详情选项讲解
1、选择器(selector)参数讲解
https://www.zhihu.com/people/zhang-jia-wei/posts
1、Element preview : 查看信息是否选中
2.Data preview : 预览抓取数据
3.Multiple : 抓取多个,不选中的话只会抓取一个
4.Delay : 延时、确保数据加载成功 (2000 – 5000)因为网络会有延时
2、爬虫数据抓取原理(如何应用到所有网页)
同类型自动识别
3、选中元素顺序原理
selector 选中元素顺序
自上而下,从 “第一个” 开始 (从第一个选中的元素开始往下依次选中,如果第一个选中的元素是2,则忽略第一个)
从不同角度看
编程 ————— 遍历从当前开始
产品 ————— 用户需要从哪一个开始进行数据的获取
4、CSV 文件讲解
1、zhangjiawei.csv : sitemap name(ID)
2、web-scraper-order : 用于排序
3、web-scraper-start-url : start url
4、title : selector Id
5、selector 操作选项讲解
1、增加
2、删除
3、编辑(查看)
6、sitemap 详情选项讲解
1、Selectors : 显示 Selector 列表
2、Selector graph : Selector 树状结构图
3、Edit metadata : 修改 sitemap name 和 start url
4、Scrape : 开始抓取程序
5、Browse : 浏览抓取结果
6、Export Sitemap : 导出 sitemap 设置
7、Export data as csv : 导出抓取结果 csv 文件到本地电脑
1、Selectors : 显示 Selector 列表
2、Selector graph : Selector 树状结构图
3、Edit metadata : 修改 sitemap name 和 start url
4、Scrape : 开始抓取程序
5、Browse : 浏览抓取结果 返回到 Selectors 然后点击 Browse
6、Export Sitemap : 导出 sitemap 设置
7、Export data as csv : 导出抓取结果 csv 文件到本地电脑