爬虫 web scraper 爬取 抓取数据 笔记 四 web scraper 原理浅析

web scraper 原理浅析

1、选择器(selector)参数讲解

2、爬虫数据抓取原理(如何应用到所有网页)

3、选中元素顺序原理

4、CSV 文件讲解

5、selector 操作选项讲解

6、sitemap 详情选项讲解


1、选择器(selector)参数讲解

https://www.zhihu.com/people/zhang-jia-wei/posts

1、Element preview : 查看信息是否选中

2.Data preview : 预览抓取数据

3.Multiple : 抓取多个,不选中的话只会抓取一个

4.Delay : 延时、确保数据加载成功 (2000 – 5000)因为网络会有延时


2、爬虫数据抓取原理(如何应用到所有网页)

同类型自动识别


3、选中元素顺序原理

selector 选中元素顺序

自上而下,从 “第一个” 开始 (从第一个选中的元素开始往下依次选中,如果第一个选中的元素是2,则忽略第一个)

从不同角度看

编程 ————— 遍历从当前开始

产品 ————— 用户需要从哪一个开始进行数据的获取


4、CSV 文件讲解

1、zhangjiawei.csv : sitemap name(ID)

2、web-scraper-order : 用于排序

3、web-scraper-start-url : start url

4、title : selector Id


5、selector 操作选项讲解

1、增加

2、删除

3、编辑(查看)


6、sitemap 详情选项讲解

1、Selectors : 显示 Selector 列表

2、Selector graph : Selector 树状结构图

3、Edit metadata : 修改 sitemap name 和 start url

4、Scrape : 开始抓取程序

5、Browse : 浏览抓取结果

6、Export Sitemap : 导出 sitemap 设置

7、Export data as csv : 导出抓取结果 csv 文件到本地电脑

1、Selectors : 显示 Selector 列表

2、Selector graph : Selector 树状结构图

3、Edit metadata : 修改 sitemap name 和 start url

4、Scrape : 开始抓取程序

5、Browse : 浏览抓取结果 返回到 Selectors 然后点击 Browse

6、Export Sitemap : 导出 sitemap 设置

7、Export data as csv : 导出抓取结果 csv 文件到本地电脑

 

发表评论

zh_CNChinese
zh_CNChinese