爬虫 web scraper 爬取 抓取数据 笔记 十三 挖掘58同城客户联系方式

实例:北京租房信息

http://bj.58.com/chuzu/?key=%E7%A7%9F%E6%88%BF&cmcskey=%E7%A7%9F%E6%88%BF&final=1&jump=1&specialtype=gls

点击标题后,跳转的页面,所显示的电话号码。用了一下网页开始要求验证信息了。。。

步骤(通用!!!

1、打开 web scraper

2、创建 sitemap

3、设置 selector (抓取规则)

4、启动抓取程序

5、导出 excel 到本地电脑

只展示重点内容


1、打开 web scraper


2、创建 sitemap


3、设置 selector (抓取规则)

创建一个名称选择器

创建一个价格选择器

创建一个样式选择器

创建一个详情选择器

Link 选择器如果有子选择器,则子选择器会作用域 Link 所指向的页面

(在这里实例中,就是点击标题后进入的网页)

依次打开刚刚创建的选择器


4、启动抓取程序……

由于每一个标题都会打开一个新的网页,所以这个案例抓取数据比之前的都要耗时。


5、导出 excel 到本地电脑……

这里的数据都是乱码,复制粘贴后,也是乱码。不知道什么问题,但是操作流程是没有问题的。

使用修改网页编码的工具也不行


二级页面的抓取方式

1、如果你想抓取某个网页,先创建一个 Link 选择器,抓取它的 URL。

2、在这个新页面,创建 Link 选择器的子选择器,抓取需要的信息。

三级页面的抓取方式

重复上面的 2 步骤

四级页面的抓取方式

重复上面的2步骤

发表评论

zh_CNChinese
zh_CNChinese