在用谷歌语法搜索有某些特征的链接时,如果想把这些链接全部保存起来,这个时候就可以使用爬虫技术,爬取这些链接保存下来。下面就来分析并写出这个爬虫程序。
网页分析
分析搜索链接
每页的网页链接格式,一般都有固定的链接格式,如百度的每页搜索结果链接是只取两个个参数的结果是这样,每页10条1https://www.baidu.com/s?wd=ctf&pn=10
分析搜索页面中的链接
F12对当前页面分析每个链接的特点,百度搜索有点坑,你会发现百度都是通过一个长长的链接302跳转来访问的,随便选取一个链接都是这种1a target="_blank" href="你搜索的URL" class="c-showurl" style="text-decoration:none;">www.php.net/downloa...php
特征就是class=”c-showurl” 属性值,用bs库去获取所有有这个属性的tagres = soup.find_all(name=”a”, attrs={‘class’:’c-showurl’})
访问链接
访问跳转链接获取实际网站url,title之类的信息
爬虫实现
|
|