写好爬虫的原则只有一条:
就是让你的抓取行为和用户访问网站的真实行为尽量一致
一切都是为了爬虫能够顺利抓取内容。
首先安装fake-useragent库,如果安装失败多安装几次。
pip install fake-useragent
熟悉fake-useragent,获取各浏览器的fake-useragent
from fake_useragent import UserAgent ua = UserAgent() #ie浏览器的user agent print(ua.ie) #opera浏览器 print(ua.opera) #chrome浏览器 print(ua.chrome) #firefox浏览器 print(ua.firefox) #safri浏览器 print(ua.safari) #最常用的方式 #写爬虫最实用的是可以随意变换headers,一定要有随机性。支持随机生成请求头 print(ua.random) print(ua.random) print(ua.random)
示例代码
from fake_useragent import UserAgent import requests ua=UserAgent() #请求的网址 url="http://www.baidu.com" #请求头 headers={"User-Agent":ua.random} #请求网址 res=requests.get(url=url,headers=headers) #响应体内容 print(res.text) #响应状态信息 print(res.status_code) #响应头信息 print(res.headers)