标签:Python
把response的字节流转换成字典
data = response.contentfrom ast import literal_evaldata = data.decode(“utf8”)data = literal_eval(data)……
Python for输出转为list
直接上代码啦~res=[]for name in name: res = name res.append(name_str)res = resprint(type(res))……
Python dict字典转txt
直接上代码啦~filename = open('C:/Users/ch2277/Desktop/7.txt','w')#dict转txtdict = dict(zip(res_list,content_list))for dict_key, dict_value in dict.items(): ……
使用opencv检测Python中程序效率
涉及到的函数主要有两个:1.cv2.getTickCount()函数返回从参考点到这个函数被执行的时钟数。所以当你在一个函数前后都调用它的话,你就会得到这个函数的执行时间(时钟数)。2.cv2.getTickFrequency()返回时钟频率,或者说每秒钟的时钟数。# -*- coding: utf-8 -*-import cv2impo……
Could not resolve URL for hyperlinked relationship using view name “store-detail”. You may have fail
djangorestfremework报错:Could not resolve URL for hyperlinked relationship using view name “store-detail”. You may have failed to include the related model in your API, or incorrectl……
Python Ping域名返回IP值
单个域名检测IPimport socketdef getIP(domain): myaddr = socket.getaddrinfo(domain, 'http') print(myaddr[0][4][0])getIP("www1.baidu.com")多个域名检测I……
Python 字符串(str)、列表(list)、字典(dict)互相转换
字符串(str)和列表(list)互相转换字符串(str)转列表(list)1.整体转换str1 = 'hello world'list1 = str1.split('这里传任何字符串中没有的分割单位都可以,但是不能为空')print(list1)print(type(list1))#输出结果……
Python中使用.format()自定义变量
在爬取中,如果链接是有规则的增加+1。使用.format()非常方便for i in range(1,10): num = i url = "https://cchheenn.com/index.php?chaps={}".format(num); # 需要请求的网址 print(url)输出结……
Python爬虫伪造随机的请求头User-Agent
写好爬虫的原则只有一条:就是让你的抓取行为和用户访问网站的真实行为尽量一致一切都是为了爬虫能够顺利抓取内容。首先安装fake-useragent库,如果安装失败多安装几次。pip install fake-useragent熟悉fake-useragent,获取各浏览器的fake-useragentfrom fake_useragen……
python中获取文本/text和//text的区别
/text()和//text()用法一样,都是在获得标签后面写上即可,不过/text()获取的是标签的文本内容, //text()获取标签以及子标签下的文本内容。……
解决pip安装时速度慢的问题
国内源新版ubuntu要求使用https源,要注意。清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pyp……
Scrapy Cookie模拟登陆
以登陆wordpress为例,如何获取Cookies,登陆之后开发者模式,找到请求的页面寻找Cookies,这里要注意需要把Cookie转换成python 字典(dict)形式。传送门网址:Cookie信息转化为字典格式 cookies = {"wordpress_sec_62da0086f543a3a2b2b9ca0……
Scrapy帐号密码模拟登陆
以登陆wordpress为例 def start_requests(self): formdata = { "log": "帐号", "pwd": "密码" ……
BeautifulSoup、lxml、正则表达式三大解析工具对比
三大解析工具对比解析工具解析速度使用难度BeautifulSoup最慢最简单lxml快简单正则表达式最快最难BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何 解析和提取 HTML/XML 数据。 lxml 只会局部遍历,……
SyntaxError: Non-UTF-8 code starting with ‘\xbd’ in file解决方法
Python报错SyntaxError: Non-UTF-8 code starting with '\xbb' in file C:/Users/chen/PycharmProjects/scrapy/test.py on line 2, but no encoding declared; see http://python.or……
Python如何生成词云
今天记录了下利用Python如何生成词云。需要安装:wordcloud、matplotlib、jiebawordcloud是什么?词云,在一段文本中提取关键词进行扁平化的展示,更能吸引目标客户的眼球。市面上有很多在线生成词云的工具,本文以Python中的第三方库wordcloud为例讲解如何自动生成词云图Matplotlib 是 Python 的绘……
Scrapy爬虫数据存入到MySql数据库
主要是两个文件~pipelinesfrom twisted.enterprise import adbapiimport pymysqlclass Www0577HomePipeline(object): def __init__(self,mysql_config): self.dbpool = adbapi……
Scrapy数据生成json文件或者txt文档
在pipelines.py中引入Jsonimport json def __init__(self): self.file = open('jj.json','w') def process_item(self, item, spider): item = ……
Python的Requests库和Urllib包对比
前言学习Python中先学习了urllib包,后学习了Requests库。记录一下,Requests库和Urllib包的差别。正文Python中有多种库可以用来处理Http请求,比如python的原生库:urllib包、requests类库。urllib和urllib2是相互独立的模块,python3.0以上把urllib和urllib2合并成一个库了……
Scrapy框架get() 、getall() 、extract() 、extract_first()的区别
官方解释说明extract() and extract_first()If you’re a long-time Scrapy user, you’re probably familiar with .extract() and .extract_first() selector methods. Many blog posts and tutor……
‘gb2312’ codec can’t decode byte 0x89 in position
解决方式一:‘gb2312′,’ignore’解决方式二:可尝试编码: gb18030……
Python爬虫request库总结
Requests介绍官方文档:http://cn.python-requests.org/zh_CN/latest/安装Requestspip install requests使用方法import requests //输入requests库url="网址" //网址替换成需要爬虫的网页地址r=reques……