- 获取当前日期和时间:datetime.now()
- 加减当前时间:now + timedelta(days=2, hours=12)
>>> from datetime import datetime
>>> dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
>>> dt.timestamp() # 把timestamp转换为datetime1429417200.0
# Python的timestamp是一个浮点数。如果有小数位,小数位表示毫秒数。 某些编程语言(如Java和JavaScript)的timestamp使用整数表示毫秒数,这种情况下只需要把timestamp除以1000就得到Python的浮点表示方法。
|
- namedtuple: 创建一个自定义的tuple对象
>>> from collections import namedtuple
>>> Point = namedtuple(‘Point’, [‘x’, ‘y’]) >>> p = Point(1, 2) >>> p.x
1
|
- deque: 为了高效实现插入和删除操作的双向列表,适合用于队列和栈
>>> from collections import deque
>>> q = deque([‘a’, ‘b’, ‘c’]) >>> q.append(‘x’) >>> q.appendleft(‘y’) >>> q
deque([‘y’, ‘a’, ‘b’, ‘c’, ‘x’])
>>> q.pop()
>>> q
deque([‘y’, ‘a’, ‘b’, ‘c’])
>>> q. popleft()
>>> q
deque([ ‘a’, ‘b’, ‘c’])
|
- defaultdict: 使用dict时,如果引用的Key不存在,就会抛出KeyError。如果希望key不存在时,返回一个默认值,就可以用defaultdict
>>> from collections import defaultdict
>>> dd = defaultdict(lambda: ‘N/A’)
>>> dd[‘key1’] = ‘abc’
>>> dd[‘key1′] # key1存在’abc’
>>> dd[‘key2′] # key2不存在,返回默认值’N/A’
|
- OrderedDict: 保持Key的顺序,可以用OrderedDict(按插入序)。 OrderedDict可以实现一个FIFO(先进先出)的dict,当容量超出限制时,先删除最早添加的Key
>>> from collections import OrderedDict
>>> d = dict([(‘a’, 1), (‘b’, 2), (‘c’, 3)]) >>> d # dict的Key是无序的 {‘a’: 1, ‘c’: 3, ‘b’: 2} >>> od = OrderedDict([(‘a’, 1), (‘b’, 2), (‘c’, 3)]) >>> od # OrderedDict的Key是有序的
OrderedDict([(‘a’, 1), (‘b’, 2), (‘c’, 3)])
|
- Counter:计数器,也是dict的子类,如统计字母出现的次数,类似于Wordcount
>>> from collections import Counter
>>> c=Counter
>>> c(‘Programming’) Counter({‘r’: 2, ‘m’: 2, ‘g’: 2, ‘P’: 1, ‘a’: 1, ‘o’: 1, ‘i’: 1, ‘n’: 1}) |
>>> struct.unpack(‘<ccIIIIIIHH’, s)
(b’B’, b’M’, 691256, 0, 54, 40, 640, 360, 1, 24)
|
import hashlib
md5 = hashlib.md5() print(md5.hexdigest()) |
- count()会创建一个无限的迭代器,count(1)从1开始的迭代器
for n in itertools.count(1): print(n) if n==10: break |
- cycle()会把传入的一个序列无限重复下去
for c in itertools.cycle(‘abc’): print(c) i+=1 if i==10: break |
- repeat()负责把一个元素无限重复下去,不过如果提供第二个参数就可以限定重复次数
for n in itertools.repeat(‘a’,3): print(n) |
- chain()可以把一组迭代对象串联起来,形成一个更大的迭代器:
for c in itertools.chain(‘ABC’, ‘XYZ’): print(c) # 迭代效果:’A’ ‘B’ ‘C’ ‘X’ ‘Y’ ‘Z’ |
- groupby()把迭代器中相邻的重复元素挑出来放在一起:
>>> for key, group in itertools.groupby(‘AAABBBCCAAA’): … print(key, list(group)) … A [‘A’, ‘A’, ‘A’] B [‘B’, ‘B’, ‘B’] C [‘C’, ‘C’] A [‘A’, ‘A’, ‘A |
(DOM和SAX) DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。正常情况下,优先考虑SAX,因为DOM实在太占内存。 |
- Python利用SAX解析XML(关心的事件:start_element,end_element和char_data):
from xml.parsers.expat import ParserCreate
class DefaultSaxHandler(object): def end_element(self, name): def char_data(self, text): xml = r”'<?xml version=”1.0″?> handler = DefaultSaxHandler() |
- 生成XML:拼接字符串、JSON
L = [] #list L.append(r'<?xml version=”1.0″?>’) L.append(r'<root>’) L.append(encode(‘some & data’)) L.append(r'</root>’) return ”.join(L) #str |
- 用爬虫吧目标网站页面抓下来
- 解析该HTML页面
from html.parser import HTMLParser from html.entities import name2codepoint class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): def handle_endtag(self, tag): def handle_startendtag(self, tag, attrs): def handle_data(self, data): def handle_comment(self, data): def handle_entityref(self, name): #特殊字符 print(‘&%s;’ % name)
def handle_charref(self, name): #特殊字符 parser = MyHTMLParser() </body></html>”’) |
- Get(下载)
#模拟iPhone 6去请求豆瓣首页 from urllib import request req = request.Request(‘http://www.douban.com/’) req.add_header(‘User-Agent’, ‘Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25’) #不添加该header时,表示对以上页面进行抓取(查看该页面打开时返回的值),添加了该header,表示 模拟iPhone 6去请求豆瓣首页 with request.urlopen(req) as f: #用request方式打开URL,将返回值标记为f print(‘Status:’, f.status, f.reason) for k, v in f.getheaders(): print(‘%s: %s’ % (k, v)) print(‘Data:’, f.read().decode(‘utf-8’)) |
- Post(上传): 如果要以POST发送一个请求,只需要把参数data以bytes形式传入。
#模拟微博登录 from urllib import request, parse print(‘Login to weibo.cn…’) email = input(‘Email: ‘) passwd = input(‘Password: ‘) login_data = parse.urlencode([ (‘username’, email), (‘password’, passwd), (‘entry’, ‘mweibo’), (‘client_id’, ”), (‘savestate’, ‘1’), (‘ec’, ”), (‘pagerefer’, ‘https://passport.weibo.cn/signin/welcome?entry=mweibo&r=http%3A%2F%2Fm.weibo.cn%2F’) ]) req = request.Request(‘https://passport.weibo.cn/sso/login’) with request.urlopen(req, data=login_data.encode(‘utf-8’)) as f:
print(‘%s: %s’ % (k, v))
print(‘Data:’, f.read().decode(‘utf-8’)) #en加de解
|
- Handler: 通过一个Proxy去访问网站,我们需要利用ProxyHandler来处理
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/11572.html