Python的一些用于抓取的方法封装详解编程语言

[Python]代码    

#!/usr/bin/env python 
#-*- coding:utf-8-*- 
 
import urllib2 
import re 
import hashlib 
import json 
 
#--------------------------------------------------- 工具 start 
def md5(str): 
    ''' 
    计算MD5值 
    ''' 
    m = hashlib.md5()    
    m.update(str) 
    return m.hexdigest() 
 
def search(regex, content, group = 1): 
    ''' 
    搜索指定正则匹配的内容 
    ''' 
    pattern = re.search(regex, content, re.DOTALL) 
    if(pattern != None): 
        return pattern.group(group) 
    return '' 
 
def findall(regex, content): 
    ''' 
    查找指定正则匹配的所有内容 
    ''' 
    return re.findall(regex, content, re.DOTALL) 
 
def cleanHtmlTag(content): 
    ''' 
    清理HTML标签 
    ''' 
    return content or re.sub(r'<[^>]*?>', '', content).strip() 
 
def cleanedSearch(regex, content, group = 1): 
    ''' 
    查找匹配的指定字符串并清除HTML标签 
    ''' 
    return cleanHtmlTag(search(regex, content, group)) 
 
def httpGet(url, encoding='gbk'): 
    ''' 
    发送Http GET请求,返回内容 
    ''' 
    return urllib2.urlopen(url).read().decode(encoding, 'ignore').encode('utf-8') 
 
def toJson(dict): 
    return json.dumps(dict, ensure_ascii=False, indent=4) 
 
#--------------------------------------------------- 工具 end

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/8115.html

(0)
上一篇 2021年7月18日
下一篇 2021年7月18日

相关推荐

发表回复

登录后才能评论