python 应用xml.dom.minidom读xml详解编程语言

2021年7月19日 23:53 • 编程笔记

xml文件

<?xml version="1.0" encoding="utf-8"?> 
 <city> 
   <name>上海</name> 
   <id>2</id> 
   <universities> 
     <university> 
       <name>复旦大学</name> 
       <id>2001</id> 
       <departments> 
         <department> 
           <name>上海医学院</name> 
         </department> 
         <department> 
           <name>世界经济系</name> 
         </department> 
         <department> 
           <name>中国语言文学系</name> 
         </department> 
      </departments> 
    </university> 
  </universities> 
</city>

代码

读xml代码如下：

def readXml(file): 
    unis = [] 
    dom = xml.dom.minidom.parse(file) 
    root = dom.documentElement 
    for child in root.childNodes: 
        if child.nodeName == 'universities': 
            for uni in child.childNodes: 
                if uni.nodeName == 'university': 
                    university = University() 
                    unis.append(university) 
                    university.depts = [] 
                    for depts in uni.childNodes: 
                        if depts.nodeName == 'name': 
                            for name in depts.childNodes: 
                                university.name = name.nodeValue 
                                print(name.nodeValue) 
                        if depts.nodeName == 'departments': 
                            for dept in depts.childNodes: 
                                for deptname in dept.childNodes: 
                                    for inst in deptname.childNodes: 
                                        university.depts.append(inst.nodeValue) 
    return unis

说明

使用parse()或者createDocument()返回的为DOM对象
使用DOM的documentElement属性可以锋利RootElement;
DOM为树形结构，包含许多的nodes，其中element是node的一种，可以包含了node; textNode也是一种node,但它只能作为树叶
每个node都有nodeName, nodeValue，nodeType属性，nodeValue是结点的值，只对textNode有效。对于textNode想等到他的文本内容可以使用: .data属性
要获得一个textnode都值，需要再遍历一遍其childnodes，否则得到的是None
nodeType是结点的类型，现在有以下几种：

ATTRIBUTE_NODE = 2 
CDATA_SECTION_NODE = 4 
COMMENT_NODE = 8 
DOCUMENT_FRAGMENT_NODE = 11 
DOCUMENT_NODE = 9 
DOCUMENT_TYPE_NODE = 10 
ELEMENT_NODE = 1 
ENTITY_NODE = 6 
ENTITY_REFERENCE_NODE = 5 
NOTATION_NODE = 12 
PROCESSING_INSTRUCTION_NODE = 7 
TEXT_NODE = 3

判断node的类型代码如下：

node.nodeType == node.TEXT_NODE

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/20941.html

赞 (0)

0

如何在Centos上安装python3.4详解编程语言

上一篇 2021年7月19日

python 递归遍历文件夹详解编程语言

下一篇 2021年7月19日

发表回复

登录后才能评论