python的split函数的使用方法:python中apilxml.etree的使用
python的split函数的使用方法:python中apilxml.etree的使用fromstring()函数lxml.etree支持以多种方式从所有重要来源解析XML,即字符串,文件,URL(http / ftp)和类文件对象。主要的解析函数是fromstring()和 parse(),它们都以source作为第一个参数调用。默认情况下,它们使用标准解析器,但您始终可以将不同的解析器作为第二个参数传递。其中一个重要区别是ElementTree类序列化为完整文档,而不是单个元素。这包括顶级处理说明和注释,以及文档中的DOCTYPE和其他DTD内容:>>> 打印(etree 。的toString (树)) #LXML 1.3.4和后 <!DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN” “文件://local.dtd”[ < !ENTITY美味的“parsnips”> ]>
这是一个关于使用lxml.etree进行XML处理的教程。它简要概述了Elementtree API的主要概念,以及一些简单的增强功能,使您作为程序员的生活更轻松。
关注小编后续次序更新
- 本文章主要介绍的是,ElementTree类
- 从字符串和文件中解析
- fromstring()函数
- XML()函数
- parse()函数
- 解析器对象
- 增量解析
ElementTree类
一个ElementTree的主要文档包裹一个树根节点。它提供了两种序列化和一般文档处理方法。
>>> root = etree 。XML (''' \ ... <?xml version =“1.0”?> ... <!DOCTYPE root SYSTEM“test”[<!ENTITY tasty“parsnips”>]> ... <root> ... <a>&tasty; </a> ... </ root> ... '''' ) >>> tree = etree 。ElementTree的(根) >>> 打印(树。DOCINFO 。xml_version ) 1.0 >>> 打印(树。DOCINFO 。DOCTYPE ) <!DOCTYPE根SYSTEM “测试”> >>> 树。docinfo 。public_id = ' - // W3C // dtd Xhtml 1.0 Transitional // EN' >>> 树。docinfo 。system_url = '文件://local.DTD' >>> 打印(树。DOCINFO 。DOCTYPE ) <DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN”“文件://local.dtd “>
一个ElementTree的也是你得到什么,当你调用 解析()函数来解析文件或类似文件的对象(见下面的分析部)。
其中一个重要区别是ElementTree类序列化为完整文档,而不是单个元素。这包括顶级处理说明和注释,以及文档中的DOCTYPE和其他DTD内容:
>>> 打印(etree 。的toString (树)) #LXML 1.3.4和后 <!DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN” “文件://local.dtd”[ < !ENTITY美味的“parsnips”> ]> <root> <a> parsnips </a> </ root>
在原始的xml.etree.ElementTree实现中,在lxml中最高为1.3.3,输出看起来与仅序列化根元素时的输出相同:
>>> 打印(etree 。的toString (树。getroot ())) <根> <A>防风草</A> </根>
此序列化行为在lxml 1.3.4中已更改。之前,树被序列化而没有DTD内容,这使得lxml在输入 - 输出周期中丢失了DTD信息。
从字符串和文件中解析lxml.etree支持以多种方式从所有重要来源解析XML,即字符串,文件,URL(http / ftp)和类文件对象。主要的解析函数是fromstring()和 parse(),它们都以source作为第一个参数调用。默认情况下,它们使用标准解析器,但您始终可以将不同的解析器作为第二个参数传递。
fromstring()函数
该fromstring()函数解析字符串的最简单的方法:
>>> some_xml_data = “<root> data </ root>” >>> root = etree 。fromstring (some_xml_data ) >>> 打印(根。标签) 根 >>> etree 。tostring (root ) b'<root> data </ root>'
XML()函数
的XML()函数的行为类似于fromstring()函数,但常用于XML文本写右到源:
>>> root = etree 。XML (“<根>数据</根>” ) >>> 打印(根。标签) 根 >>> etree 。tostring (root ) b'<root> data </ root>'
HTML文字还有一个相应的函数HTML()。
>>> root = etree 。HTML (“<p>数据</ p>” ) >>> etree 。tostring (root ) b'<html> <body> <p> data </ p> </ body> </ html>'
parse()函数
的解析()函数是用来从文件和类文件对象进行解析。
作为此类文件对象的示例,以下代码使用 BytesIO类从字符串而不是外部文件中读取。该类来自python 2.6及更高版本中的io模块。在较旧的Python版本中,您必须使用StringIO模块中的StringIO类 。但是,在现实生活中,你显然会避免这样做,并使用上面的字符串解析函数。
>>> from io import BytesIO >>> some_file_or_file_like_object = BytesIO (b “<root> data </ root>” ) >>> tree = etree 。解析(some_file_or_file_like_object ) >>> etree 。tostring (tree ) b'<root> data </ root>'
请注意,parse()返回ElementTree对象,而不是Element对象,因为字符串解析器函数:
>>> root = tree 。getroot () >>> 打印(根。标签) 根 >>> etree 。tostring (root ) b'<root> data </ root>'
这种差异背后的原因是parse()从文件返回一个完整的文档,而字符串解析函数通常用于解析XML片段。
的解析()函数支持任何以下来源:
- 打开文件对象(确保以二进制模式打开)
- 一个类文件对象,它有一个.read(byte_count)方法,在每次调用时返回一个字节字符串
- 文件名字符串
- HTTP或FTP URL字符串
请注意,传递文件名或URL通常比传递打开的文件或类文件对象更快。但是,libxml2中的HTTP / FTP客户端非常简单,因此HTTP身份验证等需要专用的URL请求库,例如urllib2或requests。这些库通常为结果提供类似文件的对象,您可以在响应流入时解析该结果。
解析器对象
默认情况下,lxml.etree使用具有默认设置的标准解析器。如果要配置解析器,可以创建新实例:
>>> parser = etree 。XMLParser (remove_blank_text = True ) 仅限#lxml.etree!
这将创建一个解析器,在解析时删除标记之间的空文本,这可以减少树的大小,并避免悬空尾文本,如果您知道仅空白内容对您的数据没有意义。一个例子:
>>> root = etree 。XML (“<root> <a/> <b> </ b> </ root>” , 解析器) >>> etree 。tostring (root ) b'<root> <a/> <b> </ b> </ root>'
请注意,<b>标记内的空白内容未被删除,因为叶元素的内容往往是数据内容(即使是空白)。您可以通过遍历树轻松地在其他步骤中删除它:
>>> 为 元件 在 根。iter (“*” ): ... if element 。文字 是 不 无 和 不 元素。文字。strip (): ... 元素。text = 无 >>> etree 。tostring (root ) b'<root> <a/> <b /> </ root>'
请参阅帮助(etree.XMLParser)以了解可用的解析器选项。
增量解析
lxml.etree提供了两种渐进式逐步解析方法。一种是通过类似文件的对象,它重复调用read()方法。这最适用于数据来自urllib之类的源或任何其他类似文件的对象,可以根据请求提供数据。请注意,在这种情况下,解析器将阻塞并等待数据可用:
>>> class DataSource : ... data = [ b “<roo” , b “t> <” , b “a /” , b “> <” , b “/ root>” ] ... def read (self , requested_size ): ... 尝试: ... 返回 自我。数据。pop (0 ) ... 除了 IndexError : ... return b ' >>> tree = etree 。解析(DataSource ()) >>> etree 。tostring (tree ) b'<root> <a/> </ root>'
第二种方式是通过feed(数据) 和close()方法给出的feed解析器接口:
>>> parser = etree 。XMLParser () >>> 解析器。feed (“<roo” ) >>> 解析器。feed (“t> <” ) >>> 解析器。feed (“a /” ) >>> 解析器。feed (“> <” ) >>> 解析器。feed (“/ root>” ) >>> root = parser 。关闭() >>> etree 。tostring (root ) b'<root> <a/> </ root>'
在这里,您可以随时中断解析过程,稍后再继续调用feed()方法。如果你想避免阻塞对解析器的调用,例如在Twisted等框架中,或者数据进入缓慢或块状,并且你想在等待下一个块时做其他事情,这就派上用场了。
在调用close()方法之后(或者当解析器引发异常时),您可以通过 再次调用其feed()方法来重用解析器:
>>> 解析器。feed (“<root />” ) >>> root = parser 。close () >>> etree 。tostring (root ) b'<root />' ElementTree类
一个ElementTree的主要文档包裹一个树根节点。它提供了两种序列化和一般文档处理方法。
>>> root = etree 。XML (''' \ ... <?xml version =“1.0”?> ... <!DOCTYPE root SYSTEM“test”[<!ENTITY tasty“parsnips”>]> ... <root> ... <a>&tasty; </a> ... </ root> ... '''' ) >>> tree = etree 。ElementTree的(根) >>> 打印(树。DOCINFO 。xml_version ) 1.0 >>> 打印(树。DOCINFO 。DOCTYPE ) <!DOCTYPE根SYSTEM “测试”> >>> 树。docinfo 。public_id = ' - // W3C // DTD XHTML 1.0 Transitional // EN' >>> 树。docinfo 。system_url = '文件://local.dtd' >>> 打印(树。DOCINFO 。DOCTYPE ) <DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN”“文件://local.dtd “>
一个ElementTree的也是你得到什么,当你调用 解析()函数来解析文件或类似文件的对象(见下面的分析部)。
其中一个重要区别是ElementTree类序列化为完整文档,而不是单个元素。这包括顶级处理说明和注释,以及文档中的DOCTYPE和其他DTD内容:
>>> 打印(etree 。的toString (树)) #LXML 1.3.4和后 <!DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN” “文件://local.dtd”[ < !ENTITY美味的“parsnips”> ]> <root> <a> parsnips </a> </ root>
在原始的xml.etree.ElementTree实现中,在lxml中最高为1.3.3,输出看起来与仅序列化根元素时的输出相同:
>>> 打印(etree 。的toString (树。getroot ())) <根> <A>防风草</A> </根>
此序列化行为在lxml 1.3.4中已更改。之前,树被序列化而没有DTD内容,这使得lxml在输入 - 输出周期中丢失了DTD信息。
欢迎大家加入小编的技术交流群
从字符串和文件中解析lxml.etree支持以多种方式从所有重要来源解析XML,即字符串,文件,URL(http / ftp)和类文件对象。主要的解析函数是fromstring()和 parse(),它们都以source作为第一个参数调用。默认情况下,它们使用标准解析器,但您始终可以将不同的解析器作为第二个参数传递。
fromstring()函数
该fromstring()函数解析字符串的最简单的方法:
>>> some_xml_data = “<root> data </ root>” >>> root = etree 。fromstring (some_xml_data ) >>> 打印(根。标签) 根 >>> etree 。tostring (root ) b'<root> data </ root>'
XML()函数
的XML()函数的行为类似于fromstring()函数,但常用于XML文本写右到源:
>>> root = etree 。XML (“<根>数据</根>” ) >>> 打印(根。标签) 根 >>> etree 。tostring (root ) b'<root> data </ root>'
HTML文字还有一个相应的函数HTML()。
>>> root = etree 。HTML (“<p>数据</ p>” ) >>> etree 。tostring (root ) b'<html> <body> <p> data </ p> </ body> </ html>'
parse()函数
的解析()函数是用来从文件和类文件对象进行解析。
作为此类文件对象的示例,以下代码使用 BytesIO类从字符串而不是外部文件中读取。该类来自Python 2.6及更高版本中的io模块。在较旧的Python版本中,您必须使用StringIO模块中的StringIO类 。但是,在现实生活中,你显然会避免这样做,并使用上面的字符串解析函数。
>>> from io import BytesIO >>> some_file_or_file_like_object = BytesIO (b “<root> data </ root>” ) >>> tree = etree 。解析(some_file_or_file_like_object ) >>> etree 。tostring (tree ) b'<root> data </ root>'
请注意,parse()返回ElementTree对象,而不是Element对象,因为字符串解析器函数:
>>> root = tree 。getroot () >>> 打印(根。标签) 根 >>> etree 。tostring (root ) b'<root> data </ root>'
这种差异背后的原因是parse()从文件返回一个完整的文档,而字符串解析函数通常用于解析XML片段。
的解析()函数支持任何以下来源:
- 打开文件对象(确保以二进制模式打开)
- 一个类文件对象,它有一个.read(byte_count)方法,在每次调用时返回一个字节字符串
- 文件名字符串
- HTTP或FTP URL字符串
请注意,传递文件名或URL通常比传递打开的文件或类文件对象更快。但是,libxml2中的HTTP / FTP客户端非常简单,因此HTTP身份验证等需要专用的URL请求库,例如urllib2或requests。这些库通常为结果提供类似文件的对象,您可以在响应流入时解析该结果。
解析器对象
默认情况下,lxml.etree使用具有默认设置的标准解析器。如果要配置解析器,可以创建新实例:
>>> parser = etree 。XMLParser (remove_blank_text = True ) 仅限#lxml.etree!
这将创建一个解析器,在解析时删除标记之间的空文本,这可以减少树的大小,并避免悬空尾文本,如果您知道仅空白内容对您的数据没有意义。一个例子:
>>> root = etree 。XML (“<root> <a/> <b> </ b> </ root>” , 解析器) >>> etree 。tostring (root ) b'<root> <a/> <b> </ b> </ root>'
请注意,<b>标记内的空白内容未被删除,因为叶元素的内容往往是数据内容(即使是空白)。您可以通过遍历树轻松地在其他步骤中删除它:
>>> 为 元件 在 根。iter (“*” ): ... if element 。文字 是 不 无 和 不 元素。文字。strip (): ... 元素。text = 无 >>> etree 。tostring (root ) b'<root> <a/> <b /> </ root>'
请参阅帮助(etree.XMLParser)以了解可用的解析器选项。
增量解析
lxml.etree提供了两种渐进式逐步解析方法。一种是通过类似文件的对象,它重复调用read()方法。这最适用于数据来自urllib之类的源或任何其他类似文件的对象,可以根据请求提供数据。请注意,在这种情况下,解析器将阻塞并等待数据可用:
>>> class DataSource : ... data = [ b “<roo” , b “t> <” , b “a /” , b “> <” , b “/ root>” ] ... def read (self , requested_size ): ... 尝试: ... 返回 自我。数据。pop (0 ) ... 除了 IndexError : ... return b ' >>> tree = etree 。解析(DataSource ()) >>> etree 。tostring (tree ) b'<root> <a/> </ root>'
第二种方式是通过feed(数据) 和close()方法给出的feed解析器接口:
>>> parser = etree 。XMLParser () >>> 解析器。feed (“<roo” ) >>> 解析器。feed (“t> <” ) >>> 解析器。feed (“a /” ) >>> 解析器。feed (“> <” ) >>> 解析器。feed (“/ root>” ) >>> root = parser 。关闭() >>> etree 。tostring (root ) b'<root> <a/> </ root>'
在这里,您可以随时中断解析过程,稍后再继续调用feed()方法。如果你想避免阻塞对解析器的调用,例如在Twisted等框架中,或者数据进入缓慢或块状,并且你想在等待下一个块时做其他事情,这就派上用场了。
在调用close()方法之后(或者当解析器引发异常时),您可以通过 再次调用其feed()方法来重用解析器:
>>> 解析器。feed (“<root />” ) >>> root = parser 。close () >>> etree 。tostring (root ) b'<root />'
如果大家没有找到一个好的技术交流群或者需要关于python的资料的如1.爬虫库--requests,bs4,lxml,scrapy,pyspider2.python开发---Django,Tornado,flask框架3.linux,shell脚本4.selenium自动化测试5.自动化运维Zabbix6.数据库 MySql,NoSql,redis正则表达式re,网络编程,面向对象,lambda,IO并发编程,GUI图形
可以加入小编的群418775537