python的split函数的使用方法：python中apilxml.etree的使用-爱玩科技

小君 2023-02-21 17:48:36 658

python的split函数的使用方法：python中apilxml.etree的使用fromstring（）函数lxml.etree支持以多种方式从所有重要来源解析XML，即字符串，文件，URL（http / ftp）和类文件对象。主要的解析函数是fromstring（）和 parse（），它们都以source作为第一个参数调用。默认情况下，它们使用标准解析器，但您始终可以将不同的解析器作为第二个参数传递。其中一个重要区别是ElementTree类序列化为完整文档，而不是单个元素。这包括顶级处理说明和注释，以及文档中的DOCTYPE和其他DTD内容：>>> 打印（etree 。的toString （树））＃LXML 1.3.4和后 <！DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN” “文件：//local.dtd”[ < ！ENTITY美味的“parsnips”> ]>

python的split函数的使用方法：python中apilxml.etree的使用(1)

这是一个关于使用lxml.etree进行XML处理的教程。它简要概述了Elementtree API的主要概念，以及一些简单的增强功能，使您作为程序员的生活更轻松。

关注小编后续次序更新

本文章主要介绍的是，ElementTree类
从字符串和文件中解析
fromstring（）函数
XML（）函数
parse（）函数
解析器对象
增量解析

ElementTree类

一个ElementTree的主要文档包裹一个树根节点。它提供了两种序列化和一般文档处理方法。

>>> root = etree 。XML （''' \ ... <？xml version =“1.0”？> ... <！DOCTYPE root SYSTEM“test”[<！ENTITY tasty“parsnips”>]> ... <root> ... <a>＆tasty; </a> ... </ root> ... '''' ） >>> tree = etree 。ElementTree的（根） >>> 打印（树。DOCINFO 。xml_version ） 1.0 >>> 打印（树。DOCINFO 。DOCTYPE ） <！DOCTYPE根SYSTEM “测试”> >>> 树。docinfo 。public_id = ' - // W3C // dtd Xhtml 1.0 Transitional // EN' >>> 树。docinfo 。system_url = '文件：//local.DTD' >>> 打印（树。DOCINFO 。DOCTYPE ） <DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN”“文件：//local.dtd “>

一个ElementTree的也是你得到什么，当你调用解析（）函数来解析文件或类似文件的对象（见下面的分析部）。

其中一个重要区别是ElementTree类序列化为完整文档，而不是单个元素。这包括顶级处理说明和注释，以及文档中的DOCTYPE和其他DTD内容：

>>> 打印（etree 。的toString （树））＃LXML 1.3.4和后 <！DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN” “文件：//local.dtd”[ < ！ENTITY美味的“parsnips”> ]> <root> <a> parsnips </a> </ root>

在原始的xml.etree.ElementTree实现中，在lxml中最高为1.3.3，输出看起来与仅序列化根元素时的输出相同：

>>> 打印（etree 。的toString （树。getroot （））） <根> <A>防风草</A> </根>

此序列化行为在lxml 1.3.4中已更改。之前，树被序列化而没有DTD内容，这使得lxml在输入 - 输出周期中丢失了DTD信息。

从字符串和文件中解析

lxml.etree支持以多种方式从所有重要来源解析XML，即字符串，文件，URL（http / ftp）和类文件对象。主要的解析函数是fromstring（）和 parse（），它们都以source作为第一个参数调用。默认情况下，它们使用标准解析器，但您始终可以将不同的解析器作为第二个参数传递。

fromstring（）函数

该fromstring（）函数解析字符串的最简单的方法：

>>> some_xml_data = “<root> data </ root>” >>> root = etree 。fromstring （some_xml_data ） >>> 打印（根。标签）根 >>> etree 。tostring （root ） b'<root> data </ root>'

XML（）函数

的XML（）函数的行为类似于fromstring（）函数，但常用于XML文本写右到源：

>>> root = etree 。XML （“<根>数据</根>” ） >>> 打印（根。标签）根 >>> etree 。tostring （root ） b'<root> data </ root>'

HTML文字还有一个相应的函数HTML（）。

>>> root = etree 。HTML （“数据” ） >>> etree 。tostring （root ） b'<html> <body> data </ body> </ html>'

parse（）函数

的解析（）函数是用来从文件和类文件对象进行解析。

作为此类文件对象的示例，以下代码使用 BytesIO类从字符串而不是外部文件中读取。该类来自python 2.6及更高版本中的io模块。在较旧的Python版本中，您必须使用StringIO模块中的StringIO类。但是，在现实生活中，你显然会避免这样做，并使用上面的字符串解析函数。

>>> from io import BytesIO >>> some_file_or_file_like_object = BytesIO （b “<root> data </ root>” ） >>> tree = etree 。解析（some_file_or_file_like_object ） >>> etree 。tostring （tree ） b'<root> data </ root>'

请注意，parse（）返回ElementTree对象，而不是Element对象，因为字符串解析器函数：

>>> root = tree 。getroot （） >>> 打印（根。标签）根 >>> etree 。tostring （root ） b'<root> data </ root>'

这种差异背后的原因是parse（）从文件返回一个完整的文档，而字符串解析函数通常用于解析XML片段。

的解析（）函数支持任何以下来源：

打开文件对象（确保以二进制模式打开）
一个类文件对象，它有一个.read（byte_count）方法，在每次调用时返回一个字节字符串
文件名字符串
HTTP或FTP URL字符串

请注意，传递文件名或URL通常比传递打开的文件或类文件对象更快。但是，libxml2中的HTTP / FTP客户端非常简单，因此HTTP身份验证等需要专用的URL请求库，例如urllib2或requests。这些库通常为结果提供类似文件的对象，您可以在响应流入时解析该结果。

解析器对象

默认情况下，lxml.etree使用具有默认设置的标准解析器。如果要配置解析器，可以创建新实例：

>>> parser = etree 。XMLParser （remove_blank_text = True ）仅限＃lxml.etree！

这将创建一个解析器，在解析时删除标记之间的空文本，这可以减少树的大小，并避免悬空尾文本，如果您知道仅空白内容对您的数据没有意义。一个例子：

>>> root = etree 。XML （“<root> <a/> </ root>” ，解析器） >>> etree 。tostring （root ） b'<root> <a/> </ root>'

请注意，标记内的空白内容未被删除，因为叶元素的内容往往是数据内容（即使是空白）。您可以通过遍历树轻松地在其他步骤中删除它：

>>> 为元件在根。iter （“*” ）： ... if element 。文字是不无和不元素。文字。strip （）： ... 元素。text = 无 >>> etree 。tostring （root ） b'<root> <a/> </ root>'

请参阅帮助（etree.XMLParser）以了解可用的解析器选项。

增量解析

lxml.etree提供了两种渐进式逐步解析方法。一种是通过类似文件的对象，它重复调用read（）方法。这最适用于数据来自urllib之类的源或任何其他类似文件的对象，可以根据请求提供数据。请注意，在这种情况下，解析器将阻塞并等待数据可用：

>>> class DataSource ： ... data = [ b “<roo” ， b “t> <” ， b “a /” ， b “> <” ， b “/ root>” ] ... def read （self ， requested_size ）： ... 尝试： ... 返回自我。数据。pop （0 ） ... 除了 IndexError ： ... return b ' >>> tree = etree 。解析（DataSource （）） >>> etree 。tostring （tree ） b'<root> <a/> </ root>'

第二种方式是通过feed（数据）和close（）方法给出的feed解析器接口：

>>> parser = etree 。XMLParser （） >>> 解析器。feed （“<roo” ） >>> 解析器。feed （“t> <” ） >>> 解析器。feed （“a /” ） >>> 解析器。feed （“> <” ） >>> 解析器。feed （“/ root>” ） >>> root = parser 。关闭（） >>> etree 。tostring （root ） b'<root> <a/> </ root>'

在这里，您可以随时中断解析过程，稍后再继续调用feed（）方法。如果你想避免阻塞对解析器的调用，例如在Twisted等框架中，或者数据进入缓慢或块状，并且你想在等待下一个块时做其他事情，这就派上用场了。

在调用close（）方法之后（或者当解析器引发异常时），您可以通过再次调用其feed（）方法来重用解析器：

>>> 解析器。feed （“<root />” ） >>> root = parser 。close （） >>> etree 。tostring （root ） b'<root />' ElementTree类

一个ElementTree的主要文档包裹一个树根节点。它提供了两种序列化和一般文档处理方法。

>>> root = etree 。XML （''' \ ... <？xml version =“1.0”？> ... <！DOCTYPE root SYSTEM“test”[<！ENTITY tasty“parsnips”>]> ... <root> ... <a>＆tasty; </a> ... </ root> ... '''' ） >>> tree = etree 。ElementTree的（根） >>> 打印（树。DOCINFO 。xml_version ） 1.0 >>> 打印（树。DOCINFO 。DOCTYPE ） <！DOCTYPE根SYSTEM “测试”> >>> 树。docinfo 。public_id = ' - // W3C // DTD XHTML 1.0 Transitional // EN' >>> 树。docinfo 。system_url = '文件：//local.dtd' >>> 打印（树。DOCINFO 。DOCTYPE ） <DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN”“文件：//local.dtd “>

一个ElementTree的也是你得到什么，当你调用解析（）函数来解析文件或类似文件的对象（见下面的分析部）。

其中一个重要区别是ElementTree类序列化为完整文档，而不是单个元素。这包括顶级处理说明和注释，以及文档中的DOCTYPE和其他DTD内容：

>>> 打印（etree 。的toString （树））＃LXML 1.3.4和后 <！DOCTYPE根PUBLIC “ - // W3C // DTD XHTML 1.0过渡// EN” “文件：//local.dtd”[ < ！ENTITY美味的“parsnips”> ]> <root> <a> parsnips </a> </ root>

在原始的xml.etree.ElementTree实现中，在lxml中最高为1.3.3，输出看起来与仅序列化根元素时的输出相同：

>>> 打印（etree 。的toString （树。getroot （））） <根> <A>防风草</A> </根>

此序列化行为在lxml 1.3.4中已更改。之前，树被序列化而没有DTD内容，这使得lxml在输入 - 输出周期中丢失了DTD信息。

python的split函数的使用方法：python中apilxml.etree的使用(2)

欢迎大家加入小编的技术交流群

从字符串和文件中解析

lxml.etree支持以多种方式从所有重要来源解析XML，即字符串，文件，URL（http / ftp）和类文件对象。主要的解析函数是fromstring（）和 parse（），它们都以source作为第一个参数调用。默认情况下，它们使用标准解析器，但您始终可以将不同的解析器作为第二个参数传递。

fromstring（）函数

该fromstring（）函数解析字符串的最简单的方法：

>>> some_xml_data = “<root> data </ root>” >>> root = etree 。fromstring （some_xml_data ） >>> 打印（根。标签）根 >>> etree 。tostring （root ） b'<root> data </ root>'

XML（）函数

的XML（）函数的行为类似于fromstring（）函数，但常用于XML文本写右到源：

>>> root = etree 。XML （“<根>数据</根>” ） >>> 打印（根。标签）根 >>> etree 。tostring （root ） b'<root> data </ root>'

HTML文字还有一个相应的函数HTML（）。

>>> root = etree 。HTML （“数据” ） >>> etree 。tostring （root ） b'<html> <body> data </ body> </ html>'

parse（）函数

的解析（）函数是用来从文件和类文件对象进行解析。

作为此类文件对象的示例，以下代码使用 BytesIO类从字符串而不是外部文件中读取。该类来自Python 2.6及更高版本中的io模块。在较旧的Python版本中，您必须使用StringIO模块中的StringIO类。但是，在现实生活中，你显然会避免这样做，并使用上面的字符串解析函数。

>>> from io import BytesIO >>> some_file_or_file_like_object = BytesIO （b “<root> data </ root>” ） >>> tree = etree 。解析（some_file_or_file_like_object ） >>> etree 。tostring （tree ） b'<root> data </ root>'

请注意，parse（）返回ElementTree对象，而不是Element对象，因为字符串解析器函数：

>>> root = tree 。getroot （） >>> 打印（根。标签）根 >>> etree 。tostring （root ） b'<root> data </ root>'

这种差异背后的原因是parse（）从文件返回一个完整的文档，而字符串解析函数通常用于解析XML片段。

的解析（）函数支持任何以下来源：

打开文件对象（确保以二进制模式打开）
一个类文件对象，它有一个.read（byte_count）方法，在每次调用时返回一个字节字符串
文件名字符串
HTTP或FTP URL字符串

请注意，传递文件名或URL通常比传递打开的文件或类文件对象更快。但是，libxml2中的HTTP / FTP客户端非常简单，因此HTTP身份验证等需要专用的URL请求库，例如urllib2或requests。这些库通常为结果提供类似文件的对象，您可以在响应流入时解析该结果。

解析器对象

默认情况下，lxml.etree使用具有默认设置的标准解析器。如果要配置解析器，可以创建新实例：

>>> parser = etree 。XMLParser （remove_blank_text = True ）仅限＃lxml.etree！

这将创建一个解析器，在解析时删除标记之间的空文本，这可以减少树的大小，并避免悬空尾文本，如果您知道仅空白内容对您的数据没有意义。一个例子：

>>> root = etree 。XML （“<root> <a/> </ root>” ，解析器） >>> etree 。tostring （root ） b'<root> <a/> </ root>'

请注意，标记内的空白内容未被删除，因为叶元素的内容往往是数据内容（即使是空白）。您可以通过遍历树轻松地在其他步骤中删除它：

>>> 为元件在根。iter （“*” ）： ... if element 。文字是不无和不元素。文字。strip （）： ... 元素。text = 无 >>> etree 。tostring （root ） b'<root> <a/> </ root>'

请参阅帮助（etree.XMLParser）以了解可用的解析器选项。

增量解析

lxml.etree提供了两种渐进式逐步解析方法。一种是通过类似文件的对象，它重复调用read（）方法。这最适用于数据来自urllib之类的源或任何其他类似文件的对象，可以根据请求提供数据。请注意，在这种情况下，解析器将阻塞并等待数据可用：

>>> class DataSource ： ... data = [ b “<roo” ， b “t> <” ， b “a /” ， b “> <” ， b “/ root>” ] ... def read （self ， requested_size ）： ... 尝试： ... 返回自我。数据。pop （0 ） ... 除了 IndexError ： ... return b ' >>> tree = etree 。解析（DataSource （）） >>> etree 。tostring （tree ） b'<root> <a/> </ root>'

第二种方式是通过feed（数据）和close（）方法给出的feed解析器接口：

>>> parser = etree 。XMLParser （） >>> 解析器。feed （“<roo” ） >>> 解析器。feed （“t> <” ） >>> 解析器。feed （“a /” ） >>> 解析器。feed （“> <” ） >>> 解析器。feed （“/ root>” ） >>> root = parser 。关闭（） >>> etree 。tostring （root ） b'<root> <a/> </ root>'

在这里，您可以随时中断解析过程，稍后再继续调用feed（）方法。如果你想避免阻塞对解析器的调用，例如在Twisted等框架中，或者数据进入缓慢或块状，并且你想在等待下一个块时做其他事情，这就派上用场了。

在调用close（）方法之后（或者当解析器引发异常时），您可以通过再次调用其feed（）方法来重用解析器：

>>> 解析器。feed （“<root />” ） >>> root = parser 。close （） >>> etree 。tostring （root ） b'<root />'

如果大家没有找到一个好的技术交流群或者需要关于python的资料的如1.爬虫库--requests，bs4，lxml，scrapy，pyspider2.python开发---Django，Tornado，flask框架3.linux，shell脚本4.selenium自动化测试5.自动化运维Zabbix6.数据库 MySql，NoSql，redis正则表达式re，网络编程，面向对象，lambda，IO并发编程，GUI图形

可以加入小编的群418775537

网站首页

返回栏目

python的split函数的使用方法：python中apilxml.etree的使用

猜您喜欢：

相关文章