Python中XML和XPATH指的是什么

2024-11-16 技术教程 151

这篇文章将为大家详细讲解有关Python中XML和XPATH指的是什么，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

XML和XPATH

用正则处理HTML文档很麻烦，我们可以先将HTML文件转换成XML文档，然后用XPath查找HTML节点或元素。

XML 指可扩展标记语言（EXtensible Markup Language）

XML 是一种标记语言，很类似 HTML

XML 的设计宗旨是传输数据，而非显示数据

XML 的标签需要我们自行定义。

XML 被设计为具有自我描述性。

XML 是 W3C 的推荐标准

XML和HTML区别

HTML DOM 模型示例

HTML DOM 定义了访问和操作 HTML 文档的标准方法，以树结构方式表达 HTML 文档。

XPATH

XPath (XML Path Language) 是一门在XML文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

chrome插件XPATH HelPer

Firefox插件XPATH Checker

XPATH语法

最常用的路径表达式：

谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

选取位置节点

选取若干路径

LXML库

安装：pip install lxml

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，可以利用XPath语法，来快速的定位特定元素以及节点信息。

简单使用方法

#!/usr/bin/envpython#-*-coding:utf-8-*-fromlxmlimportetreetext='''<div><li>11</li><li>22</li><li>33</li><li>44</li></div>'''#利用etree.HTML，将字符串解析为HTML文档html=etree.HTML(text)#按字符串序列化HTML文档result=etree.tostring(html)print(result)

结果：

爬取美女吧图片

1.先找到每个帖子列表的url集合

2.再找到每个帖子里面的每个图片的的完整url链接

3.要用到 lxml 模块去解析html

#!/usr/bin/envpython#-*-coding:utf-8-*-importurllibimporturllib2fromlxmlimportetreedefloadPage(url):"""作用：根据url发送请求，获取服务器响应文件url:需要爬取的url地址"""request=urllib2.Request(url)html=urllib2.urlopen(request).read()#解析HTML文档为HTMLDOM模型content=etree.HTML(html)#返回所有匹配成功的列表集合link_list=content.xpath('//div[@class="t_concleafix"]/div/div/div/a/@href')forlinkinlink_list:fulllink="http://tieba.baidu.com"+link#组合为每个帖子的链接#printlinkloadImage(fulllink)#取出每个帖子里的每个图片连接defloadImage(link):headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/60.0.3112.101Safari/537.36'}request=urllib2.Request(link,headers=headers)html=urllib2.urlopen(request).read()#解析content=etree.HTML(html)#取出帖子里每层层主发送的图片连接集合link_list=content.xpath('//img[@class="BDE_Image"]/@src')#取出每个图片的连接forlinkinlink_list:#printlinkwriteImage(link)defwriteImage(link):"""作用：将html内容写入到本地link：图片连接"""#print"正在保存"+filenameheaders={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/54.0.2840.99Safari/537.36"}#文件写入request=urllib2.Request(link,headers=headers)#图片原始数据image=urllib2.urlopen(request).read()#取出连接后10位做为文件名filename=link[-10:]#写入到本地磁盘文件内withopen(filename,"wb")asf:f.write(image)print"已经成功下载"+filenamedeftiebaSpider(url,beginPage,endPage):"""作用：贴吧爬虫调度器，负责组合处理每个页面的urlurl:贴吧url的前部分beginPage:起始页endPage:结束页"""forpageinrange(beginPage,endPage+1):pn=(page-1)*50#filename="第"+str(page)+"页.html"fullurl=url+"&pn="+str(pn)#printfullurlloadPage(fullurl)#printhtmlprint"谢谢使用"if__name__=="__main__":kw=raw_input("请输入需要爬取的贴吧名:")beginPage=int(raw_input("请输入起始页："))endPage=int(raw_input("请输入结束页："))url="http://tieba.baidu.com/f?"key=urllib.urlencode({"kw":kw})fullurl=url+keytiebaSpider(fullurl,beginPage,endPage)

4.爬取的图片全部保存到了电脑里面

关于Python中XML和XPATH指的是什么就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。