Python爬取表格的步骤

2025-01-12 技术教程

小编给大家分享一下Python爬取表格的步骤，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨方法吧！

Python爬取表格的步骤：

1、检查url地址，用raise_for_status()检查url地址；

2、爬取资源，用BeautifulSoup()爬取数据，并且用find_all('tr')抓取其中的表格；

3、保存资源，用write()将表格保存到指定目录。

frombs4importBeautifulSoupimportrequestsimportcsvimportbs4#检查url地址defcheck_link(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.textexcept:print('无法链接服务器！！！')#爬取资源defget_contents(ulist,rurl):soup=BeautifulSoup(rurl,'lxml')trs=soup.find_all('tr')fortrintrs:ui=[]fortdintr:ui.append(td.string)ulist.append(ui)#保存资源defsave_contents(urlist):withopen("D:/2016年中国企业500强排行榜.csv",'w')asf:writer=csv.writer(f)writer.writerow(['2016年中国企业500强排行榜'])foriinrange(len(urlist)):writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]])defmain():urli=[]url="http://www.maigoo.com/news/463071.html"rs=check_link(url)get_contents(urli,rs)save_contents(urli)main()

运行结果：

看完了这篇文章，相信你对Python爬取表格的步骤有了一定的了解，想了解更多相关知识，欢迎关注亿速云行业资讯频道，感谢各位的阅读！