小编给大家分享一下Python爬取表格的步骤,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨方法吧!

Python爬取表格的步骤:

1、检查url地址,用raise_for_status()检查url地址;

2、爬取资源,用BeautifulSoup()爬取数据,并且用find_all('tr')抓取其中的表格;

3、保存资源,用write()将表格保存到指定目录。

frombs4importBeautifulSoupimportrequestsimportcsvimportbs4#检查url地址defcheck_link(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.textexcept:print('无法链接服务器!!!')#爬取资源defget_contents(ulist,rurl):soup=BeautifulSoup(rurl,'lxml')trs=soup.find_all('tr')fortrintrs:ui=[]fortdintr:ui.append(td.string)ulist.append(ui)#保存资源defsave_contents(urlist):withopen("D:/2016年中国企业500强排行榜.csv",'w')asf:writer=csv.writer(f)writer.writerow(['2016年中国企业500强排行榜'])foriinrange(len(urlist)):writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]])defmain():urli=[]url="http://www.maigoo.com/news/463071.html"rs=check_link(url)get_contents(urli,rs)save_contents(urli)main()

运行结果:

看完了这篇文章,相信你对Python爬取表格的步骤有了一定的了解,想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!