本文主要给大家简单讲讲使用pandas模块解决mysql中的重复数据问题,相关专业术语大家可以上网查查或者找一些相关书籍补充一下,这里就不涉猎了,我们就直奔主题吧,希望使用pandas模块解决mysql中的重复数据问题这篇文章可以给大家带来一些实际帮助。

直接上代码

import pymysqlimport pandas as pdaconn=pymysql.connect(host="127.0.0.1",user="root",passwd="pw",db="test001",charset="utf8")sql="select * from table001"data1 = pda.read_sql(sql,conn)print(data1.count())data2 = data1.drop_duplicates(subset="big",keep="last")data2.to_sql("table002",con=conn,flavor="mysql",if_exists="append",index=False)print(data2.count())

table001表为原始表,big为表里不能重复的字段,keep="last"代表留重复数据的最后一条,table002表为清洗完数据保存数据的表。

运行该脚本,十来分钟左右,800W条数据已经全部清洗完毕,还剩余200W条不重复数据,并且还和朋友正确的数据一条不差。

随后将数据表上传至朋友的线上云服务器,朋友验证数据都没问题。

使用pandas模块解决mysql中的重复数据问题就先给大家讲到这里,对于其它相关问题大家想要了解的可以持续关注我们的行业资讯。我们的板块内容每天都会捕捉一些行业新闻及专业知识分享给大家的。