python3中提取汉字的方法是什么
这篇文章主要介绍了python3中提取汉字的方法是什么,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。
采用正则表达式的方法对字符串进行处理。
str1="{我%$是,《速$@.度\发》中/国、人"
(1)提取汉字
汉字的范围为”\u4e00-\u9fa5“,这个是用Unicode表示的。
importreres1=''.join(re.findall('[\u4e00-\u9fa5]',str1))print(res1)
输出为:
‘我是速度发中国人’
(2)去除所有符号。采用清理数据,仅保留字母、数字、中文的方法。
importreres1=re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]",'',str1)print(res1)
输出为:
‘我是速度发中国人’
感谢你能够认真阅读完这篇文章,希望小编分享python3中提取汉字的方法是什么内容对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,遇到问题就找亿速云,详细的解决方法等着你来学习!
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。