python获取NLPIR网站数据

2024-12-21 技术教程

有个自然语言处理的人工智能网站特别有意思，还能快速生成可视化图表，推荐给大家：http://ictclas.nlpir.org/nlpir/
如何爬取这个网站隐藏在背后的数据呢？
我这里演示一下联想词数据的爬取：

import requests,jsoncontent=str(input('请输入要查询的文本：'))url='http://ictclas.nlpir.org/nlpir/index6/getWord2Vec.do'headers={ 'Referer': 'http://ictclas.nlpir.org/nlpir/', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}data={ 'content': content}res=requests.post(url,headers=headers,data=data)res_dic=json.loads(res.text)w2vlist=res_dic['w2vlist']for i in range(10): word=w2vlist[i] print(word)

这个网站的可视化功能也很强大，一键生成美丽图表～
这是快速生成词云图，用python的话比较麻烦一些，好处是可以进行个性化修改。如果没有太高要求的话，nlpir网站完全可以胜任：

还有很多可视化图表，小伙伴们可以去尝试一下：