NLP 获取相似词 - 1.爬取百度搜索结果
视频链接: https://www.bilibili.com/video/av78674056 一,前言 NLP实际项目要用到, 给定一个词,找出它的同义词、相似词、拓展词等。 我思考了下,有: 1,同义词表 2,word2vec同义词 等方法。 1肯定可行,但效果不一定好,现有资源为 哈工大同义词表 ;2方法之后试一下,一个是性能和速度,在windows下能否有效执行,另一个是到底有没有相似词,如果我要找“氨基酸”的相似词,恐怕word2vec词向量里面没有多少这种专有名词吧。 但,我想到了一个绝佳的骚操作,并且可行, 那就是用 百度搜索 作为接口,搜索后不是有显示相关词吗?这就是我们想要的,要知道,这可是百度这么大一个公司算法团队专门优化出来的结果,效果自然杠杠的。咱们借用一下,嘿嘿。 二、失败爬虫 本来以为爬虫挺简单的,但却因为网上教程大多过时,失效,故花了一上午,遂记录。 我了解到的,一般来说,爬虫有: 1,python库类型的, urlib,requests等。 采用。 2,Scrapy爬虫框架。 专门用来抓取大量数据的, 不用。 3,Selenium模拟浏览器爬虫。 优点是可以有效反爬,缺点性能不高, 不用。 不安装任何第三方库,用 urlib # -*- coding:utf-8 -*- import urllib.request #设置头 headers = {