氨基酸

NLP 获取相似词 - 1.爬取百度搜索结果

倖福魔咒の 提交于 2019-12-11 07:35:35
视频链接: https://www.bilibili.com/video/av78674056 一,前言 NLP实际项目要用到, 给定一个词,找出它的同义词、相似词、拓展词等。 我思考了下,有: 1,同义词表 2,word2vec同义词 等方法。 1肯定可行,但效果不一定好,现有资源为 哈工大同义词表 ;2方法之后试一下,一个是性能和速度,在windows下能否有效执行,另一个是到底有没有相似词,如果我要找“氨基酸”的相似词,恐怕word2vec词向量里面没有多少这种专有名词吧。 但,我想到了一个绝佳的骚操作,并且可行, 那就是用 百度搜索 作为接口,搜索后不是有显示相关词吗?这就是我们想要的,要知道,这可是百度这么大一个公司算法团队专门优化出来的结果,效果自然杠杠的。咱们借用一下,嘿嘿。 二、失败爬虫 本来以为爬虫挺简单的,但却因为网上教程大多过时,失效,故花了一上午,遂记录。 我了解到的,一般来说,爬虫有: 1,python库类型的, urlib,requests等。 采用。 2,Scrapy爬虫框架。 专门用来抓取大量数据的, 不用。 3,Selenium模拟浏览器爬虫。 优点是可以有效反爬,缺点性能不高, 不用。 不安装任何第三方库,用 urlib # -*- coding:utf-8 -*- import urllib.request #设置头 headers = {

Physicoochemical|CG content|

偶尔善良 提交于 2019-12-05 19:34:39
NCBI 存在的问题: 数据用户的增长 软件开发受限 数据分析缺乏 有些传统束缚,仅用底层语言书写 Pangenome Open gene 是随菌株数量增大而增大的 gene , Closed gene 是随菌株数量增大而趋于平滑的 gene 。 Mategenomics and longevity ,例子:年轻人的粪便使得老年鱼活的时间更长 Genomics for precision medicine 研究碱基 GC content ,三个氢键比较稳定( S ) chargaff''s rule GC content 与何种生物特性有关。 比如与 Genome size 成正比。 Eg :复制后突变使得 CG content 变高,用于研究演化。 Eg :利用 CG content 正负找到复制起始位点。 Genetic codes : 因为先 RNA 后 DNA ,所以从 AU 开始。 GCN 中的 N 表四重简并位点。 由左上角开始起源, GCP1 、 GCP2 , GC-rich 、 AT-rich 。 根据 Physicoochemical 分析可知: 中间是 A 则是电极 中间是 C 则是疏水 中间是 G 则是复杂 Modeling sequencing analyse S=C ∪ G R=A ∪ T 连乘得到的密码子的 content ,在不同物种中比较