jieba

Serverless 的资源评估与成本探索

不打扰是莪最后的温柔 提交于 2020-02-26 08:26:04
Serverless 布道师在讲解 Serverless 架构和云主机等区别的时候,总会有类似的描述: 传统业务开发完成想要上线,需要评估资源使用。根据评估结果,购买云主机,并且需要根据业务的发展不断对主机等资源进行升级维。而 Serverless 架构,则不需要这样复杂的流程,只需要将函数部署到线上,一切后端服务交给运营商来处理。即使是瞬时高并发,也有云厂商为您自动扩缩。 但是在实际生产中,Serverless 真的无需评估资源么?还是说在 Serverless 架构下,资源评估的内容、对象发生了变化,或者简化呢? 在 腾讯云云函数 中,我们创建一个云函数之后,有这么几个设置项: 内存设置范围为 64~1536M,超时时间范围为 1~900s。这些设置项其实已经涉及到了资源评估。 超时时间 先说超时时间,一个项目或者一个函数,一个 Action 都是有执行时间的。如果超过某个时间没执行完,就可以评估其为发生了「意外」,可以被「干掉」了,这个就是超时时间。 例如一个获取用户信息的简单请求,假设 10s 内没有返回,证明已经不满足业务需求,此时就可以将超时设置为 10s。如果有另一个业务,运行速度比较慢,至少要 50s 才能执行完,那么这个值的设置就要大于 50,否则程序可能因为超时被强行停止。 内存 内存是一个有趣的东西,可能衍生两个关联点。 关联点 1: 程序本身需要一定的内存

【数据分析实战】数据分析及可视化实战:豆瓣电影数据分析

坚强是说给别人听的谎言 提交于 2020-02-21 18:39:04
本次数据: 来源豆瓣电影 40万条短评 50条以上评论电影1100多部 数据储存在sqlite数据库里 左侧点开Tables,可以看到有三张表 双击comment 在右侧点击数据标签可以查看 观察每行都有哪些数据 ID: 序号 TIME: 时间 MOVIEID: 豆瓣电影ID RATING: 该评论打分 CONTENT: 评论内容 CREATOR: 评论者 ADD_TIME:添加时间 “结巴”中文分词 https://github.com/fxsjy/jieba • 支持三种分词模式: • 精确模式,试图将句子最精确地切开,适合文本分析; • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常 快,但是不能解决歧义; • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召 回率,适合用于搜索引擎分词。 • 支持繁体分词 • 支持自定义词典 • MIT 授权协议 安装: pip install jieba pip3 install jieba import sqlite3 import pandas as pd import jieba from pyecharts . faker import Faker from pyecharts . charts import WordCloud from pyecharts import options as opts

中文词频统计与词云生成

不羁的心 提交于 2020-02-18 19:52:28
中文词频统计: 作业连接: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 jieba.load_userdict(word_dict) #词库文本文件 参考词库下载地址:https://pinyin.sogou.com/dict/ 转换代码:scel_to_text 5. 生成词频统计 6. 排序 7. 排除语法型词汇,代词、冠词、连词等停用词。 stops 8. 输出词频最大TOP20,把结果存放到文件里 9. 生成词云。 本案例统计红楼梦词频: 1.在网上下载红楼梦txt文件 2.使用PyCharm 编译器自动下载 jieba 包 3.搜狗文库中下载红楼梦词库,并将词库.scel文件转化为txt文件 4.先将转化为txt形式的词库文件加入,再对红楼梦文本进行词频统计,统计出频率最高的20个词: ``` import jiebatxt = open(r"C:\Users\Administrator

jieba库常用函数及解析实例

為{幸葍}努か 提交于 2020-02-17 17:39:13
中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 在(cmd命令行)情况下 运行 pip install jieba 进行安装 jieba分词原理 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 jieba分词的三种模式:精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 jieba库常用函数 函数 描述 jieba.lcut(s) 精确模式,返回一个列表类型的分词结果 jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余 jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余 jieba.add_word(w) 向分词词典增加新词w 例如: > s = "中国是一个伟大的国家" > jieba . lcut ( s ) [ '中国' , '是' , '一个' , '伟大' , '的' , '国家' ] > jieba . lcut ( s , cut_all = True ) [ '中国' , '国是' , '是' , '一个' , '伟大' , '的' ,

jieba分词详解和实践

守給你的承諾、 提交于 2020-02-17 12:56:08
jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现 1 次 的:出现 2 次 股价:出现 1 次 … 在以上的信息中,1、2、1、2、1等等这些 次数就是TF词频 。 通常来说,一个词越重要,就会在文章中出现多次,这个词也就能反映出这篇文章的特性,但是你会发现,这篇文章出现最多次数的是 时间、的,它们反映出文章的特性了吗?当然没有!所以,我们还要对每个词进行分类赋予权重: 最常见的词(“的”,“是”,“了”)权重最小 比较常见的词(“时间”,“上周”,“中国”)权重比较小 很少见的词(“白酒股”,“股价”,“养殖”)权重最大 这里的 权重就是IDF 将TF和IDF相乘,就得到了TF-IDF值,某个词对文章越重要,该值越大,于是排在前面的几个词

分词并去停用词自定义函数:seg_word(sentence)

南笙酒味 提交于 2020-02-15 10:15:04
分词并去停用词自定义函数:seg_word(sentence)。 import jieba def seg_word ( sentence ) : """使用jieba对文档分词""" seg_list = jieba . cut ( sentence ) # 读取停用词文件 stopword_list = [ k . strip ( ) for k in open ( 'stopwords.txt' , encoding = 'utf8' ) . readlines ( ) if k . strip ( ) != '' ] # 去除停用词 return list ( filter ( lambda x : x not in stopword_list , seg_list ) ) print ( seg_word ( "今天是开心的一天" ) ) 输入一个句子"今天是开心的一天",函数返回值为:[‘今天’, ‘开心’, ‘一天’]。 来源: CSDN 作者: 北青萝、 链接: https://blog.csdn.net/weixin_43919570/article/details/104310685

【python】使用jieba分词并导出txt

和自甴很熟 提交于 2020-02-13 22:14:40
主要步骤: 1.读取文件 2.jieba分词 3.写入文件 完整代码如下: import jieba fR = open('gp.txt', 'r', encoding='UTF-8') //读取文件 sent = fR.read() sent_list = jieba.cut(sent) //使用jieba进行分词 fW = open('gp2.txt', 'w', encoding='UTF-8') //写入文件 fW.write(' '.join(sent_list)) fR.close() fW.close() 分词后结果: 华龙 证券 新华路 营业部 总经理 邓丹 在 接受 记者 采访 时 指出 : “ 周二 尾市 收于 2900 点 之上 , 使得 短期 虽然 积累 了 下跌 的 压力 , 但是 仍然 不大可能 深幅 调整 , 更 多 地 是 盘中 洗盘 后 继续 向上 。 就 后市 来讲 , ‘ 领先 指标 ’ 上证 50 收复 了 年线 大关 , 最高 距离 回 补缺 口 只有 17 个点 , 若能 补缺 , 对 上证指数 也 有 正面 的 影响 。 而 单独 就 上证指数 来讲 , 后面 需要 关注 的 压力 位 , 一个 是 运行 到 2924 点 的 500 天线 , 其次 是 前期 提到 的 2934 点 , 然后 是 2955 点 缺口 上 沿 , 最终

[Python]jieba切词 添加字典 去除停用词、单字 python 2020.2.10

这一生的挚爱 提交于 2020-02-10 02:34:56
源码如下: 1 import jieba 2 import io 3 import re 4 5 #jieba.load_userdict("E:/xinxi2.txt") 6 patton=re.compile(r'..') 7 8 #添加字典 9 def add_dict(): 10 f=open("E:/xinxi2.txt","r+",encoding="utf-8") #百度爬取的字典 11 for line in f: 12 jieba.suggest_freq(line.rstrip("\n"), True) 13 f.close() 14 15 #对句子进行分词 16 def cut(): 17 number=0 18 f=open("E:/luntan.txt","r+",encoding="utf-8") #要处理的内容,所爬信息,CSDN论坛标题 19 for line in f: 20 line=seg_sentence(line.rstrip("\n")) 21 seg_list=jieba.cut(line) 22 for i in seg_list: 23 print(i) #打印词汇内容 24 m=patton.findall(i) 25 #print(len(m)) #打印字符长度 26 if len(m)!=0: 27 write(i.strip

jieba库应用 python

こ雲淡風輕ζ 提交于 2020-02-09 16:47:15
应用实例: 准备一个txt文件 import jieba txt = open("三国演义.txt","r", encoding = 'gbk',errors='ignore').read() #读取已存好的txt文档 words = jieba.lcut(txt) #进行分词 counts = {} for word in words: if len(word)== 1: #去掉标点字符和其它单字符 continue else: counts[word] = counts.get(word, 0) + 1 #计数 items = list(counts.items()) #把对象对象转化为列表形式,利于下面操作 #sort() 函数用于对原列表进行排序,如果指定参数,则使用比较函数指定的比较函数 #reverse 排序规则,reverse = True 降序, reverse = False 升序(默认) #key 是用来比较的参数 items.sort(key=lambda x: x[1], reverse = True) for i in range(1000): word, count= items[i] print("{0:<10}{1:>5}".format(word, count)) 结果 来源: https://www.cnblogs.com

python jieba分词

假装没事ソ 提交于 2020-02-08 20:30:35
#!/usr/bin/python # -*- coding: UTF-8 -*- import jieba import jieba.analyse import pymysql id = 1 # shoes.txt中的标签库 tag_ku = [] #精确模式分成的tag tag = [] # 打开标签库 f = open('D:\spider\shoes.txt','r',encoding='utf-8') f.seek(0) #从标签库中读取所有数据,并将每行内容作为一个元素存在data列表里 data = f.read().splitlines() # 将每行第一个词条即标签读出来 for tag_line in data: tag_ku.append(tag_line.split(' ')[0]) # jiebashe'zhiz自定义词库 jieba.set_dictionary('./shoes.txt') # 连接数据库 coon = pymysql.connect(user='root', password='root', host='127.0.0.1', port=3306, database='bishe_shoes',use_unicode=True, charset="utf8") cursor = coon.cursor() #