jieba | 易学教程

Serverless 的资源评估与成本探索

阅读更多关于 Serverless 的资源评估与成本探索

Serverless 布道师在讲解 Serverless 架构和云主机等区别的时候，总会有类似的描述：传统业务开发完成想要上线，需要评估资源使用。根据评估结果，购买云主机，并且需要根据业务的发展不断对主机等资源进行升级维。而 Serverless 架构，则不需要这样复杂的流程，只需要将函数部署到线上，一切后端服务交给运营商来处理。即使是瞬时高并发，也有云厂商为您自动扩缩。但是在实际生产中，Serverless 真的无需评估资源么？还是说在 Serverless 架构下，资源评估的内容、对象发生了变化，或者简化呢？在腾讯云云函数中，我们创建一个云函数之后，有这么几个设置项：内存设置范围为 64~1536M，超时时间范围为 1~900s。这些设置项其实已经涉及到了资源评估。超时时间先说超时时间，一个项目或者一个函数，一个 Action 都是有执行时间的。如果超过某个时间没执行完，就可以评估其为发生了「意外」，可以被「干掉」了，这个就是超时时间。例如一个获取用户信息的简单请求，假设 10s 内没有返回，证明已经不满足业务需求，此时就可以将超时设置为 10s。如果有另一个业务，运行速度比较慢，至少要 50s 才能执行完，那么这个值的设置就要大于 50，否则程序可能因为超时被强行停止。内存内存是一个有趣的东西，可能衍生两个关联点。关联点 1：程序本身需要一定的内存

【数据分析实战】数据分析及可视化实战：豆瓣电影数据分析

阅读更多关于【数据分析实战】数据分析及可视化实战：豆瓣电影数据分析

本次数据：来源豆瓣电影 40万条短评 50条以上评论电影1100多部数据储存在sqlite数据库里左侧点开Tables，可以看到有三张表双击comment 在右侧点击数据标签可以查看观察每行都有哪些数据 ID: 序号 TIME: 时间 MOVIEID: 豆瓣电影ID RATING: 该评论打分 CONTENT: 评论内容 CREATOR: 评论者 ADD_TIME:添加时间 “结巴”中文分词 https://github.com/fxsjy/jieba • 支持三种分词模式： • 精确模式，试图将句子最精确地切开，适合文本分析； • 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； • 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 • 支持繁体分词 • 支持自定义词典 • MIT 授权协议安装： pip install jieba pip3 install jieba import sqlite3 import pandas as pd import jieba from pyecharts . faker import Faker from pyecharts . charts import WordCloud from pyecharts import options as opts

中文词频统计与词云生成

阅读更多关于中文词频统计与词云生成

中文词频统计：作业连接： https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 jieba.load_userdict(word_dict) #词库文本文件参考词库下载地址：https://pinyin.sogou.com/dict/ 转换代码：scel_to_text 5. 生成词频统计 6. 排序 7. 排除语法型词汇，代词、冠词、连词等停用词。 stops 8. 输出词频最大TOP20，把结果存放到文件里 9. 生成词云。本案例统计红楼梦词频： 1.在网上下载红楼梦txt文件 2.使用PyCharm 编译器自动下载 jieba 包 3.搜狗文库中下载红楼梦词库，并将词库.scel文件转化为txt文件 4.先将转化为txt形式的词库文件加入，再对红楼梦文本进行词频统计，统计出频率最高的20个词： ``` import jiebatxt = open(r"C:\Users\Administrator

jieba库常用函数及解析实例

阅读更多关于 jieba库常用函数及解析实例

中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库，需要额外安装在（cmd命令行）情况下运行 pip install jieba 进行安装 jieba分词原理利用一个中文词库，确定汉字之间的关联概率汉字间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组 jieba分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式基础上，对长词再次切分 jieba库常用函数函数描述 jieba.lcut(s) 精确模式，返回一个列表类型的分词结果 jieba.lcut(s,cut_all=True) 全模式，返回一个列表类型的分词结果，存在冗余 jieba.lcut_for_search(s) 搜索引擎模式，返回一个列表类型的分词结果，存在冗余 jieba.add_word(w) 向分词词典增加新词w 例如： > s = "中国是一个伟大的国家" > jieba . lcut ( s ) [ '中国' , '是' , '一个' , '伟大' , '的' , '国家' ] > jieba . lcut ( s , cut_all = True ) [ '中国' , '国是' , '是' , '一个' , '伟大' , '的' ,

jieba分词详解和实践

阅读更多关于 jieba分词详解和实践

jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前，我们先了解一下中文分词的一些概念：最常用的TF-IDF 什么是TF-IDF呢？要分成2个部分来理解。 TF，词频——一个词在文章中出现的次数 IDF，在词频的基础上，赋予每个词一个权重，体现该词的重要性。这是什么意思呢？我们来看个例子。这是一条财经类新闻上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ；/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中上周：出现 1 次时间：出现 2 次白酒股：出现 1 次的：出现 2 次股价：出现 1 次 … 在以上的信息中，1、2、1、2、1等等这些次数就是TF词频。通常来说，一个词越重要，就会在文章中出现多次，这个词也就能反映出这篇文章的特性，但是你会发现，这篇文章出现最多次数的是时间、的，它们反映出文章的特性了吗？当然没有！所以，我们还要对每个词进行分类赋予权重：最常见的词（“的”，“是”，“了”）权重最小比较常见的词（“时间”，“上周”，“中国”）权重比较小很少见的词（“白酒股”，“股价”，“养殖”）权重最大这里的权重就是IDF 将TF和IDF相乘，就得到了TF-IDF值，某个词对文章越重要，该值越大，于是排在前面的几个词

分词并去停用词自定义函数：seg_word(sentence)

阅读更多关于分词并去停用词自定义函数：seg_word(sentence)

分词并去停用词自定义函数：seg_word(sentence)。 import jieba def seg_word ( sentence ) : """使用jieba对文档分词""" seg_list = jieba . cut ( sentence ) # 读取停用词文件 stopword_list = [ k . strip ( ) for k in open ( 'stopwords.txt' , encoding = 'utf8' ) . readlines ( ) if k . strip ( ) != '' ] # 去除停用词 return list ( filter ( lambda x : x not in stopword_list , seg_list ) ) print ( seg_word ( "今天是开心的一天" ) ) 输入一个句子"今天是开心的一天"，函数返回值为：[‘今天’, ‘开心’, ‘一天’]。来源： CSDN 作者：北青萝、链接： https://blog.csdn.net/weixin_43919570/article/details/104310685

【python】使用jieba分词并导出txt

阅读更多关于【python】使用jieba分词并导出txt

主要步骤： 1.读取文件 2.jieba分词 3.写入文件完整代码如下： import jieba fR = open('gp.txt', 'r', encoding='UTF-8') //读取文件 sent = fR.read() sent_list = jieba.cut(sent) //使用jieba进行分词 fW = open('gp2.txt', 'w', encoding='UTF-8') //写入文件 fW.write(' '.join(sent_list)) fR.close() fW.close() 分词后结果：华龙证券新华路营业部总经理邓丹在接受记者采访时指出： “ 周二尾市收于 2900 点之上，使得短期虽然积累了下跌的压力，但是仍然不大可能深幅调整，更多地是盘中洗盘后继续向上。就后市来讲， ‘ 领先指标 ’ 上证 50 收复了年线大关，最高距离回补缺口只有 17 个点，若能补缺，对上证指数也有正面的影响。而单独就上证指数来讲，后面需要关注的压力位，一个是运行到 2924 点的 500 天线，其次是前期提到的 2934 点，然后是 2955 点缺口上沿，最终

[Python]jieba切词添加字典去除停用词、单字 python 2020.2.10

阅读更多关于 [Python]jieba切词添加字典去除停用词、单字 python 2020.2.10

源码如下： 1 import jieba 2 import io 3 import re 4 5 #jieba.load_userdict("E:/xinxi2.txt") 6 patton=re.compile(r'..') 7 8 #添加字典 9 def add_dict(): 10 f=open("E:/xinxi2.txt","r+",encoding="utf-8") #百度爬取的字典 11 for line in f: 12 jieba.suggest_freq(line.rstrip("\n"), True) 13 f.close() 14 15 #对句子进行分词 16 def cut(): 17 number=0 18 f=open("E:/luntan.txt","r+",encoding="utf-8") #要处理的内容，所爬信息，CSDN论坛标题 19 for line in f: 20 line=seg_sentence(line.rstrip("\n")) 21 seg_list=jieba.cut(line) 22 for i in seg_list: 23 print(i) #打印词汇内容 24 m=patton.findall(i) 25 #print(len(m)) #打印字符长度 26 if len(m)!=0: 27 write(i.strip

jieba库应用 python

阅读更多关于 jieba库应用 python

应用实例：准备一个txt文件 import jieba txt = open("三国演义.txt","r", encoding = 'gbk',errors='ignore').read() #读取已存好的txt文档 words = jieba.lcut(txt) #进行分词 counts = {} for word in words: if len(word)== 1: #去掉标点字符和其它单字符 continue else: counts[word] = counts.get(word, 0) + 1 #计数 items = list(counts.items()) #把对象对象转化为列表形式，利于下面操作 #sort() 函数用于对原列表进行排序，如果指定参数，则使用比较函数指定的比较函数 #reverse 排序规则，reverse = True 降序， reverse = False 升序（默认） #key 是用来比较的参数 items.sort(key=lambda x: x[1], reverse = True) for i in range(1000): word, count= items[i] print("{0:<10}{1:>5}".format(word, count)) 结果来源： https://www.cnblogs.com

python jieba分词

阅读更多关于 python jieba分词

#!/usr/bin/python # -*- coding: UTF-8 -*- import jieba import jieba.analyse import pymysql id = 1 # shoes.txt中的标签库 tag_ku = [] #精确模式分成的tag tag = [] # 打开标签库 f = open('D:\spider\shoes.txt','r',encoding='utf-8') f.seek(0) #从标签库中读取所有数据，并将每行内容作为一个元素存在data列表里 data = f.read().splitlines() # 将每行第一个词条即标签读出来 for tag_line in data: tag_ku.append(tag_line.split(' ')[0]) # jiebashe'zhiz自定义词库 jieba.set_dictionary('./shoes.txt') # 连接数据库 coon = pymysql.connect(user='root', password='root', host='127.0.0.1', port=3306, database='bishe_shoes',use_unicode=True, charset="utf8") cursor = coon.cursor() #

订阅 jieba