SnowNLP

实用小技巧,Python一秒将全部中文姓名转为拼音!

[亡魂溺海] 提交于 2020-12-19 16:34:36
有时在处理文件时候,我们需要 将中文姓名转换为拼音,或者是转换为拼音首字母 ,本文将介绍三种Python实现的方法,最后给一个批量操作的代码案例! 一、xpinyin 开门见山,Python中文字转拼音可以使用 xpinyin ,直接使用pip安装即可👇 pip install xpinyin -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 接着导入xpinyin下的 Pinyin 方法如下 from xpinyin import Pinyin 首先试试中文名转拼音, p = Pinyin() result1 = p.get_pinyin( '叶伏天' ) result1 结果如下: 'ye-fu-tian' tone_marks 可以显示声调 result2 = p.get_pinyin( '叶伏天' , tone_marks= 'marks' ) 结果如下: 'yè-fú-tiān' 去掉空格👇 s = result1.split( '-' ) result3 = s[ 0 ].capitalize() + ' ' + '' .join(s[ 1 :]).capitalize() result3 结果如下: 'Ye Futian' 有时需要中文名转拼音首字母,也很简单👇 二、pypinyin

Python大佬分析了15万歌词,告诉你民谣歌手们到底在唱什么

偶尔善良 提交于 2020-08-18 06:34:47
前几天小编写了两篇利用Python 采集网易云歌词 和 采集网易云音乐歌曲 文章,相信小伙伴们经过实践之后都能够顺利的采集到自己想要听的歌曲。下面的歌词是小编去年11月份采集的民谣歌词,经过统计,歌词量达到将近15万。 用Python采集的民谣歌词 心血来潮,想利用Python来分析一下民谣歌手们到底在唱些什么鬼~~ 首先运用jieba库进行分词和词频统计分析,得到歌词中的词频统计,部分主要代码如下图所示: 运用jieba库进行分词和词频统计分析 得到的词频后将其导入到Excel表格中,详情如下图: 民谣歌手词频统计表 利用词云将其进行可视化,得到效果图如下: 歌词词云可视化 歌词词云可视化 从词频中,我们可以感受到民谣歌手们时常提及青春,感叹韶华易逝,青春小鸟一去不回来。他们会觉得很孤单,但是并不沉浸在忧伤之中,而是心中向往着远方,对整个世界充满希望、对未来充满阳光。嘿嘿,民谣歌手们在传递正能量咧~~ 之后通过词频统计分析歌手们喜欢的季节,得到的数据统计如下图所示: 民谣歌手们喜欢的季节 由饼图可以看出,民谣歌手们比较喜欢春天 等待下一个春天回来;飘在异乡的雪 覆盖了春天 继续分析民谣歌手的歌词,探索民谣歌手们到底喜欢活在哪一天,详情如下图所示: 民谣歌手们到底喜欢活在哪一天 由柱状图可以看出,民谣歌手们更加喜欢明天,对于明天充满希望。大家都说我拿青春赌明天,看来是有道理滴

flask + pyecharts 搭建新冠肺炎疫情数据可视化交互分析平台:包含疫情数据获取、态势感知、预测分析、舆情监测等任务

时光怂恿深爱的人放手 提交于 2020-08-10 19:54:46
该项目是浙江大学地理空间数据库课程作业8:空间分析中,使用 flask + pyecharts 搭建的简单新冠肺炎疫情数据可视化交互分析平台,包含疫情数据获取、态势感知、预测分析、舆情监测等任务 包含完整代码和实现的github地址: https://github.com/yunwei37/COVID-19-NLP-vis 项目分析报告已部署到网页端,可点击 http://flask.yunwei123.tech/ 进行查看 交互可视化分析截图: 空间数据分析 作业要求 作业目的: 了解空间数据在日常生活中的应用,熟悉空间数据统计分析、空间数据挖掘、空间数据可视化等技术。 作业内容: 新型冠状病毒肺炎(COVID-19,简称“新冠肺炎”)疫情肆虐全球多个国家,2020年3月11日,世界卫生组织 (WHO) 正式宣布将新冠肺炎列为全球性大流行病。在全球抗击新型冠状病毒疫情的过程中,产生了前所未有的大规模疫情数据,利用大数据分析技术和方法能够协助发现病毒传染源、监测疫情发展、调配救援物资,从而更好地进行疫情防控工作。空间数据分析作为大数据分析的重要组成,将数据智能处理、直观展示和交互分析有机地结合,使机器智能和人类智慧深度融合、优势互补,为疫情防控中的分析、指挥和决策提供有效依据和指南。 作业要求以新冠疫情或其它重大公共卫生事件的相关时空数据为基础,利用数据清洗与管理、统计分析

[Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算

风流意气都作罢 提交于 2020-08-10 12:25:34
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了CNN实现中文文本分类的过程,并与贝叶斯、决策树、逻辑回归、随机森林、KNN、SVM等分类算法进行对比。这篇文章将详细讲解通过自定义情感词典(大连理工词典)实现情感分析和情绪分类的过程,并与SnowNLP进行对比,为后续深度学习和自然语言处理(情感分析、实体识别、实体对齐、知识图谱构建、文本挖掘)结合做基础,希望对您有所帮助~ 本专栏主要结合作者之前的博客、AI经验和相关视频及论文介绍,后面随着深入会讲解更多的Python人工智能案例及应用。基础性文章,希望对您有所帮助,如果文章中存在错误或不足之处,还请海涵~作者作为人工智能的菜鸟,希望大家能与我在这一笔一划的博客中成长起来。写了这么多年博客,尝试第一个付费专栏,但更多博客尤其基础性文章,还是会继续免费分享,但该专栏也会用心撰写,望对得起读者,共勉! TF下载地址: https://github.com/eastmountyxz/AI-for-TensorFlow Keras下载地址: https://github.com/eastmountyxz/AI-for-Keras 情感分析地址: https://github.com/eastmountyxz/Sentiment-Analysis PS:本文参考了作者YX学生的学习思路

Serverless 实战:如何结合 NLP 实现文本摘要和关键词提取?

。_饼干妹妹 提交于 2020-05-08 10:08:36
对文本进行自动摘要的提取和关键词的提取,属于自然语言处理的范畴。提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读;而提取关键词的好处是可以让文章与文章之间产生关联,同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容。 文本摘要和关键词提取都可以和传统的 CMS 进行结合,通过对文章 / 新闻等发布功能进行改造,同步提取关键词和摘要,放到 HTML 页面中作为 Description 和 Keyworks。这样做在一定程度上有利于搜索引擎收录,属于 SEO 优化的范畴。 关键词提取 关键词提取的方法很多,但是最常见的应该就是 tf-idf 了。 通过 jieba 实现基于 tf-idf 关键词提取的方法: jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v')) 文本摘要 文本摘要的方法也有很多,如果从广义上来划分,包括提取式和生成式。其中提取式就是在文章中通过 TextRank 等算法,找出关键句然后进行拼装,形成摘要,这种方法相对来说比较简单,但是很难提取出真实的语义等;另一种方法是生成式,通过深度学习等方法,对文本语义进行提取再生成摘要。 如果简单理解,提取式方式生成的摘要,所有句子来自原文

Serverless 实战:如何结合 NLP 实现文本摘要和关键词提取?

微笑、不失礼 提交于 2020-05-08 09:54:43
对文本进行自动摘要的提取和关键词的提取,属于自然语言处理的范畴。提取摘要的一个好处是可以让阅读者通过最少的信息判断出这个文章对自己是否有意义或者价值,是否需要进行更加详细的阅读;而提取关键词的好处是可以让文章与文章之间产生关联,同时也可以让读者通过关键词快速定位到和该关键词相关的文章内容。 文本摘要和关键词提取都可以和传统的 CMS 进行结合,通过对文章 / 新闻等发布功能进行改造,同步提取关键词和摘要,放到 HTML 页面中作为 Description 和 Keyworks。这样做在一定程度上有利于搜索引擎收录,属于 SEO 优化的范畴。 关键词提取 关键词提取的方法很多,但是最常见的应该就是 tf-idf 了。 通过 jieba 实现基于 tf-idf 关键词提取的方法: jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v')) 文本摘要 文本摘要的方法也有很多,如果从广义上来划分,包括提取式和生成式。其中提取式就是在文章中通过 TextRank 等算法,找出关键句然后进行拼装,形成摘要,这种方法相对来说比较简单,但是很难提取出真实的语义等;另一种方法是生成式,通过深度学习等方法,对文本语义进行提取再生成摘要。 如果简单理解,提取式方式生成的摘要,所有句子来自原文

NLP之中文自然语言处理工具库:SnowNLP(情感分析/分词/自动摘要)

╄→гoц情女王★ 提交于 2020-04-29 23:38:09
一 安装与介绍 1.1 概述 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了 TextBlob 的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。 1.2 特点 <div align=center> <img src="https://img2018.cnblogs.com/blog/1173617/201905/1173617-20190505151012809-670304442.png"> </div> ``` python # s as SnowNLP(text) 1) s.words 词语 2) s.sentences 句子/分句 3) s.sentiments 情感偏向,0-1之间的浮点数,越靠近1越积极(正面) 4) s.pinyin 转为拼音 5) s.han 转为简体 6) s.keywords(n) 提取关键字,n默认为5 7) s.summary(n) 提取摘要,n默认为5 8) s.tf 计算term frequency词频 9) s.idf 计算inverse document

Python分词、情感分析工具——SnowNLP

血红的双手。 提交于 2020-04-29 20:59:43
本文内容主要参考GitHub:https://github.com/isnowfy/snownlp what's the SnowNLP   SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。 安装 pip install snownlp 主要用法 # 导入SnowNLP库 from snownlp import SnowNLP # 需要操作的句子 text = ' 你站在桥上看风景,看风景的人在楼上看你。明月装饰了你的窗子,你装饰了别人的梦 ' s = SnowNLP(text) # 分词 print (s.words) 主要功能 中文分词( Character-Based Generative Model ) 词性标注( TnT 3-gram 隐马) 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决) 文本分类(Naive Bayes) 转换成拼音(Trie树实现的最大匹配) 繁体转简体(Trie树实现的最大匹配

python使用jieba实现中文文档分词和去停用词

隐身守侯 提交于 2019-12-10 05:43:11
分词工具的选择:   现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后的结果文档 中文停用词文档(用于去停用词,在网上可以找到很多) 分词之后的结果呈现: 图1 去停用词和分词前的中文文档 图2去停用词和分词之后的结果文档 分词和去停用词代码实现: 来源: oschina 链接: https://my.oschina.net/u/3793864/blog/3063661

NLP自然语言处理中英文分词工具集锦与基本使用介绍

只谈情不闲聊 提交于 2019-11-30 22:21:21
一、中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1. from stanfordcorenlp import StanfordCoreNLP 2. with StanfordCoreNLP(r'E:\Users\Eternal Sun\PycharmProjects\1\venv\Lib\stanford-corenlp-full-2018-10-05', lang='zh') as nlp: 3. print("stanfordcorenlp分词:\n",nlp.word_tokenize(Chinese)) (6)Hanlp分词工具 分词结果如下: 二、英文分词工具 1. NLTK: 二者之间的区别在于,如果先分句再分词,那么将保留句子的独立性,即生成结果是一个二维列表,而对于直接分词来说,生成的是一个直接的一维列表,结果如下: 2. SpaCy: 3. StanfordCoreNLP: 分词结果 来源: oschina 链接: https://my.oschina.net/u/3793864/blog/3056365