Chat:NLP 中文短文本分类项目实践(上)

半腔热情 提交于 2020-09-23 12:44:37

目前,随着大数据、云计算对关系型数据处理技术趋向稳定成熟,各大互联网公司对关系数据的整合也已经落地成熟,笔者预测未来数据领域的挑战将主要集中在半结构化和非结构化数据的整合,NLP 技术对个人发展越来越重要,尤其在中文文本上挑战更大。

在本场 Chat 以及现在和未来工作中,笔者都将致力于中文文本的挖掘与开发,而且是通过实战来增加对中文 NLP 需求的应用理解。

由于是第一讲,笔者在本次 Chat 并没有提及较深入的 NLP 处理技术,通过 WordCloud 制作词云、用 LDA 主题模型获取文本关键词、以及用朴素贝叶斯算法和 SVM 分别对文本分类,目的是让大家对中文文本处理有一个直观了解,为后续实战提供基础保障。

下面是一些约定:

  1. 本 Chat 示例代码都是基于 Python3 写的,带有必要的注释;
  2. 中文自然语言处理(Chinese natural language processing),后面笔者全部简称 CNLP;
  3. 笔者所用开发环境是 Windows 10 操作系统和 Jupyter notebook 开发工具。相信示例代码在 Linux、Mac OS 等系统上运行也没问题。

一、WordCloud 制作词云

最近中美贸易战炒的沸沸扬扬,笔者用网上摘取了一些文本(自己线下可以继续添加语料),下面来制作一个中美贸易战相关的词云。

1. jieba 分词安装

jieba 俗称中文分词利器,作用是来对文本语料进行分词。

  • 全自动安装:easy_install jieba 或者 pip install jieba / pip
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!