业务领域建模Domain Modeling
我的工程实践是《基于情感词典的文本情感分析》,下面是以我的工程实践为例来进行业务建模。 ♦1)收集应用领域信息 –关注功能要求–还考虑其他需求和文档 本次项目主要是针对京东手机评论的情感分析,分析提取评论的情感偏向和主题词。通过分析某款手机的评论,得知商品的特点,即可以帮助商家改进产品,也可以满足消费者不同的需求。 ♦2)头脑风暴 –列出重要的应用程序域概念–列出它们的属性–列出它们之间的关系 1.获取数据集:本次项目主要是针对京东手机评论的情感分析,获取数据集的主要方法有网络爬虫、利用开源的API获取、下载现成的数据集。 2.数据预处理:主要工作是对获取的数据集进行去噪,包括删去重复值、处理缺失值,然后为情感分析作准备,包括分词、去除停用词、文本向量化。 3.构建领域情感词典:主要使用的是一些公开的情感词典,再基于语义相识度的方法进行扩充,整合成特定领域的情感词典。 4.情感分析:主要使用情感词典的方法,同时可以使用一些机器学习的方法来提高准确性。 5.提取主题:使用LDA模型来挖掘文本的主题。 ♦3)将领域概念分为: –类–属性/属性值–关系 •关联,继承,聚合 1.获取数据集。商品评论:网络爬虫抓取数据()、利用开放API获取()、下载公开数据集() 2.数据预处理。商品评论:去重()、分词()、去除停用词()、文本向量化() 3.构建领域情感词典。情感词典:整合公开情感词典