我的工程实践项目是金融文本数据挖掘。
业务领域建模
模型通常由2部分组成:
- 元素
- 元素间的关系
因此,领域建模的主要任务是:
- 寻找业务对象
- 恰当建立这些对象间的关系
应用域信息
随着时间的流逝,不断有新的新闻发出,旧的新闻文本中包含的信息已无太大意义。所以管理员需要定时的更新新闻材料库以及训练模型,使系统能够挖掘出最新新闻中隐藏的信息。此外,自动生成知识图谱也是必要的,在管理员更新新闻材料库后,系统应及时生成出最新的知识图谱。由于知识图谱的庞大,用户不一定能够发现哪些是最新新闻加入的实体关系。所以系统还应标识出哪些实体关系是最新加入的。
重要的域
本系统最主要的域就是普通用户与管理员。
- 普通用户:普通用户可以使用系统生成的知识图谱查询某突发事件,通过展示出与该关键词相关实体,以及实体之间的关联。辅助用户对该突发事件做出一个判断。
普通用户属性:登录及注册、查询某事件、下载相关知识图谱。 - 管理员:管理员主要是维护系统的运行以及爬取最新新闻,更新模型的知识图谱。
管理员属性:登录、更新新闻库、更新模型、查看用户访问情况。
关系:管理员更新信息供普通用户查询。
类以及对应属性
管理员:管理员id,账号和密码、操作记录
用户:用户名以及密码、查询记录、电话号码
爬虫:起始url、爬取方法
新闻:新闻标题、新闻发布事件、新闻url、新闻内容、新闻类型、新闻发布作者
对应类的UML图
来源:https://www.cnblogs.com/hallowode/p/11887649.html