crf

阿里云 Centos7 部署Java web [jar/war/virmach+vps+域名服务]

徘徊边缘 提交于 2020-10-10 01:53:34
(一)第一部分:最基本的jar包运行(无需配置tomcat) [http://60.205.183.114:8081/ ] 1、配置阿里云(Esc学生服务器、镜像Centos7.7),并远程连接进入终端。 2、安装并配置JDK(参考 https://www.jianshu.com/p/093413f2a04f) a)安装jdk。 b)寻找jdk路径配置环境变量。 c)简单的Java hello world测试确保安装成功。 3、安装并配置mysql(mariadb)(参考 https://blog.csdn.net/DaSo_CSDN/article/details/54754936 ) a)安装mysql、mariadb server。 b)systemctl 开启服务。 c) 打开端口。(阿里云要在控制台打开,参考 https://yq.aliyun.com/articles/701181) d) 更改mysql 的root密码,对应于项目配置文件中的密码。 4、利用scp进行文件传输(参考 https://www.cnblogs.com/tugenhua0707/p/8278772.html ) a)传输spring maven 的快照版本用于测试。 b)传输数据库sql文件。 5、导入数据库 a)创建sql文件对应的数据库。 b)利用文件重定向运行sql文件。 c

NLPChina_ansj_seg JAVA 实现热词及分词统计

那年仲夏 提交于 2020-10-08 10:24:40
前言: 笔者最近遇到一个需求:将文章输入后输出文章中的高频词,这是个简短的需求,但细分下便会出现许多细节重点。笔者细化需求后确定了这几个步骤:1. 文章分词(包括中英文混词)——> 2. 分词统计——>3. 推荐热词。 根据上述的简单需求,我就想用原生JAVA通过某些数据结构实现,由于知识面有限且笔者目前是名在校的学生,实现了英文下的分词、中文下的分词。但是遇到中英文混排的怎么也合并不了。经过两天的各种思考各种分析结果以失败告终。在查阅资料的时候发现了阿帕奇的OpenNLP 工具,然后仔细的看了看源码。。看的也是云里雾里的,但基本思想也了解了。虽然阿帕奇的OpenNLP很牛逼,但是我还是选择了一个国人自产基于n-Gram+CRF+HMM的分词JAVA实现。具体开发文档和源码可以访问 GITHUB 。 废话不多说上源码。 工具类: package com.sim; import org.ansj.splitWord.analysis.ToAnalysis; import java.io.*; import java.util.*; public class NLPTools { public static Map<String,String> wordFrequency(String article) { Map<String, Integer> map = new HashMap

【Keras】基于SegNet和U-Net的遥感图像语义分割

删除回忆录丶 提交于 2020-10-04 03:54:44
上两个月参加了个比赛,做的是对遥感高清图像做语义分割,美其名曰“天空之眼”。这两周数据挖掘课期末project我们组选的课题也是遥感图像的语义分割,所以刚好又把前段时间做的成果重新整理和加强了一下,故写了这篇文章,记录一下用深度学习做遥感图像语义分割的完整流程以及一些好的思路和技巧。 数据集 首先介绍一下数据,我们这次采用的数据集是CCF大数据比赛提供的数据(2015年中国南方某城市的高清遥感图像),这是一个小数据集,里面包含了5张带标注的大尺寸RGB遥感图像(尺寸范围从3000×3000到6000×6000),里面一共标注了4类物体,植被(标记1)、建筑(标记2)、水体(标记3)、道路(标记4)以及其他(标记0)。其中,耕地、林地、草地均归为植被类,为了更好地观察标注情况,我们将其中三幅训练图片可视化如下:蓝色-水体,黄色-房屋,绿色-植被,棕色-马路。更多数据介绍可以参看 这里 。 现在说一说我们的数据处理的步骤。我们现在拥有的是5张大尺寸的遥感图像,我们不能直接把这些图像送入网络进行训练,因为内存承受不了而且他们的尺寸也各不相同。因此,我们首先将他们做随机切割,即随机生成x,y坐标,然后抠出该坐标下256*256的小图,并做以下数据增强操作: 原图和label图都需要旋转:90度,180度,270度 原图和label图都需要做沿y轴的镜像操作 原图做模糊操作

ffmpeg 硬压字幕的实现

自作多情 提交于 2020-10-02 23:41:46
常用的字幕格式 webvtt、ass、srt 硬压字幕参数 ffmpeg -i “imput.mp4” -lavfi “subtitles=subtitles.srt:force_style=‘Alignment=0,OutlineColour=&H100000000,BorderStyle=3,Outline=1,Shadow=0,Fontsize=18,MarginL=5,MarginV=25’” -crf 1 -c:a copy “output.mp4” ffmpeg -i "imput.mp4" -lavfi "subtitles=subtitles.srt:force_style='Alignment=0,OutlineColour=&H100000000,BorderStyle=3,Outline=1,Shadow=0,Fontsize=18,MarginL=5,MarginV=25'" -crf 1 -c:a copy "output.mp4" 参数: 01.Name 风格(Style)的名称. 区分大小写. 不能包含逗号. 02.Fontname 使用的字体名称, 区分大小写. 03.Fontsize 字体的字号 04.PrimaryColour 设置主要颜色, 为蓝-绿-红三色的十六进制代码相排列, BBGGRR. 为字幕填充颜色 05

强化学习(二)马尔科夫决策过程(MDP)

烂漫一生 提交于 2020-10-01 03:40:44
    在 强化学习(一)模型基础 中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。     MDP这一篇对应Sutton书的第三章和UCL强化学习课程的第二讲。 1. 强化学习引入MDP的原因     强化学习的8个要素我们在第一节已经讲了。其中的第七个是环境的状态转化模型,它可以表示为一个概率模型,即在状态$s$ 下采取动作$a$ ,转到下一个状态$s'$ 的概率,表示为$P_{ss'}^a$。     如果按照真实的环境转化过程看,转化到下一个状态$s'$ 的概率既与上一个状态$s$有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态$s'$ 的概率仅与上一个状态$s$有关,与之前的状态无关。用公式表示就是:$$P_{ss'}^a = \mathbb{E}(S_{t+1}=s'|S_t=s, A_t=a)$$     对于马尔科夫性本身,我之前讲过的 隐马尔科夫模型HMM(一)HMM模型 ,

一文走遍完整NLP自然语言处理流程

余生长醉 提交于 2020-09-23 16:51:08
NLP进阶之路上,你是否也遇到过这些疑问? 为什么在这个问题上使用Adam,而不是GD或者Adagrad? 对于特定的业务场景,我应该如何把领域知识考虑进去, 用先验,还是用限制条件? 对于拼车场景,设计了一套优化目标,但好像是离散优化问题,应该如何解决? 对于二分类,我应该选择交叉熵还是Hinge Loss? 想在NLP进阶之路上有所成长,推荐你贪心学院的《高阶NLP集训营》。 实战6大NLP项目 1.从零搭建一个完整的问答系统。 2.基于给定数据,搭建完整的情感分析系统。 3.利用非结构化数据搭建知识图谱。 4.基于给定的对话数据构建NLU识别部分,结果用于聊天机器人中。 5.基于给定数据,搭建一个完整的情感分析系统。 6.搭建一个完整的聊天机器人,用来服务搜索餐厅。 《NLP高阶训练营》 ???? ???? ???? 添加课程顾问小姐姐,备注【NLP】 领取课程 优惠名额 01课程大纲 《NLP高阶训练营》 ???? ???? ???? 添加课程顾问小姐姐,备注【NLP】 领取课程 优惠名额 02部分项目作业 课程设计 紧密围绕学术界最新进展以及工业界的需求, 涵盖了所有核心知识点,并且结合了 大量实战项目, 培养学员的动手能力,解决问题能力。 问答系统 从零开始搭建一个完整的问答系统。 给定一个语料库(问题和答案对),对于用户的输入需要返回最适合的答案。 涉及到的模块: 1

谷歌联手伯克利给机器人上网课!观看8位医生手术视频学缝合

巧了我就是萌 提交于 2020-08-16 23:59:34
      大数据文摘出品    来源:Techxplore    编译:张睿毅、Andy   前段时间,文摘菌曾提过价值53万一只的波士顿动力机器狗,也有进行太空探索的昆虫机器人,万万没想到的是,这次来了一个和大家一样上网课的机器人。   不知道你有没有想过这种场景,去医院做手术时,医生助手已经不是可爱的护士小姐姐,而是 两只冷冰冰的机械臂,以快准狠的手法帮你缝合伤口 。   最近在Google Brain,英特尔还有UC伯克利的合作研究中,研究人员通过用手术教学视频来对机器人进行“训练”,让其能模仿手术过程。      之前,UC伯克利的教授有用过YouTube视频指导机器人学习各种动作(比如跳跃和跳舞), 而Google则是有训练机器人理解场景中的深度还有动作。   于是这次的团队,决定 将之前的研究成果结合起来,应用于最新项目Motion2Vec。   Motion2Vec:机器人也要上网课   Motion2Vec算法,能用真实手术视频来指导机器人学习相关手术动作。   在最近发布的论文里,研究人员简单介绍了他们如何用YouTube视频来训练 两臂达芬奇(da Vinci)机器人在针刺机上进行缝合操作。   它从模仿学习的视频演示中,获得以运动为中心的操作技能。其中表示的算法一致性、可解释性和监督学习的负担是该项目模仿学习中的关键问题

强化学习(二)马尔科夫决策过程(MDP)

无人久伴 提交于 2020-08-16 03:47:19
    在 强化学习(一)模型基础 中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。     MDP这一篇对应Sutton书的第三章和UCL强化学习课程的第二讲。 1. 强化学习引入MDP的原因     强化学习的8个要素我们在第一节已经讲了。其中的第七个是环境的状态转化模型,它可以表示为一个概率模型,即在状态$s$ 下采取动作$a$ ,转到下一个状态$s'$ 的概率,表示为$P_{ss'}^a$。     如果按照真实的环境转化过程看,转化到下一个状态$s'$ 的概率既与上一个状态$s$有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态$s'$ 的概率仅与上一个状态$s$有关,与之前的状态无关。用公式表示就是:$$P_{ss'}^a = \mathbb{E}(S_{t+1}=s'|S_t=s, A_t=a)$$     对于马尔科夫性本身,我之前讲过的 隐马尔科夫模型HMM(一)HMM模型 ,

用户画像简介

淺唱寂寞╮ 提交于 2020-08-14 13:07:57
参考文章: 推荐系统——用户画像 1. 用户画像 1.1 用户画像定义 用户画像:也叫用户信息标签化、客户标签;根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。从电商的角度看,根据你在电商网站上所填的信息和你的行为,可以用一些标签把你描绘出来,描述你的标签就是用户画像。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。 用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品,包括但不仅限于用户的注册资料、标签,各种深度学习得到的 embedding 向量。 用户画像是对现实世界中用户的数学建模,主要包括两方面: 描述用户,即用户在业务信息维度中的信息投射 通过分析挖掘用户尽可能多的数据信息,对用户信息数据进行抽象,提炼,转化。 用户画像关键元素: 维度、量化 按照对用户向量化的手段来分,用户画像构建方法分成三类: 第一类就是原始数据。直接使用原始数据作为用户画像的内容,如注册资料,行为轨迹等信息,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。这种方法实现简单,但通常对于用户冷启动等场景非常有用。 第二类就是统计分析。方法就是通过大量数据进行统计分析,这是最常见的用户画像数据,常见的兴趣标签,就是这一类。 第三类就是机器学习。通过机器学习,可以得出人类无法直观理解的稠密向量

fastHan: 基于BERT的中文NLP集成工具

心不动则不痛 提交于 2020-08-07 07:32:29
简介 fastHan是基于 fastNLP 与pytorch实现的中文自然语言处理工具,像spacy一样调用方便。 其内核为基于BERT的联合模型,其在13个语料库中进行训练,可处理 中文分词、词性标注、依存句法分析、命名实体识别 四项任务。fastHan共有base与large两个版本,分别利用BERT的前四层与前八层。base版本在总参数量150MB的情况下各项任务均有不错表现,large版本则接近甚至超越SOTA模型。 项目地址为: https:// github.com/fastnlp/fast Han 安装 fastHan的安装非常简便。它存在如下包的依赖: fastNLP>=0.5.0 pytorch>=1.0.0 执行指令 pip install fastHan 即可安装。 使用 fastHan的使用非常简单,只需要两步,加载模型、输入句子。 加载模型 :执行以下代码即可加载模型: 用户首次初始化模型时模块将自动从服务器下载参数。模型默认初始化base版本,可修改model_type参数值为’large’加载large版本。 输入句子 :输入模型的可以是单独的字符串,也可是由字符串组成的列表。如果输入的是列表,模型将一次性处理所有输入的字符串,所以请自行控制 batch size。模型对句子进行依存分析、命名实体识别的简单例子如下: 其中,target参数可在