omega

文本挖掘之LDA主题模型

风格不统一 提交于 2020-03-17 12:47:33
某厂面试归来,发现自己落伍了!>>> 文本挖掘之LDA主题模型 作者:郑培 引言 主题模型是文本挖掘的重要工具,近年来在工业界和学术界都获得了非常多的关注。在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。 Latent Dirichlet Allocation(LDA)是其中最具代表性的模型。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以: 发掘语料库中英藏的主题模式; 根据主题对文档进行标注; 利用标注对文档进行组织、整理、归纳和检索。 1. 什么是主题(topic)? 从词汇的角度讲:使一篇文章或几篇文章共同的代表、隐藏语义、共同出现词语的一种模式、共同出现词语的一种据类、一种弱的分类类表; 从概率分布的角度讲:每个主题都是对所有词的一个概率分布;主体对同时出现的词赋予较高的概率;同时出现的次互相之间有某种关联性; 从机器学习的角度来讲,主题模型是将 层次贝叶斯网络 应用到数据(文档或者图像)的典型应用:每篇文档包含多个主题、隐含变量起到表示文档间主体结构的作用、主题模型基于bag-of

算法分析| 小o和小ω符号

拜拜、爱过 提交于 2020-03-06 00:31:55
渐近分析 的 主要思想 是对不依赖于机器特定常数的算法的效率进行测量,主要是因为该分析不需要实现算法并且要比较程序所花费的时间。 我们已经讨论了三个主要的渐近符号。本文我们使用以下2个渐近符号表示算法的时间复杂度。 小ο渐近符号 大O被用作算法效率的增长的紧密上限(这个效率由函数f(n)描述),尽管如上所述,它也可以是松散的上限。“ο”(ο())表示法用于描述不能紧的 定义: 令f(n)和g(n)是将正整数映射到正实数的函数。如果对于 任何实 常数c> 0,则f(n)是ο(g(n))(或f(n)∈(g(n))),存在整数常数n0≥1,使得f (n)0. 它的意思是小o()表示f(n)的 松散上限 。 在数学关系中, f(n)= o(g(n))表示 lim f(n)/ g(n)= 0 n→∞ 例如: 7n + 8∈o(n 2 )是吗? 为了实现它,对于任何c,我们必须能够找到使f(n)<c * g(n)渐近为真的n0 。 让我们举个例子,如果c = 100,我们检查不平等是否明确。 如果c = 1/100,我们将不得不使用 更多的想象力,但是我们可以找到一个n0。(尝试n0 = 1000.)从 这些例子中,推测似乎是正确的。 然后检查限制, lim f(n)/ g(n)= lim(7n + 8)/(n 2 )= lim 7 / 2n = 0(洛必达法则) n→ ∞ n→ ∞ n→ ∞

一文讲透微服务架构下如何保证事务的一致性

此生再无相见时 提交于 2020-03-04 12:08:13
随着业务的快速发展、业务复杂度越来越高,传统单体应用逐渐暴露出了一些问题,例如开发效率低、可维护性差、架构扩展性差、部署不灵活、健壮性差等等。而微服务架构是将单个服务拆分成一系列小服务,且这些小服务都拥有独立的进程,彼此独立,很好地解决了传统单体应用的上述问题,但是在微服务架构下如何保证事务的一致性呢?本文作者将为大家详细解答。 从本地事务到分布式事务的演变 什么是事务?回答这个问题之前,我们先来看一个经典的场景:支付宝等交易平台的转账。假设小明需要用支付宝给小红转账 100000 元,此时,小明帐号会少 100000 元,而小红帐号会多 100000 元。如果在转账过程中系统崩溃了,小明帐号少 100000 元,而小红帐号金额不变,就会出大问题,因此这个时候我们就需要使用事务了。 这里,体现了事务一个很重要的特性:原子性。事实上,事务有四个基本特性:原子性、一致性、隔离性、持久性。其中,原子性,即事务内的操作要么全部成功,要么全部失败,不会在中间的某个环节结束。一致性,即使数据库在一个事务执行之前和执行之后,数据库都必须处于一致性状态。如果事务执行失败,那么需要自动回滚到原始状态,换句话说,事务一旦提交,其他事务查看到的结果一致,事务一旦回滚,其他事务也只能看到回滚前的状态。隔离性,即在并发环境中,不同的事务同时修改相同的数据时,一个未完成事务不会影响另外一个未完成事务。持久性

一文讲透微服务下如何保证事务的一致性

有些话、适合烂在心里 提交于 2020-02-27 12:47:26
原文地址: 梁桂钊的博客 博客地址: http://blog.720ui.com 欢迎关注公众号:「服务端思维」。一群同频者,一起成长,一起精进,打破认知的局限性。 从本地事务到分布式事务的演变 什么是事务?回答这个问题之前,我们先来看一个经典的场景:支付宝等交易平台的转账。假设小明需要用支付宝给小红转账 100000 元,此时,小明帐号会少 100000 元,而小红帐号会多 100000 元。如果在转账过程中系统崩溃了,小明帐号少 100000 元,而小红帐号金额不变,就会出大问题,因此这个时候我们就需要使用事务了。请参见图 6-1。 这里,体现了事务一个很重要的特性:原子性。事实上,事务有四个基本特性:原子性、一致性、隔离性、持久性。其中,原子性,即事务内的操作要么全部成功,要么全部失败,不会在中间的某个环节结束。一致性,即使数据库在一个事务执行之前和执行之后,数据库都必须处于一致性状态。如果事务执行失败,那么需要自动回滚到原始状态,换句话说,事务一旦提交,其他事务查看到的结果一致,事务一旦回滚,其他事务也只能看到回滚前的状态。隔离性,即在并发环境中,不同的事务同时修改相同的数据时,一个未完成事务不会影响另外一个未完成事务。持久性,即事务一旦提交,其修改的数据将永久保存到数据库中,其改变是永久性的。 本地事务通过 ACID 保证数据的强一致性。ACID是 Atomic(原子性)

南邮 AAencode

瘦欲@ 提交于 2020-02-26 01:20:57
这个题虽然不难,但对小白(我)来说,还是挺麻烦的。 首先要科普的知识:   1、js代码怎么跑 :浏览器里运行,如果是谷歌或者火狐可以在console 控制台里运行,否则的话,就把js嵌入到一个html文件里,用浏览器打开就可以运行了   2、jjencode:将JS代码转换成只有符号的字符串   3、aaencode: 将JS代码转换成常用的网络表情   4、aaencode加密:http://utf-8.jp/public/aaencode.html     解密方法:可以直接利用浏览器的控制台输入密文,执行后即可解密。 我用的是火狐,首先 打开菜单->更多->文字编码->unicode,得到 ゚ω゚ノ= /`m´)ノ ~┻━┻ //*´∇`*/ ['_']; o=(゚ー゚) =_=3; c=(゚Θ゚) =(゚ー゚)-(゚ー゚); (゚Д゚) =(゚Θ゚)= (o^_^o)/ (o^_^o);(゚Д゚)={゚Θ゚: '_' ,゚ω゚ノ : ((ω゚ノ==3) +'_') [゚Θ゚] ,゚ー゚ノ :(゚ω゚ノ+ '_')[o^_^o -(゚Θ゚)] ,゚Д゚ノ:((゚ー゚==3) +'_')[゚ー゚] }; (゚Д゚) [゚Θ゚] =((゚ω゚ノ==3) +'_') [c^_^o];(゚Д゚) ['c'] = ((゚Д゚)+'_') [ (゚ー゚)+(゚ー゚)-(゚Θ゚) ];

02-04 线性回归

大憨熊 提交于 2020-02-25 21:30:00
文章目录 线性回归 线性回归学习目标 线性回归引入 线性回归详解 线性模型 一元线性回归 一元线性回归的目标函数 均方误差最小化——最小二乘法 多元线性回归 均方误差最小化——最小二乘法 均方误差最小化——牛顿法 均方误差最小化——拟牛顿法 多项式回归 对数线性回归 局部加权线性回归 正则化 L1正则化 L2正则化 弹性网络 线性回归流程 输入 输出 流程 线性回归优缺点 优点 缺点 小结 线性回归   线性回归是比较经典的线性模型,属于监督学习中预测值为连续值的回归问题。   线性回归针对的是一个或多个特征与连续目标变量之间的关系建模,即线性回归分析的主要目标是在连续尺度上预测输出,而非分类标签,即预测值为连续值。 线性回归学习目标 线性模型 一元线性回归和多元线性回归 多项式回归和对数线性回归 线性回归的L1正则化和L2正则化 线性回归流程 线性回归优缺点 线性回归引入   相信我们很多人可能都有去售楼处买房而无奈回家的行为,就算你没去过售楼处,相信你也应该听说过那令人叹而惊止的房价吧?对于高房价你没有想过这房价是怎么算出来的呢?难道就是房地产商拍拍脑门,北京的一概1000万,上海的一概800万,杭州的一概600万吗?看到这相信你应该有动力想要学好机器学习走向人生巅峰了。   其实仔细想想这房价大有来头,首先房价不可能只和地区有关,北京有1000万的房子,又会有800万

AI之语言模型

孤人 提交于 2020-02-24 23:09:34
AI之语言模型 语言模型 n元语法 n 元语法缺陷 语言模型数据集 读取数据集 建立字符索引 时序数据的采样 随机采样 相邻采样 例题   一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 ω 1 , ω 2 , . . . , ω T \omega_1,\omega_2,...,\omega_T ω 1 ​ , ω 2 ​ , . . . , ω T ​ ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P ( ω 1 , ω 2 , . . . , ω T ) . P(\omega_1,\omega_2,...,\omega_T). P ( ω 1 ​ , ω 2 ​ , . . . , ω T ​ ) .    本文介绍基于统计的语言模型,主要是 n 元语法( n -gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。 语言模型    假设序列 ω 1 , ω 2 , . . . , ω T \omega_1,\omega_2,...,\omega_T ω 1 ​ , ω 2 ​ , . . . , ω T ​ 中的每个词是依次生成的,我们有 P ( ω 1 , ω 2 , . . . , ω T ) = ∏ t = 1 T P ( ω T ∣ ω 1 , … , ω T − 1 ) = P ( ω 1 ) P ( ω 2 ∣

数学建模上课(一)推导万有引力定律

不想你离开。 提交于 2020-02-23 11:55:55
数学建模上课(一)推导万有引力定律 开始的开始 万有引力的推导,是一个伟大而且美丽的过程,他承接着前人的研究成果,为后世开辟的新的天地。 一顿操作 牛顿三定律 这里主要用到牛顿第二定律 F ⃗ = m a ⃗ \vec{F} = m\vec{a} F = m a 开普勒三定律 我们先来看一看开普勒三定律可以得出什么结论: 1、开普勒第一定律: 行星围绕太阳转动轨迹是椭圆,太阳在椭圆的一个焦点上。 把恒星行星放到极坐标中,恒星为原点。 r = p 1 − e c o s θ r = \frac{p}{1-ecos\theta} r = 1 − e c o s θ p ​ 其中焦参数为 p = b 2 a p=\frac{b^2}{a} p = a b 2 ​ 离心率为 e = 1 − b 2 a 2 e = \sqrt{1-\frac{b^2}{a^2}} e = 1 − a 2 b 2 ​ ​ 椭圆长轴a,短轴b. 设 { r = r ( t ) θ = θ ( t ) \left\{\begin{matrix} r=r(t)\\ \theta=\theta(t) \end{matrix}\right. { r = r ( t ) θ = θ ( t ) ​ 对于r求导,得到径向速度 r ˙ \dot{r} r ˙ d r d t = r ˙ \frac{dr}{dt}=\dot

算法原理详细推导与实现(四):支持向量机(上)

ぐ巨炮叔叔 提交于 2020-02-06 02:10:44
【机器学习】算法原理详细推导与实现(四):支持向量机(上) 在之前的文章中,包括线性回归和逻辑回归,都是以线性分界线进行分割划分种类的。而本次介绍一种很强的分类器【支持向量机】,它适用于线性和非线性分界线的分类方法。 函数间隔概念 为了更好的理解非线性分界线,区别两种分界线对于分类的直观理解,第一种直观理解需要考虑 logistic 回归,我们用一个 logistic 回归函数表示当 y = 1 y=1 y = 1 时概率表示为 : p ( y = 1 ∣ x ; θ ) = h ( θ ) = g ( θ T x ) = g ( z ) \begin{aligned} p(y=1|x;\theta)&=h(\theta) \\ &=g({\theta}^Tx) \\ &=g(z) \\ \end{aligned} p ( y = 1 ∣ x ; θ ) ​ = h ( θ ) = g ( θ T x ) = g ( z ) ​ 当 h ( θ ) ≥ 0.5 h(\theta) \geq 0.5 h ( θ ) ≥ 0 . 5 时,即 θ T x ≥ 0 {\theta}^Tx \geq 0 θ T x ≥ 0 时 y = 1 y=1 y = 1 ;同理当 h ( θ ) < 0.5 h(\theta) < 0.5 h ( θ ) < 0 . 5 时,即 θ T x < 0 {

关于大O表示法和小O表示法

白昼怎懂夜的黑 提交于 2020-02-02 08:02:31
上节课老师讲了一下各种表示法,当时没咋听懂,后来查了一些资料弄懂了,记录一下。 主要是从维基百科上看的。http://en.wikipedia.org/wiki/Big_O_notation 大O表示法: f(x) = O(g(x)) 表示f(x)以g(x)为上界。上界并不是确接。例如f(x)=n^2的上界可以是g(x)=n^3,或者g(x)=n^4。 实际上O(g(x))应该是一个函数的集合,所以应该写成f(x)∈O(g(x))。 小o表示法: f(x) = o(g(x))表示f(x)趋近于g(x)。也就是当x趋于∞时,f(x)/g(x) = 0。例如f(x)=x^2+1, g(x)=x^2。 Ω表示法: f(x) = Ω(g(x))表示f(x)以g(x)为下界。例如g(x) = x是f(x) = x^2的一个下界。 θ表示法: f(x) = θ(g(x))说明g(x)是f(x)的确界。也就是同时满足f(x) = O(g(x))且f(x) = Ω(g(x))。 来源: https://www.cnblogs.com/lzsz1212/p/3955218.html