GT

Spark MLlib LDA主题模型

好久不见. 提交于 2020-03-25 08:21:19
3 月,跳不动了?>>> Spark MLlib LDA主题模型(1) Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档: 官方编程指南: http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda Spark MLlib LDA 简介: http://blog.jobbole.com/86130/ 关于LDA主题模型的理论知识讲解放在下期。 1.1 LDA实例 实例步骤: 1)加载数据 返回的数据格式为:documents: RDD[(Long, Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;用户可以读取指定目录下的数据,通过分词以及数据格式的转换,转换成RDD[(Long, Vector)]即可。 2)建立模型 模型参数设置说明: k: 主题数,或者聚类中心数 DocConcentration:文章分布的超参数(Dirichlet分布的参数),必需>1.0 TopicConcentration:主题分布的超参数(Dirichlet分布的参数),必需>1.0 MaxIterations:迭代次数 setSeed:随机种子 CheckpointInterval:迭代计算时检查点的间隔

Spark MLlib Linear Regression线性回归算法

有些话、适合烂在心里 提交于 2020-03-25 08:20:55
3 月,跳不动了?>>> 1 、Spark MLlib Linear Regression 线性回归算法 1.1 线性回归算法 1.1.1 基础理论 在统计学中,线性回归(Linear Regression) 是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 下面我们来举例何为一元线性回归分析,为某地区的房屋面积(feet) 、房间数、价格($)的一个数据集,在该数据集中,只有自变量面积(feet)、房间数,和一个因变量价格($), 分析得到的线性方程应如下所示: 因此,无论是一元线性方程还是多元线性方程,可统一写成如下的格式: 上式中x0=1 ,而求线性方程则演变成了求方程的参数ΘT。 线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以有前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算,这样就可以表达特征与结果之间的非线性关系。 1.1.2 梯度下降算法 为了得到目标线性方程,我们只需确定公式(3

Jupyter Notebook 快速入门(上)

回眸只為那壹抹淺笑 提交于 2020-03-25 08:20:14
3 月,跳不动了?>>> 转载的一篇文章,Mark 转载一篇入门帖 本文作者为 Marin Gilles ,他是来自法国的一位物理学博士生,用 Python 开发了自己的物理学模拟框架。本文分为两部分,是 Python 翻译组 成立后的第一篇译文,译者 EarlGrey 。 Jupyter Notebook (此前被称为 IPython notebook )是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebook 的主要特性,以及为什么对于希望编写漂亮的交互式文档的人来说是一个强大工具。 在开始使用 notebook 之前,我们先需要安装该库。你可以在 Jupyter 官网 上找到完整的步骤。 译者注:其实只要 pip install jupyter 就可以了 jupyter notebook 运行上面的命令之后,你将看到类似下面这样的输出: [I 20:06:36.367 NotebookApp] Writing notebook server cookie secret to /run/user/1000/jupyter/notebook_cookie_secret [I 20:06:36.813 NotebookApp] Serving notebooks from local directory: /home/your

TI公司dsp的cmd配置文件的说明

半腔热情 提交于 2020-03-25 08:19:47
3 月,跳不动了?>>> h i t 2015 s p r i n g 晨 凫 追 风 欢迎关注我的博客晨凫追风 本文为原创作品,未经本人同意,禁止转载,禁止用于商业用途! 这篇文章主要是两年前用TMS320C6748的时候遇到的一点问题做的一些笔记,分享一下: cmd文件主要是: 规定内存分配的文件,其中malloc函数分配内存,在堆中,在cmd文件中分配堆的空间,使得堆足够大,存的下需要分配的空间。 1 CMD文件的分配方法 TI公司新的汇编器和链接器创建的目标文件采用一种COFF(通用目标文件格式),该目标文件格式更利于模块化编程,为管理代码段和目标系统存储器提供了强有力和灵活的编程方法。用户可以通过编写链接命令文件(.cmd文件)将链接信息放在一个文件中,以便在多次使用同样的链接信息时调用。在命令文件中使用两个十分有用的伪指令MEMORY和SECTIONS,来指定实际应用中的存储器结构和进行地址的映射。 Memory用来指定目标存储器结构,Memory下可以通过PAGE选项配置地址空间,链接器把每一页都当作一个独立的存储空间。通常情况下,PAGE0代表程序存储器用来存放程序,PAGE1代表数据存储器,用来存放数据。 由编译器生成的可重定位的代码和数据块叫做“SECTIONS”(段),SECTIONS用来控制段的构成与地址分配。对于不同的系统配置,“SECTION

搜狗疫情数据爬取(R语言)

落爺英雄遲暮 提交于 2020-03-25 07:52:34
3 月,跳不动了?>>> 想必大家最近都很关心新冠状肺炎,疫情导致春节被延长,高速被封,大家伙基本都是远程办公。 趁着周末,来写个爬虫,获取 搜狗疫情 提供的数据,爬取各个省份以及各个市区的确诊、治愈和死亡数据。 1581827981508.png 网页分析 网页地址为: http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB ,在分析网页时,如果在这里使用浏览器的 检查 功能,根据标签来写xpath,是无法爬取到数据的。如下图,湖北的数据在div.total标签里面,但在源代码中无法搜索到。而且,read_html是获取网页源码,因此如果根据该标签获取数据,结果肯定为空。 1581829059936.png 如果仔细研究一下源码,会发现所有数据都在 <script type="text/javascript"> ,所以xpath=/html/body/script[1]/text()。 <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="R" cid="n9" mdtype="fences" style="box-sizing: border-box; overflow: visible;

9.17日常总结

坚强是说给别人听的谎言 提交于 2020-03-25 07:52:01
3 月,跳不动了?>>> 9.17日常总结 总体情况 9.17的题目做的并不理想,有两题明明可以切掉的却并没有AC,至于第三题,的确是在看题解前无能为力,也是因为对题目的分析、转化能力还不够强,做的题还不够多。 T1 组合数问题 题目描述 定义"组合数"S(n,m)代表将n 个不同的元素拆分成m 个非空集合的方案数.举个例子,将{1,2,3}拆分成2 个集合有({1},{2,3}),({2},{1,3}),({3},{1,2})三种拆分方法.小猫想知道,如果给定n,m 和k,对于所有的0<=i<=n,0<=j<=min(i,m),有多少对(i,j),满足S(i,j)是k 的倍数.注意,0 也是k 的倍数,S(0,0)=1,对于i>=1,S(i,0)=0. ~~ 总结 -> 这题是真的不能,就是一个非常简单的递推,递推的式子也非常容易退出来。但是我并没有AC这道题,还是轻敌了,一开始算组合数就直接拿 C 计算了,到最后检查的时候才发现问题,但是已经无力回天了。审题不清,是任何学科最怕出现的弊病之一,再强的人审题不清也会很麻烦,今后还是要对题目进行认真的预审。 T2 猫 题目描述 信息组最近猫成灾了!隔壁物理组也拿猫没办法.信息组组长只好去请神刀手来帮他们消灭猫.信息组现在共有n 只猫(n 为正整数),编号为1 到n,站成了一个环,第i 只猫的左边是第i-1 只猫,右边是第i+1 只猫

苹果序列号查询知识汇总

烂漫一生 提交于 2020-03-25 07:51:25
3 月,跳不动了?>>> 丢锋网 整合苹果iphone相关知识大全系列一:苹果序列号查询知识汇总。在这里你可以找到关于苹果序列号查询的所有问题的答案。(如果小编一不小心又漏掉的,麻烦不要拍我!)从本月开始,大家从我们丢锋网上查看到的信息将不仅仅是关于 苹果手机找回方法 相关的内容,我们将从更广泛的维度去了解并且帮助广大苹果用户解决更多不同的需求问题。 问题一 : 苹果序列号是什么?什么是苹果序列号? 苹果序列号,苹果公司生产的产品(如iPhone,iPad,iPod等)设备的硬件序列号简称苹果序列号,每件产品的序列号都不相同,是辨别真伪的硬件标识。 这就好比大家的身份证一样,每个人的身份证都是唯一的。 苹果序列号一般由11位数字加字母组成,每一位都有一定的含义,会根据你的出厂批次,销售地,设备类型等因素进行排列!同时通过苹果序列号可以在 苹果官网 或第三方查询网站 ICCID 查询 上查找到设备的型号,生产日期,购买日期,销售地,保修日期等信息。有了这些信息做对比,可以很容易掌握苹果硬件设备的基本情况。通过这个数据可以鉴别出购买设备的真伪以及是否被翻新过。有的非苹果官方网站上通过苹果序列号查询的信息要比官方的信息更全面一些,这样通过苹果序列号查询到的信息数据完全可以鉴别出是否是翻新机以及设备的购买时间,激活时间和过保时间等。 问题二 : 苹果手机序列号有什么用?

算法模板——Manacher

a 夏天 提交于 2020-03-25 07:51:07
3 月,跳不动了?>>> 字符串算法在各大高级比赛中均有用到,所以,学习好字符串算法对我们而言十分重要。那么,今天我们就给大家介绍一个快速求回文串的算法,Manacher算法,我们也习惯性叫它马拉车算法。 一.引入 首先我们要知道什么是回文串——当一个字符串它从右到左和从左到右读是一样的,我们就称它为回文串。考虑一下最暴力的算法,我们可以枚举字符串的每个子串,判断其是否为回文串,时间复杂度是O(n^3)。当然,我们可以加点优化,枚举每个中心点,然后向两边匹配,时间复杂度是O(n^2)。不过这个复杂度依然不让人满意,因此,我们引入Manacher算法, 将时间复杂度降到线性,提高了算法效率。 二.算法流程 由于回文串分为奇回文和偶回文,因此给算法带来不小的麻烦,所以我们可以在字符串中间加入一些字符,使得其一定为奇回文,如 s= ‘abaoyyo’,转换后就成了 s_new= ‘#&a&b&a&o&y&y&o&^’(前后加字符只是为了防止越界,后面会讲),这样,原有的回文串 ‘ababa’ 和 ‘oyyo’ 便变成了 ‘&a&b&a&’ 和 ‘&o&y&y&o&’ ,都是奇回文了。同时,我们要引入一个数组 p,p[i] 代表以 i 为中心的回文串的最大半径,如: i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 s_new # & a & b & a

最长双回文串

妖精的绣舞 提交于 2020-03-25 07:50:50
3 月,跳不动了?>>> Description 顺序和逆序读起来完全一样的串叫做回文串。比如acbca是回文串,而abc不是(abc的顺序为“abc”,逆序为“cba”,不相同)。 输入长度为n的串S,求S的最长双回文子串T,即可将T分为两部分X,Y,(|X|,|Y|≥1)且X和Y都是回文串。 Input 一行由小写英文字母组成的字符串S。2≤|S|≤10^5 Output 一行一个整数,表示最长双回文子串的长度 Sample Input baacaabbacabb Sample Output 12 //从第二个字符开始的字符串aacaabbacabb可分为aacaa与bbacabb两部分,且两者都是回文串。 首先一遍Manacher,然后记录下两个数组——l,r l[i] 代表所有包含 s[i] 的回文串的最左端点(一个回文串的最右端点的 l 不等于该回文串的最左端点) r[i] 代表所有包含 s[i] 的回文串的最右端点(一个回文串的最左端点的 r 不等于该回文串的最右端点) 有什么用?答案就是 max{r[i]-l[i]}(1<=i<=len) 正确性?其实 r[i]-l[i] 非常好理解,关键是上文括号内的东西有点奇怪。其实不难,因为两个回文串之间要有联系,不能相互独立,所以一个回文串的最右端点记录的 l 不能是本身的左端点,而是其他点的值 #include<cmath>

神奇项链

谁说胖子不能爱 提交于 2020-03-25 07:50:35
3 月,跳不动了?>>> Description 母亲节就要到了,小 H 准备送给她一个特殊的项链。这个项链可以看作一个用小写字母组成的字符串,每个小写 字母表示一种颜色。为了制作这个项链,小 H 购买了两个机器。第一个机器可以生成所有形式的回文串,第二个 机器可以把两个回文串连接起来,而且第二个机器还有一个特殊的性质:假如一个字符串的后缀和一个字符串的前 缀是完全相同的,那么可以将这个重复部分重叠。例如:aba和aca连接起来,可以生成串abaaca或 abaca。现在给 出目标项链的样式,询问你需要使用第二个机器多少次才能生成这个特殊的项链。 Input 输入数据有多行,每行一个字符串,表示目标项链的样式。 每个测试数据,输入不超过 5行 每行的字符串长度小于等于 50000 Output 多行,每行一个答案表示最少需要使用第二个机器的次数。 Sample Input abcdcba abacada abcdef Sample Output 0 2 5 先Manacher,然后变成了最小线段覆盖的问题,因为不存在无解的情况,并且长度最大只有50000,因此可以有各种方法 #include<cmath> #include<cstdio> #include<cstring> #include<iostream> #include<algorithm> #define inf