rain

利用Python实现主题建模和LDA 算法(附链接)

半腔热情 提交于 2021-02-02 08:29:46
主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA(Latent Dirichlet Allocation)是主题模型的一个示例,用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题,再为每一个主题添加一些单词,该算法按照Dirichlet分布来建模。 那便开始吧! 数据 在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表,可以从Kaggle下载。 先来看看数据。 1048575 图1 数据预处理 执行以下步骤: 标记化——将文本分成句子,将句子分成单词,把单词变为小写,去掉标点符号。 删除少于3个字符的单词。 删除所有的句号。 词形还原——将第三人称的单词改为第一人称,将过去和未来时态中的动词改为现在时。 词根化——将单词简化为词根形式。 加载gensim 和nltk库 [nltk_data] Downloading package wordnet to[nltk_data] C:\Users\SusanLi\AppData\Roaming\nltk_data…[nltk_data] Package wordnet is already up-to-date!True 编写一个函数,对数据集执行词形还原和词干预处理。 预处理之后选择要预览的文档。 源文件:[‘rain’, ‘helps’, ‘dampen’, ‘bushfires’

自定义属性 —— data-*

橙三吉。 提交于 2021-01-30 09:49:14
一、基本概念 在HTML5中添加了data-*的方式来自定义属性,所谓data-*实际上上就是data-前缀加上自定义的属性名,使用这样的结构可以进行数据存放。使用data-*可以解决自定义属性混乱无管理的现状。 二、原生js中自定义属性 1,设置自定义属性 设置自定义属性有如下2种方式。 (1)第一种方式是可以直接在 HTML 标签上面书写: < h2 data-weather ="rain" > 今天天气很好 </ h2 > 上面 data-weather 就是一个自定义属性,值为 rain。 在通过这个方式设置的时候需要注意的是,如果设置的自定义属性是多个单词的组合的话,需要用中横线(-)链接,比如: < h2 data-birth-date ="19940219" > 今天天气很好 </ h2 > (2)第二种方式是通过 js 的 dataset 属性来设置: // html <h2>今天天气很好</h2> // js var h2 = document.querySelector('h2' ); h2.dataset.weather = "rain"; 这样也是设置了一个 data-weater 的自定义属性,值为 rain,HTML5 中元素都会有一个dataset的属性,这是一个 DOMStringMap 类型的键值对集合。 通过这种方式设置同样需要注意

LeetCode解题录

会有一股神秘感。 提交于 2021-01-20 06:50:13
[leetcode]1. Two Sum两数之和 Two Pointers, HashMap Easy [leetcode]2. Add Two Numbers两数相加 Math, LinkedList Medium [leetcode]3. Longest Substring Without Repeating Characters无重复字母的最长子串 Sliding Window Medium [leetcode]4. Median of Two Sorted Arrays俩有序数组的中位数 Merge Sort, Binary Search Hard [leetcode]5. Longest Palindromic Substring最长回文子串 Dynamic Programming, Manacher Medium [leetcode]6. ZigZag Conversion字符串Z形排列 String Medium [leetcode]7. Reverse Integer反转整数 Math Easy [leetcode]8. String to Integer (atoi)字符串转整数 Math Medium [leetcode]9. Palindrome Number 回文数 Math Easy [leetcode]10. Regular Expression

我靠“读书笔记”闷声赚3万:那些你看不上的行业,往往最赚钱

余生长醉 提交于 2021-01-19 08:41:19
全世界只有 3.14 % 的人关注了 爆炸吧知识 你有没有计算过:你的时间,值多少钱? 如果你月薪5000,一个月工作20天,每天8小时,那么你1小时的价值就是32元。 然而,现在请一个打扫卫生的钟点工,也需要50——200元/时。 不是故意要扎你心,而是社会变化太快,这已经不是努力工作、就能赚到钱的时代。 中国早已过了劳动回报率增速的年代。 10年前,20万元是一笔巨款。可今天,20万却连买个一线城市的厕所都不够。 房价涨速是工资的好几倍,大部分人,靠固定工资永远买不起自己的房子。 不仅如此,我们原本的稳定,也正在 被社会的新规则摧毁着—— 经济寒冬, 1/3 的大学生找不到工作,毕业就失业; 年薪 20万 ,但付不起2线城市一套房的首付; 35岁 以后被劝离职,已经是不少大公司公开的秘密; 湖北刘先生的爸爸急性心梗,住院61天花费 104万 ,全家积蓄瞬间清空,还身负贷款。 刘先生爸爸的住院收据 一夜暴富不容易,一夜爆穷很简单。 你以为的稳定,不过是在稳定的穷着。 生活的不易,让人不得不寻求更多的赚钱方法。 随着 “副业刚需” 成了一种火爆: 搞副业已是成年人该有的自觉,永远都要有planB。 很多人也想到,如果不能减少支出,最好的办法就是: 提高收入! 互联网时代,公众号、短视频、微商、代购……似乎都能赚大钱。 可做视频需要技能,写小说需要创意,就连代购也需要人脉资源! 那么

小心!除了植入木马,你的充电宝可能还在窃听你,受害人遍布全国

妖精的绣舞 提交于 2021-01-09 10:20:49
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者 | 刘琳 来源丨雷锋网(ID:leiphone-sz) 现在不止隔墙有耳,隔哪都有耳。 ” 想象一下,你和闺蜜的悄悄话,和家人的谈话以及在工作会议中的发言,都被人偷听了。 这是什么恐怖的体验? 而且,这个窃听器非常隐蔽,一般人还发现不了,是不是更恐怖了。 据央视新闻报道,近日他们发现有人把充电宝搞成了窃听设备,既能定位又能窃听的那种。 甚至还搞出了一条窃听黑色产业链。 可怕可怕。 而这个用来窃听的设备,其实就是我们经常见到的 GPS 定位器。经过这群人的一番改装之后,这个 GPS 定位器不仅能定位,还可以远程录音。 此外,据央视记者亲身试验,这个录音的效果非常不错,不管说话的声音多大,就像打电话一样清晰… 目前受害者几乎遍布全国。 更让人吃惊的是,在某购物平台上搜一下,也不乏有各种卖定位充电宝、窃听充电宝的产品,甚至还可以“私人定制”。 敢情这是合法可以公开售卖的吗? 1 如何实现窃听? 你可能还记得前段时间充电宝被曝出植入木马的事情。 这次的犯罪团伙手段可以说如法炮制。 他们不仅有上游的生产厂家,还有下游的销售代理在内的生产销售定位、窃听、偷拍设备。 俨然是一条完备的黑色产业链了。 这种既能窃听又能定位的设备原理其实也很简单

决策树是如何选择特征和分裂点?

冷暖自知 提交于 2021-01-09 10:13:48
©PaperWeekly 原创 · 作者|贲忠奇 单位|便利蜂算法工程师 研究方向|推荐算法、反作弊 缘起 在解决回归和分类问题的时候,一般会使用 Random Forest、GBDT、XGBoost、LightGBM 等算法,这类算法因为性能好,被业界广泛采用。突然想到树类型的算法都需要明白一个基本问题,树是如何选择特征和分裂点的?其根本要追溯到决策树的种类,每种是如何划分特征和分裂点,以及如何剪枝的。 决策树分为三类:ID3、C4.5、CART。提出时间却是 1984 年提出 CART,1986年提出的 ID3,1993 年提出的 C4.5。在介绍决策树之前需要了解一些信息论的知识,信息、熵、条件熵、信息增益。决策树中的 ID3 和 C4.5 与信息论息息相关。 信息论基础 信息是杂乱无章数据的一种度量方式。在分类问题中,如果待分类的事物可以划分在多个分类中,那么某个分类 的信息定义为: 其中, 是某个分类的信息; 是选择该分类的概率。 熵是信息的期望,也就是计算所有分类包含信息的期望值: 其中,H(Y) 表示分类数据集的熵。 条件熵是在特征 X 给定条件下,类别 Y 的条件概率分布的熵对特征 X 的数学期望。 其中, 表示在特征 X 下的条件熵; 表示特征下 具体特征值的条件熵; 表示 x 和 y 的联合概率分布。 在划分数据集之前之后信息发生的变化叫做信息增益

Hacker News 简讯 2020-09-10

允我心安 提交于 2020-12-24 03:23:18
最后更新时间: 2020-09-10 22:00 Relativty – An open-source VR headset - (relativty.com) Relatity–开源VR耳机 得分:235 | 评论:75 AMD Announces Ryzen “Zen 3” and Radeon “RDNA2” Presentations for October - (anandtech.com) AMD将于10月发布Ryzen“Zen 3”和Radeon“RDNA2”演示文稿 得分:45 | 评论:15 The surprising traits of good remote leaders - (bbc.com) 优秀的远程领导者令人惊讶的特质 得分:90 | 评论:34 Show HN: Relax your coding self with the soothing JavaScript simulation of rain - (itsrainingday.netlify.app) 展示HN:用舒缓的JavaScript模拟rain放松你的编程 得分:51 | 评论:20 Emacs is special regarding UIs - (gnu.org) Emacs对于ui来说是特别的 得分:250 | 评论:191 Former NSA chief Keith

基于隐马尔可夫模型的有监督词性标注

旧城冷巷雨未停 提交于 2020-11-08 11:21:42
版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/yutianzuijin/article/details/33292841 代码下载: 基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每一个词都指派一个合适的词性,也就是要确定每一个词是名词、动词、形容词或其它词性的过程,又称词类标注或者简称标注。 词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的很多领域都发挥着关键的数据。 词性标注本质上是一个分类问题,对于句子中的每一个单词W。找到一个合适的词类类别T,也就是词性标记,只是词性标注考虑的是总体标记的好坏,既整个句子的序列标记问题。对于分类问题,有非常多现成的数学模型和框架能够套用。譬如HMM、最大熵模型、条件随机场、SVM等等。在本博客中我们介绍基于隐马尔可夫模型(HMM)的词性标注。 1 隐马尔可夫模型(HMM) 隐马尔科夫模型(HMM)是什么?说白了。就是一个数学模型,用一堆数学符号和參数表示而已,包含隐藏状态集合、观察状态集合、初始概率向量, 状态转移矩阵A。混淆矩阵B。 在 wiki上一个比較好的HMM样例 ,浅显易懂地介绍了HMM的基本概念和问题,初次接触HMM的人能够首先看一下这个样例。 在 Hidden

Rain Streak Removal Using Layer Priors(基于高斯混合模型的层先验去雨方法)总结

雨燕双飞 提交于 2020-10-14 20:33:27
1.文章做出了哪些成果?: 在本文中,我们提出了一种有效的方法,使用简单的基于补丁的背景层和雨层的先验信息。这些先验是基于高斯混合模型的,能够适应雨带的多个方向和尺度。这种简单的方法比现有的定性和定量方法更好地去除雨纹。 2.前人成果有什么?改变了什么?改进的地方是什么? 解决不适定问题的现有的图像分解方法要么采用字典学习方法,要么在雨条纹的出现上施加低秩结构。虽然这些方法可以提高整体可见性,但它们往往会在背景图像中留下过多的雨痕或使背景图像过于平滑(平滑的定义见笔记) Kang等人提出了一种将输入图像分解为低频分量(结构层)和高频分量(纹理层)的方法。高频分量包含背景对象的雨痕和边缘。该方法试图通过基于稀疏编码的HoG特征字典学习从高频层中分离出雨痕频率,通过将低频层和处理过的高频层合并得到输出。 改进点: 文章作者在图像分解的基础上,也是将输入图像分为背景层和雨纹层,不过作者在使用了背景层和雨纹层的先验来帮助图像分解,并且这些先验是居于GMMs模型的。(所以作者第对图像层施加的约束条件不同) 3.文章的创新之处? ①本文是第一篇用高斯混合模型补丁先验去除雨水的论文。 ②在图像分解是,背景层和雨条纹层都加上了一定的约束条件(这样保证得出的结果不会太偏离预期) 4. 框架 核心算法如下: 算法1 利用层先验(优先级)去除雨痕  输入:输入图像O;两层GMMs:GB和GR; 初始化: