rain | 易学教程

利用Python实现主题建模和LDA 算法（附链接）

阅读更多关于利用Python实现主题建模和LDA 算法（附链接）

主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA（Latent Dirichlet Allocation）是主题模型的一个示例，用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题，再为每一个主题添加一些单词，该算法按照Dirichlet分布来建模。那便开始吧！数据在这里将使用到的数据集是15年内发布的100多万条新闻标题的列表，可以从Kaggle下载。先来看看数据。 1048575 图1 数据预处理执行以下步骤：标记化——将文本分成句子，将句子分成单词，把单词变为小写，去掉标点符号。删除少于3个字符的单词。删除所有的句号。词形还原——将第三人称的单词改为第一人称，将过去和未来时态中的动词改为现在时。词根化——将单词简化为词根形式。加载gensim 和nltk库 [nltk_data] Downloading package wordnet to[nltk_data] C:\Users\SusanLi\AppData\Roaming\nltk_data…[nltk_data] Package wordnet is already up-to-date!True 编写一个函数，对数据集执行词形还原和词干预处理。预处理之后选择要预览的文档。源文件:[‘rain’, ‘helps’, ‘dampen’, ‘bushfires’

自定义属性 —— data-*

阅读更多关于自定义属性 —— data-*

一、基本概念在HTML5中添加了data-*的方式来自定义属性，所谓data-*实际上上就是data-前缀加上自定义的属性名，使用这样的结构可以进行数据存放。使用data-*可以解决自定义属性混乱无管理的现状。二、原生js中自定义属性 1，设置自定义属性设置自定义属性有如下2种方式。（1）第一种方式是可以直接在 HTML 标签上面书写： < h2 data-weather ="rain" > 今天天气很好 </ h2 > 上面 data-weather 就是一个自定义属性，值为 rain。在通过这个方式设置的时候需要注意的是，如果设置的自定义属性是多个单词的组合的话，需要用中横线（-）链接，比如： < h2 data-birth-date ="19940219" > 今天天气很好 </ h2 > （2）第二种方式是通过 js 的 dataset 属性来设置： // html <h2>今天天气很好</h2> // js var h2 = document.querySelector('h2' ); h2.dataset.weather = "rain"; 这样也是设置了一个 data-weater 的自定义属性，值为 rain，HTML5 中元素都会有一个dataset的属性，这是一个 DOMStringMap 类型的键值对集合。通过这种方式设置同样需要注意

LeetCode解题录

阅读更多关于 LeetCode解题录

[leetcode]1. Two Sum两数之和 Two Pointers, HashMap Easy [leetcode]2. Add Two Numbers两数相加 Math, LinkedList Medium [leetcode]3. Longest Substring Without Repeating Characters无重复字母的最长子串 Sliding Window Medium [leetcode]4. Median of Two Sorted Arrays俩有序数组的中位数 Merge Sort, Binary Search Hard [leetcode]5. Longest Palindromic Substring最长回文子串 Dynamic Programming, Manacher Medium [leetcode]6. ZigZag Conversion字符串Z形排列 String Medium [leetcode]7. Reverse Integer反转整数 Math Easy [leetcode]8. String to Integer (atoi)字符串转整数 Math Medium [leetcode]9. Palindrome Number 回文数 Math Easy [leetcode]10. Regular Expression

我靠“读书笔记”闷声赚3万：那些你看不上的行业，往往最赚钱

阅读更多关于我靠“读书笔记”闷声赚3万：那些你看不上的行业，往往最赚钱

全世界只有 3.14 % 的人关注了爆炸吧知识你有没有计算过：你的时间，值多少钱？如果你月薪5000，一个月工作20天，每天8小时，那么你1小时的价值就是32元。然而，现在请一个打扫卫生的钟点工，也需要50——200元/时。不是故意要扎你心，而是社会变化太快，这已经不是努力工作、就能赚到钱的时代。中国早已过了劳动回报率增速的年代。 10年前，20万元是一笔巨款。可今天，20万却连买个一线城市的厕所都不够。房价涨速是工资的好几倍，大部分人，靠固定工资永远买不起自己的房子。不仅如此，我们原本的稳定，也正在被社会的新规则摧毁着—— 经济寒冬， 1/3 的大学生找不到工作，毕业就失业；年薪 20万，但付不起2线城市一套房的首付； 35岁以后被劝离职，已经是不少大公司公开的秘密；湖北刘先生的爸爸急性心梗，住院61天花费 104万，全家积蓄瞬间清空，还身负贷款。刘先生爸爸的住院收据一夜暴富不容易，一夜爆穷很简单。你以为的稳定，不过是在稳定的穷着。生活的不易，让人不得不寻求更多的赚钱方法。随着 “副业刚需” 成了一种火爆：搞副业已是成年人该有的自觉，永远都要有planB。很多人也想到，如果不能减少支出，最好的办法就是：提高收入！互联网时代，公众号、短视频、微商、代购……似乎都能赚大钱。可做视频需要技能，写小说需要创意，就连代购也需要人脉资源！那么

小心！除了植入木马，你的充电宝可能还在窃听你，受害人遍布全国

阅读更多关于小心！除了植入木马，你的充电宝可能还在窃听你，受害人遍布全国

Python实战社群 Java实战社群长按识别下方二维码，按需求添加扫码关注添加客服进Python社群▲ 扫码关注添加客服进Java社群 ▲ 作者 | 刘琳来源丨雷锋网（ID：leiphone-sz）现在不止隔墙有耳，隔哪都有耳。 ” 想象一下，你和闺蜜的悄悄话，和家人的谈话以及在工作会议中的发言，都被人偷听了。这是什么恐怖的体验？而且，这个窃听器非常隐蔽，一般人还发现不了，是不是更恐怖了。据央视新闻报道，近日他们发现有人把充电宝搞成了窃听设备，既能定位又能窃听的那种。甚至还搞出了一条窃听黑色产业链。可怕可怕。而这个用来窃听的设备，其实就是我们经常见到的 GPS 定位器。经过这群人的一番改装之后，这个 GPS 定位器不仅能定位，还可以远程录音。此外，据央视记者亲身试验，这个录音的效果非常不错，不管说话的声音多大，就像打电话一样清晰… 目前受害者几乎遍布全国。更让人吃惊的是，在某购物平台上搜一下，也不乏有各种卖定位充电宝、窃听充电宝的产品，甚至还可以“私人定制”。敢情这是合法可以公开售卖的吗？ 1 如何实现窃听？你可能还记得前段时间充电宝被曝出植入木马的事情。这次的犯罪团伙手段可以说如法炮制。他们不仅有上游的生产厂家，还有下游的销售代理在内的生产销售定位、窃听、偷拍设备。俨然是一条完备的黑色产业链了。这种既能窃听又能定位的设备原理其实也很简单

决策树是如何选择特征和分裂点？

阅读更多关于决策树是如何选择特征和分裂点？

©PaperWeekly 原创 · 作者｜贲忠奇单位｜便利蜂算法工程师研究方向｜推荐算法、反作弊缘起在解决回归和分类问题的时候，一般会使用 Random Forest、GBDT、XGBoost、LightGBM 等算法，这类算法因为性能好，被业界广泛采用。突然想到树类型的算法都需要明白一个基本问题，树是如何选择特征和分裂点的？其根本要追溯到决策树的种类，每种是如何划分特征和分裂点，以及如何剪枝的。决策树分为三类：ID3、C4.5、CART。提出时间却是 1984 年提出 CART，1986年提出的 ID3，1993 年提出的 C4.5。在介绍决策树之前需要了解一些信息论的知识，信息、熵、条件熵、信息增益。决策树中的 ID3 和 C4.5 与信息论息息相关。信息论基础信息是杂乱无章数据的一种度量方式。在分类问题中，如果待分类的事物可以划分在多个分类中，那么某个分类的信息定义为：其中，是某个分类的信息；是选择该分类的概率。熵是信息的期望，也就是计算所有分类包含信息的期望值：其中，H(Y) 表示分类数据集的熵。条件熵是在特征 X 给定条件下，类别 Y 的条件概率分布的熵对特征 X 的数学期望。其中，表示在特征 X 下的条件熵；表示特征下具体特征值的条件熵；表示 x 和 y 的联合概率分布。在划分数据集之前之后信息发生的变化叫做信息增益

Hacker News 简讯 2020-09-10

阅读更多关于 Hacker News 简讯 2020-09-10

最后更新时间: 2020-09-10 22:00 Relativty – An open-source VR headset - (relativty.com) Relatity–开源VR耳机得分:235 | 评论:75 AMD Announces Ryzen “Zen 3” and Radeon “RDNA2” Presentations for October - (anandtech.com) AMD将于10月发布Ryzen“Zen 3”和Radeon“RDNA2”演示文稿得分:45 | 评论:15 The surprising traits of good remote leaders - (bbc.com) 优秀的远程领导者令人惊讶的特质得分:90 | 评论:34 Show HN: Relax your coding self with the soothing JavaScript simulation of rain - (itsrainingday.netlify.app) 展示HN：用舒缓的JavaScript模拟rain放松你的编程得分:51 | 评论:20 Emacs is special regarding UIs - (gnu.org) Emacs对于ui来说是特别的得分:250 | 评论:191 Former NSA chief Keith

基于隐马尔可夫模型的有监督词性标注

阅读更多关于基于隐马尔可夫模型的有监督词性标注

版权声明：本文为博主原创文章，未经博主同意不得转载。 https://blog.csdn.net/yutianzuijin/article/details/33292841 代码下载：基于隐马尔可夫模型的有监督词性标注词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每一个词都指派一个合适的词性，也就是要确定每一个词是名词、动词、形容词或其它词性的过程，又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的很多领域都发挥着关键的数据。词性标注本质上是一个分类问题，对于句子中的每一个单词W。找到一个合适的词类类别T，也就是词性标记，只是词性标注考虑的是总体标记的好坏，既整个句子的序列标记问题。对于分类问题，有非常多现成的数学模型和框架能够套用。譬如HMM、最大熵模型、条件随机场、SVM等等。在本博客中我们介绍基于隐马尔可夫模型（HMM）的词性标注。 1 隐马尔可夫模型（HMM）隐马尔科夫模型(HMM)是什么？说白了。就是一个数学模型，用一堆数学符号和參数表示而已，包含隐藏状态集合、观察状态集合、初始概率向量, 状态转移矩阵A。混淆矩阵B。在 wiki上一个比較好的HMM样例，浅显易懂地介绍了HMM的基本概念和问题，初次接触HMM的人能够首先看一下这个样例。在 Hidden

Rain Streak Removal Using Layer Priors（基于高斯混合模型的层先验去雨方法）总结

阅读更多关于 Rain Streak Removal Using Layer Priors（基于高斯混合模型的层先验去雨方法）总结

1.文章做出了哪些成果？：在本文中，我们提出了一种有效的方法，使用简单的基于补丁的背景层和雨层的先验信息。这些先验是基于高斯混合模型的，能够适应雨带的多个方向和尺度。这种简单的方法比现有的定性和定量方法更好地去除雨纹。 2.前人成果有什么？改变了什么？改进的地方是什么？解决不适定问题的现有的图像分解方法要么采用字典学习方法，要么在雨条纹的出现上施加低秩结构。虽然这些方法可以提高整体可见性，但它们往往会在背景图像中留下过多的雨痕或使背景图像过于平滑（平滑的定义见笔记） Kang等人提出了一种将输入图像分解为低频分量（结构层）和高频分量（纹理层）的方法。高频分量包含背景对象的雨痕和边缘。该方法试图通过基于稀疏编码的HoG特征字典学习从高频层中分离出雨痕频率，通过将低频层和处理过的高频层合并得到输出。改进点：文章作者在图像分解的基础上，也是将输入图像分为背景层和雨纹层，不过作者在使用了背景层和雨纹层的先验来帮助图像分解，并且这些先验是居于GMMs模型的。（所以作者第对图像层施加的约束条件不同） 3.文章的创新之处？ ①本文是第一篇用高斯混合模型补丁先验去除雨水的论文。 ②在图像分解是，背景层和雨条纹层都加上了一定的约束条件（这样保证得出的结果不会太偏离预期） 4. 框架核心算法如下：算法1　利用层先验（优先级）去除雨痕　输入：输入图像O；两层GMMs：GB和GR；初始化：

同源策略和跨域解决方案

阅读更多关于同源策略和跨域解决方案

同源策略和跨域解决方案参考文章：（1）同源策略和跨域解决方案（2）https://www.cnblogs.com/rain-chenwei/p/9520240.html 备忘一下。来源： oschina 链接： https://my.oschina.net/u/4428122/blog/4553025

订阅 rain