文本分类 | 易学教程

MAC下Eclipse的常用快捷键

阅读更多关于 MAC下Eclipse的常用快捷键

开发环境切换到Mac下后原来Window下的快捷键很大一部分是不相容的，习惯了快捷键的生活忽然哪天快捷键不起作用了，跟着的就是开发效率明显降低，频繁录入错误的快捷键让Eclipse都不知道你想要什么了。以下内容是我整理的经常使用的Eclipse快捷键，主要依据首个按键进行了分类。文档末尾是收集了Mac系统下对文本编辑当标跳转或选中的快捷键。一、Command类 Command+1 快速修复 Command+d 删除当前行 Command+Option+↓ 复制当前行到下一行 Command+Option+↑ 复制当前行到上一行 Command+← 移动光标至当前行的行首 Command+→ 移动光标至当前行的行尾 Command+t 快速显示当前类的结构 Command+w 关闭当前编辑页 Command+Option+← 前一个编辑的页面 Command+Option+→ 后一个编辑的页面 Command+k 参考当前编辑页选中的关键字向下搜索 Command+e 显示当前编辑页面列表可选择页面进行切换 Command+/ 注释或反注释当前行 Command+Shift+e 显示Editor管理器，可选择切换editor Command+j 正向查找，在当前编辑页中查找录入的字符，注意Eclipse状态栏的提示 Command+Shift+J 反向查找

地理文本处理技术在高德的演进(下)

阅读更多关于地理文本处理技术在高德的演进(下)

在【上篇】里，我们介绍了地理文本处理技术在高德的整体演进，选取了几个通用query分析的点进行了介绍。下篇中，我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析，包括城市分析，wherewhat分析，路径规划，并对未来做一下展望。四、query分析技术演进 4.1 城市分析在高德地图的检索场景下，从基础的地图数据索引、到在线召回、最终产品展示，均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外，还会包含用户的图面城市以及用户位置城市两个城市信息。通常，大多数的搜索意图都是在图面或者用户位置城市下，但是仍存在部分检索意图需要在其他城市中进行，准确的识别出用户请求的目标城市，是满足用户需求的第一步，也是极其重要的一步。在query分析策略流程中，部分策略会在城市分析的多个结果下并发执行，所以在架构上，城市分析的结果需要做到少而精。同时用户位置城市，图面城市，异地城市三个城市的信息存在明显差异性，不论是先验输出置信度，还是用后验特征做选择，都存在特征不可比的问题。在后验意图决策中，多个城市都有相关结果时，单一特征存在说服力不足的问题，如何结合先验置信度和后验的POI特征等多维度进行刻画，都是我们要考虑的问题。原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程但是原始的策略比较简陋，存在以下问题：问题1

Wikipedia中文文本数据获取

阅读更多关于 Wikipedia中文文本数据获取

欢迎各位童鞋交流和指教！ ----------------------------------------------------------------------------------- 最近因为要做中文语义关系分类，所以需要获取一些中文文本数据，wikipedia中文无疑是一个很好的选择。因为wiki自己平时隔一段时间就在dump的网页上更新文本数据，这个非常方便我们使用和下载wiki的数据，比爬虫要容易多，而且已经有意大利的大牛BenStobaugh写好了WikipediaExtractor的代码，已经将文本格式、各种神奇的符号去掉，做了初步的处理，不过这个代码存在一些问题，就是可能对有些符号过于敏感，去掉了对我们理解语义可能有用的符号，但目前这个地方对于我来说不太重要，所以我就先用大牛的代码啦。废话少说，操作步骤如下： 1)先到wiki的dump的网页上下载dump.xml.bz2的文件。https://dumps.wikimedia.org/zhwiki/上点击20170501，下载zhwiki-20170501-pages-articles.xml.bz2 2)使用wikipediaextractor抽取正文文本。网址http://wiki.apertium.org/wiki/Wikipedia_Extractor下载代码，重名名为WikiExtractor

美团餐饮娱乐知识图谱——美团大脑揭秘

阅读更多关于美团餐饮娱乐知识图谱——美团大脑揭秘

前言 “ I’m sorry. I can’t do that, Dave.” 这是经典科幻电影《2001: A Space Odyssey》里HAL 9000机器人说的一句话，浓缩了人类对终极人工智能的憧憬。让机器学会说这样简单一句话，需要机器具备情感认知、自我认识以及对世界的认识，来辅助机器处理接收到的各种信息，了解信息背后的意思，从而生成自己的决策。而这些认知模块的基础，都需要机器具备知识学习组织推理的能力，知识图谱就是为实现这些目标而生。今年5月，美团NLP中心开始构建大规模的餐饮娱乐知识图谱——美团大脑，它将充分挖掘关联各个场景数据，用AI技术让机器“阅读”用户评论数据，理解用户在菜品、价格、服务、环境等方面的喜好，挖掘人、店、商品、标签之间的知识关联，从而构建出一个“知识大脑”。美团大脑已经在公司多个业务中初步落地，例如智能搜索推荐、智能金融、智能商户运营等。此前，《美团大脑：知识图谱的建模方法及其应用》一文，介绍了知识图谱的分类及其具体应用，尤其是常识性知识图谱及百科全书式知识图谱分别是如何使用的。之后我们收到非常多的反馈，希望能进一步了解“美团大脑”的细节。为了让大家更系统地了解美团大脑，NLP中心会在接下来一段时间，陆续分享一系列技术文章，包括知识图谱相关的技术，美团大脑背后的算法能力，千亿级别图引擎建设以及不同应用场景的业务效果等等

theirs《A 2019 Guide to Speech Synthesis with Deep Learning》

阅读更多关于 theirs《A 2019 Guide to Speech Synthesis with Deep Learning》

from:https://zhuanlan.zhihu.com/p/91968492 《A 2019 Guide to Speech Synthesis with Deep Learning》人类语音的人工产生被称为语音合成。这种基于机器学习的技术适用于文本到语音，音乐生成，语音生成，启用语音的设备，导航系统以及视障人士的可访问性。在本文中，我们将研究为深度学习而编写和开发的研究和模型架构。但是在我们进入之前，我们需要简要概述几种特定的传统语音合成策略：拼接式（concatenative）和参数式（parametric）。在拼接式方法中，来自大型数据库的语音用于生成新的可听语音。在需要不同风格的语音的情况下，将使用新的音频语音数据库。这限制了这种方法的可扩展性。参数式方法使用录制的人的语音和具有可修改以更改语音的一组参数的功能。这两种方法代表了进行语音合成的旧方法。现在，让我们看一下使用深度学习进行操作的新方法。这是我们将涵盖的研究，以研究流行的和当前的语音合成方法： WaveNet：A Generative Model for Raw Audio Tacotron：Towards End-toEnd Speech Synthesis DeepVoice 1：Real-time Neural Text-to-Speech DeepVoice 2：Multi

前端知识点总结——HTML

阅读更多关于前端知识点总结——HTML

前端知识点总结——HTML HTML：HTML4.01 指的就是网页技术 HTML5：HTML4.01的升级版本 1.web的基础知识 web与Internet 1.Internet:全球性的计算机互联网络，因特网，互联网，交互网 2.提供服务访问网站：www（world wide web）服务 Email:电子邮件服务 BBS：电子公告板，俗称论坛 FTP：文件的上传下载 telenet:远程登录 3.Internet上的应用程序 1.C/S程序 C：Client客户端 S：Server服务器端代表：QQ，微信，网络游戏 2.B/S程序 B：Browser 浏览器 S：server 服务器代表：网站 4.web web:运行在Internet之上的一种B/S结构的应用程序，俗称网站。 w3c:(万维网联盟) w3c:制定web技术规范 web的工作原理：基于浏览器和服务器还有通信协议来实现信息的传输和展示。 1.通信协议 HTTP/HTTPS 规范了数据是如何传递和打包 2.服务器 1.功能 1.存储web信息，并提供程序运行环境 2.接收用户请求并给出响应 3.具备一定的安全功能 2.服务器产品 1.TOMCAT 2.APACHE 3.IIS 3.服务器技术 1.php 2.java 3..NET 3.浏览器功能： 1.代理用户（UA:user agent）提交请求

xargs原理及用法详解

阅读更多关于 xargs原理及用法详解

为什么需要xargs　　　　　　　　　　　　　　　　　　　　管道实现的是将前面的stdout作为后面的stdin，但是有些命令不接受管道的传递方式，最常见的就是ls命令。有些时候命令希望管道传递的是参数，但是直接用管道有时无法传递到命令的参数位，这时候需要xargs，xargs实现的是将管道传输过来的stdin进行处理然后传递到命令的参数位上。也就是说xargs完成了两个行为：处理管道传输过来的stdin；将处理后的传递到正确的位置上。可以试试运行下面的几条命令，应该能很好理解xargs的作用了: [root@node2 scprits]# echo "/etc/inittab" | cat /etc/inittab [root@node2 scprits]# echo "/etc/inittab" | xargs cat # inittab is no longer used when using systemd. # # ADDING CONFIGURATION HERE WILL HAVE NO EFFECT ON YOUR SYSTEM. # # Ctrl-Alt-Delete is handled by /usr/lib/systemd/system/ctrl-alt-del.target # # systemd uses 'targets' instead of

7 中文短文本聚类

阅读更多关于 7 中文短文本聚类

文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息，以高维空间点的形式展现出来，通过计算哪些点距离比较近，从而将那些点聚成一个簇，簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近，但簇与簇之间的点要尽量的远。如下图，以 K、M、N 三个点分别为聚类的簇心，将结果聚为三类，使得簇内点的距离尽量的近，但簇与簇之间的点尽量的远。开发环境，我们选择：： Windows 系统 Python 3.6 Jupyter Notebook 本文继续沿用上篇文本分类中的语料来进行文本无监督聚类操作。整个过程分为以下几个步骤：语料加载分词去停用词抽取词向量特征实战 TF-IDF 的中文文本 K-means 聚类实战 word2Vec 的中文文本 K-means 聚类下面开始项目实战。 1. 首先进行语料加载，在这之前，引入所需要的 Python 依赖包，并将全部语料和停用词字典读入内存中。第一步，引入依赖库，有随机数库、jieba 分词、pandas 库等： import random import jieba import pandas as pd import numpy as np from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature

文本分类总结

阅读更多关于文本分类总结

textcnn: 加载预训练词典： https://blog.csdn.net/nlpuser/article/details/83627709 构建textcnn网络： https://blog.csdn.net/qq_25037903/article/details/85058217 textcnn的标准写法： https://github.com/dennybritz/cnn-text-classification-tf 几千星但是tf版 pytorch版本： https://github.com/Shawn1993/cnn-text-classification-pytorch 深度可分离卷积： https://cloud.tencent.com/developer/article/1453992 Capsule网络： https://spaces.ac.cn/archives/4819 大规模预训练模型：bert和xlnet attention和transformer: 参考一： https://blog.csdn.net/hahajinbu/article/details/81940355 参考二： https://blog.csdn.net/qq_41664845/article/details/84969266 github上现成的文本分类模型：各种现成的模型：

长文本去重缘起：（1）原创不易，互联网抄袭成风，很多原创内容在网上被抄来抄去，改来改去（2）

阅读更多关于长文本去重缘起：（1）原创不易，互联网抄袭成风，很多原创内容在网上被抄来抄去，改来改去（2）

缘起：（1）原创不易，互联网抄袭成风，很多原创内容在网上被抄来抄去，改来改去（2）百度的网页库非常大，爬虫如何判断一个新网页是否与网页库中已有的网页重复呢？这是本文要讨论的问题（尽量用大家都能立刻明白的语言和示例表述）。一、传统签名算法与文本完整性判断问题抛出：（1）运维上线一个bin文件，将文件分发到4台线上机器上，如何判断bin文件全部是一致的？（2）用户A将消息msg发送给用户B，用户B如何判断收到的msg_t就是用户A发送的msg？思路：一个字节一个字节的比对两个大文件或者大网页效率低，我们可以用一个签名值（例如md5值）代表一个大文件，签名值相同则认为大文件相同（先不考虑冲突率）回答：（1）将bin文件取md5，将4台线上机器上的bin文件也取md5，如果5个md5值相同，说明一致（2）用户A将msg以及消息的md5同时发送给用户B，用户B收到msg_t后也取md5，得到的值与用户A发送过来的md5值如果相同，则说明msg_t与msg相同结论：md5是一种签名算法，常用来判断数据的完整性与一致性 md5设计原则：两个文本哪怕只有1个bit不同，其md5签名值差别也会非常大，故它只适用于“完整性”check，不适用于“相似性”check。新问题抛出：有没有一种签名算法，如果文本非常相似，签名值也非常相似呢？二、文本相似性的签名算法

订阅文本分类