文本分类

整理Eclipse常用快捷键

ⅰ亾dé卋堺 提交于 2020-03-04 15:33:49
开发环境切换到 Mac 下后原来 Window 下的快捷键很大一部分是不相容的,习惯了快捷键的生活忽然哪天快捷键不起作用了,跟着的就是开发效率明显降低,频繁录入错误的快捷键让 Eclipse 都不知道你想要什么了。 以下内容是我整理的经常使用的 Eclipse 快捷键,主要依据首个按键进行了分类。 文档末尾是收集了 Mac 系统下对文本编辑当标跳转或选中的快捷键。 一、 Command 类 Command+1 快速修复 Command+d 删除当前行 Command+Option+ ↓ 复制当前行到下一行 Command+Option+ ↑ 复制当前行到上一行 Command+ ← 移动光标至当前行的行首 Command+ → 移动光标至当前行的行尾 Command+t 快速显示当前类的结构 Command+w 关闭当前编辑页 Command+Option+ ← 前一个编辑的页面 Command+Option+ → 后一个编辑的页面 Command+k 参考当前编辑页选中的关键字向下搜索 Command+e 显示当前编辑页面列表可选择页面进行切换 Command+/ 注释或反注释当前行 Command+Shift+e 显示 Editor 管理器,可选择切换 editor Command+j 正向查找,在当前编辑页中查找录入的字符,注意 Eclipse 状态栏的提示 Command

pixel-anchor 相关概念

喜你入骨 提交于 2020-03-04 13:51:32
Pixel-Anchor原文: 添加链接描述 引用: 添加链接描述 数据集: 添加链接描述 对于数据增强,统一从图片中裁剪640*640的样本来形成大小为32的mini-batch。在ImageNet数据集训练的模型作为预训练模型。SynthText数据集包括800k合成的文本图像,用来预训练模型,然后在每个基准数据集继续训练对应的图像。对于每个数据集,在第一阶段训练时,初始lr设置为0.0001,然后在第二阶段训练减到0.00001。 首先用公共数据集SynthText和自己的数据集来得到模型的特征,然后在两个具有挑战性的公共基准来评估:ICDAR 2015 和ICDAR 2017 MLT。 Pixel-based: 1、FPN: 特征金字塔网络 2、ASPP: 空洞空间金字塔pooling Anchor-based: 1、SSD: 添加链接描述 2、APL: 自适应预测层 该层分别为不同的卷积核搭配不同的宽高比锚,以适应不同尺度、不同角度的文本。主要分为以下5类: a)、正方形anchors:宽高比=1:1,卷积滤波器大小为3x3,主要为了检测方正规整的文字; b)、中等水平anchors:宽高比={1:2,1:3,1:5,1:7},卷积滤波器大小为3x5,主要为了检测水平倾斜的文字; c)、中等垂直anchors:宽高比={2:1,3:1,5:1,7:1}

营销型网站建设247条可用指南

徘徊边缘 提交于 2020-03-04 09:38:54
导航: 首页可用性设计 首页元素要清晰的关注用户的关键任务(避免“增加功能倾向(featuritis)“) 如果网站比较大,那么首页应包含搜索输入框 首页要十分清楚的提供产品(内容)分类 在首页或首页内一次点击展示有用的内容 信息展示时应当是简单的,自然的,符合逻辑顺序的 在首页展示真实网站内容的优秀示例 首页上的链接以最重要的关键词作为起始(例如:“周日假期”而不是“阳光假日”) 在首页提供一个最近的特色项列表,并提供存档内容的链接 首页导航不要过度格式化(修饰),确保用户不会把它误认为广告 在首页清晰的声明价值取向(例如一个标志性的口号或欢迎语) 在首页包含有意义的图案设计,而非无关的剪贴画或绘画作品 导航选项按逻辑性或用户导向方式排序(把次要的公司信息放在底部) 首页标题(标题)可以为诸如谷歌等搜索引擎提供良好可见度 所有公司相关信息安排在一个显着区域(例如:“关于我们(关于我们)“) 用户可以了解到价值取向 一看到首页,第一次访问的人就知道从何处开始 在首页展示出所有主要的操作选项 首页拥有一个易记的网址 首页需经过专业设计,以给用户良好的第一印象 首页的设计要能激发用户探索站点的兴趣 首页就要像一个首页,不能让用户把它与二级页面混淆 任务导向 网站应避免出现不相干的,多余的或让用户分心的信息 避免过多的使用脚本,小应用程序(小程序),视频音频文件,图案和图片

余弦定理的应用:基于文字的文本相似度计算

那年仲夏 提交于 2020-03-03 23:23:46
最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受…… 于是停下来仔细分析发现,这种算法在此项目中不是特别适用,由于要判断一本书中是否有相同章节,所以每两个章节之间都要比较,若一本书书有x章的话,这里需对比x(x-1)/2次;而此算法采用矩阵的方式,计算两个字符串之间的变化步骤,会遍历两个文本中的每一个字符两两比较,可以推断出时间复杂度至少为 document1.length × document2.length ,我所比较的章节字数平均在几千~一万字;这样计算实在要了老命。 想到Lucene中的评分机制,也是算一个相似度的问题,不过它采用的是计算向量间的夹角(余弦公式),在google黑板报中的: 数学之美(余弦定理和新闻分类) 也有说明,可以通过余弦定理来判断相似度;于是决定自己动手试试。 首相选择向量的模型:在以字为向量还是以词为向量的问题上,纠结了一会;后来还是觉得用字,虽然词更为准确,但分词却需要增加额外的复杂度,并且此项目要求速度,准确率可以放低,于是还是选择字为向量。

二、文本检索

混江龙づ霸主 提交于 2020-03-03 14:45:43
文本是最基本、最高级的信息媒体,从内容理解的角度来讲,最重要的媒体是文本,因为只有文本才能给出信息准确的语法和语义描述,文本检索是Web信息检索的起点和基础 文本检索所涉及的主要问题:Web信息的采集与组织,文本内容表示,用户查询方法,相关文本排序,文本聚类(无监督学习),文本分类(有监督学习) 两种爬虫(clawler)比较: 通用网络爬虫、聚焦爬虫 网络搜索策略: 深度优先 (深度优先会导致爬虫陷入问题,主流还是后两种) 广度优先: 在抓取过程中,只有完成当前层次的搜索后,才进行下一层次的搜索 最佳优先 分布式爬虫:通过分散在不同地点的服务器实现,通过统一的索引结构已经数据镜像等方法为所有用户便捷的共享 网页去重算法MD5: 算法思想:基于消息摘要判重 消息摘要:对消息(网页)特征进行提取的过程称为摘要 消息摘要过程:通过Hash函数获得,从整个消息(一个网页)中计算一个很小的特征信息的过程 算法输出结果:128bit的消息摘要 算法核心:Hash函数的设计 算法缺点:计算量大 算法特点: 压缩性:任意长度的数据,算出的MD5长度都是固定的 容易计算 抗修改性 强抗碰撞 预处理---------链接比较去重算法: 算法思想:基于两个网页中所包含的链接是否相同来判断两个网页是否相同 算法特点:计算量小。结果不够精确 文本的保存:通常以压缩的形式保存 来源: CSDN 作者:

C# XmlReader/XmlWriter 类

倾然丶 夕夏残阳落幕 提交于 2020-03-03 00:27:27
  XmlReader用于读取Xml文件,XmlWriter用于将数据写到Xml文件。其实,在印象当中,XML很多的操作类都支持直接Save、Read也支持接受XmlReader与XmlWriter类的示例作为参数,但是为什么还要有这个两类来专门用于读写XML文件呢?因为它们有强大的自定义格式功能; 一、XmlReader的使用   XmlReader类专门用于读取Xml文件,最大的特点在于支持 Settings。 属性 说明 AttributeCount 当在派生类中被重写时,获取当前节点上的属性数 BaseURI 当在派生类中被重写时,获取当前节点的基 URI CanReadBinaryContent 获取一个值,该值指示 XmlReader 是否实现二进制内容读取方法 Depth 获取 XML 文档中当前节点的深度 EOF 获取一个值,该值指示此读取器是否定位在流的结尾 HasAttributes 获取一个值,该值指示当前节点是否有任何属性 HasValue 获取一个值,该值指示当前节点是否可以具有 Value IsDefault 获取一个值,该值指示当前节点是否是从 DTD 或架构中定义的默认值生成的特性 IsEmptyElement 获取一个值,该值指示当前节点是否为空元素(例如 <MyElement/>) Item 获取具有指定索引的属性的值,支持整形,字符串

mac系统快捷键大全详细介绍

好久不见. 提交于 2020-03-02 15:01:00
第一种分类:启用快捷键 按下按键或组合键,直到所需的功能出现(例如,在启动过程中按住 Option 直到出现“启动管理程序”,或按住 Shift 直到出现“安全启动”)。提示:如果启动功能未起作用,而您使用的是第三方键盘,请连接 Apple 键盘,然后再试一次。 按键或组合键功能; Option显示所有可引导宗卷(启动管理程序) Shift执行安全启动(以安全模式启动) C从可引导磁盘启动(DVD、CD) T以 FireWire 目标磁盘模式启动 N从 NetBoot 服务器启动 X强制 Mac OS X 启动(如果存在非 Mac OS X 启动宗卷) Command-V以详细模式启动 Command-S以单用户模式启动 第二种分类:Finder 快捷键组合键功能 Command-A选中最前面的 Finder 窗口中的所有项(如果未打开任何窗口则选中桌面内容) Option-Command-A取消选择所有项 Shift-Command-A打开“应用程序”文件夹 Command-C拷贝所选项/文本至夹纸板 Shift-Command-C打开“电脑”窗口 Command-D复制所选项 Shift-Command-D打开桌面文件夹 Command-E推出 Command-F查找任何匹配 Spotlight 属性的内容 Shift-Command-F查找 Spotlight 文件名匹配项

iOS -- 开源项目和库

為{幸葍}努か 提交于 2020-03-02 05:48:27
TimLiu-iOS 目录 UI 下拉刷新 模糊效果 AutoLayout 富文本 图表 表相关与Tabbar 隐藏与显示 HUD与Toast 对话框 其他UI 动画 侧滑与右滑返回手势 gif动画 其他动画 网络相关 网络连接 图像获取 网络聊天 网络测试 网页框架 WebView与WKWebView Model 通讯录 其他库 数据库 缓存处理 PDF 图像浏览及处理 摄像照相视频音频处理 响应式框架 消息相关 消息推送客户端 消息推送服务器端 通知相关 版本新API的Demo 代码安全与密码 测试及调试 动态更新 AppleWatch 完整项目 好的文章 VPN Xcode插件 美工资源 开发资源 开发资料 swift 他人开源总结 开发博客列表 ======== 具体内容 ============================= ======== UI 下拉刷新 EGOTableViewPullRefresh - 最早的下拉刷新控件。 SVPullToRefresh - 下拉刷新控件。 MJRefresh - 仅需一行代码就可以为UITableView或者CollectionView加上下拉刷新或者上拉刷新功能。可以自定义上下拉刷新的文字说明。具体使用看“使用方法”。 (国人写) XHRefreshControl - XHRefreshControl 是一款高扩展性

[总结]JS操作DOM常用API详解

天大地大妈咪最大 提交于 2020-03-01 22:58:01
文本整理了javascript操作DOM的一些常用的api,根据其作用整理成为创建,修改,查询等多种类型的api,主要用于复习基础知识,加深对原生js的认识。 基本概念 在讲解操作DOM的api之前,首先我们来复习一下一些基本概念,这些概念是掌握api的关键,必须理解它们。 Node类型 DOM1级定义了一个Node接口,该接口由DOM中所有节点类型实现。这个Node接口在JS中是作为Node类型实现的。在IE9以下版本无法访问到这个类型,JS中所有节点都继承自Node类型,都共享着相同的基本属性和方法。 每个节点都有一个nodeType属性,用于表明节点的类型。节点类型由在Node类型中定义的下列12个数值常量来表示,任何节点类型必居其一: Node.ELEMENT_NODE:1 Node.ATTRIBUTE_NODE:2 Node.TEXT_NODE:3 Node.CDATA_SECTION_NODE:4 Node.ENTITY_REFERENCE_NODE:5 Node.ENTITY_NODE:6 Node.PROCESSING_INSTRUCTION_NODE:7 Node.COMMENT_NODE:8 Node.DOCUMENT_NODE:9 Node.DOCUMENT_TYPE_NODE:10 Node.DOCUMENT_FRAGMENT_NODE:11 Node

文本关键词提取算法总结

放肆的年华 提交于 2020-03-01 02:19:11
1.TF-IDF 昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。 原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数 2、遍历每个词,得到每个词在所有文档里的IDF值,和在本聚类内出现的次数(TF)相乘的值 3、用一个字典(key是词,value是TF*IDF权重)来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。 2.基于语义的统计语言模型 文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。 采用 基于语义的统计语言模型 ,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。 文章关键词提取组件的主要特色在于: 1、 速度快 :可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档; 2、 处理精准 :Top N的分析结果往往能反映出该篇文章的主干特征; 3、 精准排序 :关键词按照影响权重排序,可以输出权重值; 4、 开放式接口