单词

Hierarchical Attention Based Semi-supervised Network Representation Learning

混江龙づ霸主 提交于 2020-01-11 01:01:57
Hierarchical Attention Based Semi-supervised Network Representation Learning 1. 任务 给定:节点信息网络 目标:为每个节点生成一个低维向量 基于半监督的分层关注网络嵌入方法 2. 创新点: 以半监督的方式结合外部信息 1. 提出SHANE 模型,集成节点结构,文本和标签信息,并以半监督的方式学习网络嵌入 2. 使用分层注意网络学习节点的文本特征, 两层双向GRU 提取单词和句子的潜在特征 3. 背景 1. 现有方法通常基于单词获取节点的文本特征矩阵,忽略分层结构(单词、句子) 2. 不同单词和句子包含不同数量信息,如何评估节点内容的差异性 3. 标签,也是重要的监督信息 4. 网络中存在大量未标记节点,如何合理利用 4. 模型 整合节点的结构,文本和标签信息 基于文本的表示学习 使用分层注意机制 4.1. 问题定义 G = (V, E, T, L) ( V: 节点集 E: 边集合 T: 节点的文本信息 L: 标签节点信息 ) 节点u 的文本信息Du = (Su1, Su2,...,Suq) 句子信息 Sui = (Wui..) 给定信息网络,目标:为每个节点u 整合其结构和文本信息 学习一个低维向量 u, 4.2. 基于文本的表示 分层学习可获取不同粒度的文本信息 词嵌入:捕获词汇特征 句子嵌入:

LeetCode_318最大单词长度乘积

送分小仙女□ 提交于 2020-01-10 17:38:39
给定一个字符串数组 words,找到 length(word[i]) * length(word[j]) 的最大值,并且这两个单词不含有公共字母。你可以认为每个单词只包含小写字母。如果不存在这样的两个单词,返回 0。 示例 1: 输入: [“abcw”,“baz”,“foo”,“bar”,“xtfn”,“abcdef”] 输出: 16 解释: 这两个单词为 “abcw”, “xtfn”。 示例 2: 输入: [“a”,“ab”,“abc”,“d”,“cd”,“bcd”,“abcd”] 输出: 4 解释: 这两个单词为 “ab”, “cd”。 示例 3: 输入: [“a”,“aa”,“aaa”,“aaaa”] 输出: 0 解释: 不存在这样的两个单词。 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/maximum-product-of-word-lengths 著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。 class Solution { /* * 基本思路: * 1、用一个int类型存储一个word单词 * 2、相&,判断是否不含有公共字母 */ public int maxProduct ( String [ ] words ) { int len = words . length ; if (

JAVA中常见的英文单词

梦想的初衷 提交于 2020-01-10 09:41:04
关键字 序号 关键字 含义 1 abstract 表明类或者成员方法具有抽象属性 2 assert 用来进行程序调试 3 boolean 基本数据类型之一,布尔类型 4 break 提前跳出一个块 5 byte 基本数据类型之一,字节类型 6 case 用在switch语句之中,表示其中的一个分支 7 catch 用在异常处理中,用来捕捉异常 8 char 基本数据类型之一,字符类型 9 class 类 10 const 保留关键字,没有具体含义 11 continue 回到一个块的开始处 12 default 默认,例如,用在switch语句中,表明一个默认的分支 13 do 用在do-while循环结构中 14 double 基本数据类型之一,双精度浮点数类型 15 else 用在条件语句中,表明当条件不成立时的分支 16 enum 枚举 17 extends 表明一个类型是另一个类型的子类型,这里常见的类型有类和接口 18 final 用来说明最终属性,表明一个类不能派生出子类,或者成员方法不能被覆盖,或者成员域的值不能被改变 19 finally 用于处理异常情况,用来声明一个基本肯定会被执行到的语句块 20 float 基本数据类型之一,单精度浮点数类型 21 for 一种循环结构的引导词 22 goto 保留关键字,没有具体含义 23 if 条件语句的引导词 24

关于python爬虫课程设计

旧城冷巷雨未停 提交于 2020-01-10 07:09:57
文章目录 题目简介 目标定义 .流程图 4.实现/5.分析 全部代码 python爬虫课程设计 背单词吧 题目简介 大学四年中,必不可少的证就是英语四六级证书,我们的项目可以通过pycharm来对我们所掌握的词汇量进行一个小测试,能够将掌握得不是很好的单词,保存到一个文档里面,以便我们能够及时的复习,并对掌握得还不错的单词进一步巩固,争取早日拿到英语四六级证书。 目标定义 目标:在扇贝单词的基础上新增错词本和可视化正确率。 主要解决的问题:单词是否正确的检验,需要检查推测出每个单词的编号变量是什么;最后发现是rank唯一确定。 .流程图 4.实现/5.分析 第一步:get请求爬取到相应的词库 import requests url = 'https://www.shanbay.com/api/v1/vocabtest/category/?' word_type_json = requests . get ( url ) . json ( ) #json()解析下载内容 word_type = word_type_json [ 'data' ] #获取词库种类(解析为字典,data对应的值为各种词汇) n = 0 #用于计数 for type in word_type : print ( str ( n ) + '. ' + type [ 1 ] ) n += 1 choose

atitit.词法分析原理 词法分析器 (Lexer)

♀尐吖头ヾ 提交于 2020-01-09 12:56:38
atitit. 词法分析 原理 词法分析器 (Lexer) 1 . 词法分析 (英语: lexical analysis ) 1 2 . ;实现词法分析程序的常用途径 : 自动生成 , 手工生成 . [1] 2 2 .1. 词法分析程序的功能 2 2 .2. 如何描述词素 3 2 .3. 单词 token 3 2 .4. Token 的类型 ,根据程序设计语言的特点,单词可以分为五类:关键字、标识符、常量、运算符、界符。以 4 2 .5. 词法分析 的第一阶段即扫描器 4 2 .6. 词法分析 的第 二 阶段 评估器( Evaluator ) 5 2 .7. 例如 C语言程序段的词法分析结果 5 2 .8. 最长原则 6 2 .9. 词法单元的识别 6 2 .10. 不确定 ” ( Nondeterministic Finite Automata ,NFA 8 2 .11. 转换图(transition graph)的表示 9 2 .12. 词法分析 (3)---DFA 10 2 .13. 为什么要 NFA 转 DFA 12 2 .14. 则表达式转 NFA 13 2 .15. 正则表达式如何转换为NFA呢?有几个公式 (MLS2007[1]): 13 2 .16. 构造词法分析器了。大致的流程如下: 19 2 .17. 常用的 token scanner 19 2 .18.

洛谷-3879 [TJOI2010]阅读理解

生来就可爱ヽ(ⅴ<●) 提交于 2020-01-08 23:15:12
题目描述 英语老师留了N篇阅读理解作业,但是每篇英文短文都有很多生词需要查字典,为了节约时间,现在要做个统计,算一算某些生词都在哪几篇短文中出现过。 输入格式 第一行为整数N,表示短文篇数,其中每篇短文只含空格和小写字母。 按下来的N行,每行描述一篇短文。每行的开头是一个整数L,表示这篇短文由L个单词组成。接下来是L个单词,单词之间用一个空格分隔。 然后为一个整数M,表示要做几次询问。后面有M行,每行表示一个要统计的生词。 输出格式 对于每个生词输出一行,统计其在哪几篇短文中出现过,并按从小到大输出短文的序号,序号不应有重复,序号之间用一个空格隔开(注意第一个序号的前面和最后一个序号的后面不应有空格)。如果该单词一直没出现过,则输出一个空行。 输入输出样例 输入 #1 3 9 you are a good boy ha ha o yeah 13 o my god you like bleach naruto one piece and so do i 11 but i do not think you will get all the points 5 you i o all naruto 输出 #1 1 2 3 2 3 1 2 3 2 说明/提示 对于30%的数据,1 ≤ M ≤ 1,000 对于100%的数据,1 ≤ M ≤ 10,000,1 ≤ N ≤ 1000 每篇短文长度

Leecode 58:最后一个单词的长度

强颜欢笑 提交于 2020-01-08 17:34:32
给定一个仅包含大小写字母和空格 ’ ’ 的字符串,返回其最后一个单词的长度。 如果不存在最后一个单词,请返回 0 。 说明:一个单词是指由字母组成,但不包含任何空格的字符串。 示例: 输入: “Hello World” 输出: 5 解题思路: 1.首先判断字符串是否为空,为空直接返回0 2.从字符串末尾开始去掉空格,得到末尾去掉空格的字符串 3.对经过1,2处理的字符串从头查找,找出最后一个单词的长度 改进:这题做麻烦了,第二部从尾部除去空格就可以直接改进成从尾部查找第一个单词,这样更容易理解,方便。 class Solution { public int lengthOfLastWord(String s) { if("".equals(s)) return 0; if(s.charAt(s.length() - 1) == ' '){ for(int i = s.length() - 1 ; i >= 0 ;i--){ if(s.charAt(i) != ' '){ s = s.substring(0,i + 1); break; } } } System.out.println(s); int j = 0; for(int i = 0; i < s.length();i++){ if(s.charAt(i) == ' '){ j = i + 1; } } return s

python:表示边界

浪尽此生 提交于 2020-01-08 13:18:41
表示边界 一.字符功能 字符 功能 ^ 匹配字符串开头 $ 匹配字符串结尾 \b 匹配一个单词的边界 \B 匹配非单词边界 二.示例 1):^ import re ret=re.match(r"^\d","123")#匹配以数字开头 print(ret.group()) 2):$ import re ret=re.match(r".*\d$","abc123")#匹配以数字结尾 print(ret.group()) 3).\b import re ret=re.match(r"[a-z]{3}er\b","never") print(ret.group()) 4).\B import re ret=re.match(r"[a-z]{3}er\B","nevere") print(ret.group()) 关于\b与\B \b 匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。 \B 匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。 来源: https://www.cnblogs.com/python-road/p/10519077.html

UVa 10924-Prime Words

*爱你&永不变心* 提交于 2020-01-08 13:06:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 【 问题描述】 本题输入一个单词集合,每个单词由a-z和A-Z的字母组成。每个字母对应一个特殊的值,字母a对应1,字母b对应2,以此类推,字母z对应26;同样,字母A对应27,字母B对应28,字母Z对应52。 已个单词的字母总和是素数,则这个单词是素单词,请编写程序,判定一个单词是否为素单词。 输入: 输入给出一个单词集合,每个单词一行,有L个字母,1<=L<=20.输入以EOF结束。 输出: 如果一个单词的子母和为素数,则输出“It is a prime word.”;否则输出“It is not a prime word.” 样例输入: 24 3 24 2 2 1 1 1 4 2 18 3 17 1 17 3 17 4 100 5 1000 10 1120 14 0 0 样例输出: It is a prime word. It is not a prime word. It is not a prime word. 【解题思路 】 特别提示:此题中1位素数。 先离线计算出 [ 2 ‥ 1010 ]的素数筛 u[] 。然后计算字母对应的数字和。判断该数书否为素数。输出结果。 【具体实现 】 #include<iostream> #include<cstring> #define maxNum 1040

词法分析器与正规式

情到浓时终转凉″ 提交于 2020-01-08 06:37:23
词法分析器 词法分析器是一个程序,它的任务是从源程序中提取单词。比如从源程序中提取出保留字,标识符,常数,运算符等单词符号。 词法分析器的结果是输出单词(token),通常是二元式(单词种别,单词自身的值)。 单词种别的划分,是如何设计编译器层面上的事情。可以将所有的保留字视为一种,也可以将每个保留字都视为一种。不过通常是将每种单词视为一个整数码,这样方便处理。 单词自身的值,如果一个单词种别只包含一个单词, 那么其种别编码就是其自身的值。 对于标识符和,其在符号表的入口指针作为它自身的值。 状态转换图 状态转换图对于单词的识别是可行的。只要构造出相应语言的单词的状态转换图,那么单词的识别是非常容易的。 正规式 可以将状态转换图的概念加以形式化,那么就是正规式。正规式用数学语言描述了状态转换图。可以用程序对正规式构造相应的状态转换图。 那么只要将状态图加以形式化,那么就可以自动生成词法分析器。 来源: https://www.cnblogs.com/beMaster/p/5066373.html