token

动手学深度学习——文本预处理

*爱你&永不变心* 提交于 2020-02-15 16:00:30
文本预处理 文本预处理是NLP中不可或缺的一项任务。文本预处理通常包括四个步骤:读入文本、分词、建立字典、将文本从词序列转换为索引序列。 (1)读入文本 import collections import re def read_time_machine(): with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f: #以读的方式打开文本,并重新命名为f lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f] #将不是字母的替换为空格,去掉每行的空格并将所有的字母小写 return lines lines = read_time_machine() print('# sentences %d' % len(lines)) (2)分词 def tokenize(sentences, token='word'): """Split sentences into word or char tokens""" if token == 'word': return [sentence.split(' ') for sentence in sentences] elif token == 'char': return

OAuth2介绍与使用

人走茶凉 提交于 2020-02-15 15:40:03
什么是OAuth2 OAuth(Open Authorization,开放授权)是为用户资源的授权定义了一个安全、开放及简单的标准,第三方无需知道用户的账号及密码,就可获取到用户的授权信息 OAuth2.0是OAuth协议的延续版本,但不向后兼容OAuth 1.0即完全废止了OAuth1.0 应用场景 第三方应用授权登录:在APP或者网页接入一些第三方应用时,时常会需要用户登录另一个合作平台,比如QQ,微博,微信的授权登录,第三方应用通过oauth2方式获取用户信息 运作流程 微信开发文档流程说明如下: 1. 第三方发起微信授权登录请求,微信用户允许授权第三方应用后,微信会拉起应用或重定向到第三方网站,并且带上授权临时票据code参数; 2. 通过code参数加上AppID和AppSecret等,通过API换取access_token; 3. 通过access_token进行接口调用,获取用户基本数据资源或帮助用户实现基本操作。 具体的实现流程图如下: OAuth2流程图 步骤说明(以微信授权登录为例) 1.用户访问第三方网站,第三方应用需要用户登录验证,用户选择微信授权登录 2.第三方应用发起微信登录授权请求 https://open.weixin.qq.com/connect/oauth2/authorize?appid=APPID&redirect_uri=REDIRECT

文本预处理

ぃ、小莉子 提交于 2020-02-15 10:30:11
1 读入文本 import collections import re def read_time_machine ( ) : with open ( '/home/kesci/input/timemachine7163/timemachine.txt' , 'r' ) as f : lines = [ re . sub ( '[^a-z]+' , ' ' , line . strip ( ) . lower ( ) ) for line in f ] return lines lines = read_time_machine ( ) print ( '# sentences %d' % len ( lines ) ) 2 分词 def tokenize ( sentences , token = 'word' ) : """Split sentences into word or char tokens""" if token == 'word' : return [ sentence . split ( ' ' ) for sentence in sentences ] elif token == 'char' : return [ list ( sentence ) for sentence in sentences ] else : print ( 'ERROR:

Datawhale:动手深度学习第一次打卡!

不羁的心 提交于 2020-02-15 09:46:34
Datawhale:动手深度学习第一次打卡! 这几天将视频中的代码重新敲了一边,感觉自己学到了不少东西: 编程一定要多练呀!!!(叫破喉咙) 要多看看一些写的好的代码,不然你就不知道自己代码写的有多辣眼睛 学习了一些python的语法点已经一些小技巧 又再次复习了以下知识点 Task01: 线性回归 import torch from torch import nn import numpy as np torch . manual_seed ( 1 ) print ( torch . __version__ ) torch . set_default_tensor_type ( 'torch.FloatTensor' ) # 生成数据 num_inputs = 2 num_examples = 1000 true_w = [ 2 , - 3.4 ] true_b = 4.2 features = torch . tensor ( np . random . normal ( 0 , 1 , ( num_examples , num_inputs ) ) , dtype = torch . float ) labels = true_w [ 0 ] * features [ : , 0 ] + true_w [ 1 ] * features [ : , 1 ] + true_b

微信公众平台向特定用户推送消息

随声附和 提交于 2020-02-15 05:20:23
最近研究微信公众平台,这里整理了一下向特定用户推送消息的思路 一、首先需要将微信的openid与系统用户绑定。 在用户关注公众平台的时候,回复一个链接,要求用户绑定,可以设计如下消息进行回复,(openid最好进行加密处理,后者还需要用这个字段绑定fakeid)。 欢迎关注有问必答平台,<a href='http://myweixin123.duapp.com/bind.html?openid=@openid'>点击此处进行用户绑定</a>! 在bind.html页面将openid与系统的usercode进行绑定,这个绑定过程非常简单,这里不详叙述。 二、将openid与fakeid进行绑定 微信公众平台是一回一答的模式;但是在微信公众平台后台,可以向特定用户进行消息发送。我们利用这个机制使用代码去模拟这个过程来实现消息推送。 首先需要模拟登录: using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Security.Cryptography; using System.Text; using System.Net; using System.IO; using System.Security.Authentication; using

动手学深度学习Task2

一个人想着一个人 提交于 2020-02-15 04:15:53
文本预处理;语言模型;循环神经网络基础 文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,文本数据常见的预处理四个步骤如下: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 数据集:英文小说——H. G. Well的Time Machine import collections import re def read_time_machine(): #只读方式打开存放在与代码文件相同目录下的文本 with open(‘timemachine.txt’,‘r’) as f: lines=[re.sub(’[^a-z]+’,’ ',line.strip().lower()) for line in f] return lines lines=read_time_machine() print(’# sentences %d’%len(lines)) 分词 对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列。 def tokenize(sentences, token=‘word’): “”“Split sentences into word or char tokens”"" if token == ‘word’: return [sentence

微信公众平台自定义菜单及高级接口PHP SDK

╄→尐↘猪︶ㄣ 提交于 2020-02-15 03:24:14
本文介绍介绍微信公众平台自定义菜单及高级接口的PHP SDK及使用方法。 作者 方倍工作室 修正记录: 2014.05.03 v1.0 方倍工作室 http://www.cnblogs.com/txw1958/ SDK 源码: 1 /* 2 方倍工作室 http://www.cnblogs.com/txw1958/ 3 CopyRight 2014 www.doucube.com All Rights Reserved 4 */ 5 6 class class_weixin_adv 7 { 8 var $appid = ""; 9 var $appsecret = ""; 10 11 //构造函数,获取Access Token 12 public function __construct($appid = NULL, $appsecret = NULL) 13 { 14 if($appid){ 15 $this->appid = $appid; 16 } 17 if($appsecret){ 18 $this->appsecret = $appsecret; 19 } 20 21 //hardcode 22 $this->lasttime = 1395049256; 23 $this->access_token =

语言模型与循环神经网络

时光怂恿深爱的人放手 提交于 2020-02-15 03:23:03
文本预处理 基本概念 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,在将其输入到模型中之前需要对其进行预处理,处理成为模型可以接收的格式,一般来说,模型预处理包括以下几个步骤: 1.读入文本 2.分词 3.建立字典,将每个词映射到一个唯一的索引(index) 4.将文本从词的序列转换为索引的序列,方便输入模型 具体实现 文本预处理当中较为关键的是建立字典以及转换索引的过程,为了方便模型处理,我们需要将字符串转换为数字。因此我们需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号。 实现方法如下: class Vocab ( object ) : def __init__ ( self , tokens , min_freq = 0 , use_special_tokens = False ) : counter = count_corpus ( tokens ) # : self . token_freqs = list ( counter . items ( ) ) self . idx_to_token = [ ] if use_special_tokens : # padding, begin of sentence, end of sentence, unknown self . pad , self . bos , self . eos

微信服务号推送消息接口开发

馋奶兔 提交于 2020-02-15 03:18:58
1.登录微信公众开发平台 https://mp.weixin.qq.com/debug/cgi-bin/sandbox?t=sandbox/login 拿到这个以后,下面会有一个二维码生成,这二维码就是沙箱环境的测试公招号! 2.基于Django开发接口 首先把用到的URL全部贴出。 from django.conf.urls import url from django.contrib import admin from app01 import views urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^index/$', views.index), url(r'^login/$', views.login), url(r'^bind/$', views.bind), url(r'^bind_qcode/$', views.bind_qcode), url(r'^callback/$', views.callback), url(r'^sendmsg/$', views.sendmsg), ] 在项目中需要用户登录,让他关注我们网站的服务号,然后给他推送消息等。 准备工作: 1.登录的装饰器 def auth(func): ''' 登录认证的装饰器函数【其实可以写成一个中间件】 :param func:

动手学深度学习之文本预处理

三世轮回 提交于 2020-02-14 23:17:37
文本预处理 文本是一类典型的 序列数据 ,一篇文章可以看作是字符或单词的序列,当使用神经网络处理文本时,是无法直接作用于字符串的,需要对其进行预处理。本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本; 分词; 建立字典将每个词映射到一个唯一的索引(index); 将文本从词的序列转换为索引的序列,方便输入模型; 读入文本 以H. G. Wells的小说 The Time Machine 作为示例,展示文本预处理的具体过程。 import collections import re def read_time_machine ( ) : with open ( r 'C:\Users\25756\Desktop\PythonCode\Pytorch\TheTimeMachinebyWells.txt' , 'r' , encoding = 'UTF-8' ) as f : ''' 将文本每一行全部转化为小写 且将非小写字母的其他字符全部用空格代替 ''' lines = [ re . sub ( '[^a-z]+' , ' ' , line . strip ( ) . lower ( ) ) for line in f ] return lines lines = read_time_machine ( ) print ( '# sentences %d' %