token | 易学教程

动手学深度学习——文本预处理

阅读更多关于动手学深度学习——文本预处理

文本预处理文本预处理是NLP中不可或缺的一项任务。文本预处理通常包括四个步骤：读入文本、分词、建立字典、将文本从词序列转换为索引序列。（1）读入文本 import collections import re def read_time_machine(): with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f: #以读的方式打开文本，并重新命名为f lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f] #将不是字母的替换为空格,去掉每行的空格并将所有的字母小写 return lines lines = read_time_machine() print('# sentences %d' % len(lines)) （2）分词 def tokenize(sentences, token='word'): """Split sentences into word or char tokens""" if token == 'word': return [sentence.split(' ') for sentence in sentences] elif token == 'char': return

OAuth2介绍与使用

阅读更多关于 OAuth2介绍与使用

什么是OAuth2 OAuth（Open Authorization，开放授权）是为用户资源的授权定义了一个安全、开放及简单的标准，第三方无需知道用户的账号及密码，就可获取到用户的授权信息 OAuth2.0是OAuth协议的延续版本，但不向后兼容OAuth 1.0即完全废止了OAuth1.0 应用场景第三方应用授权登录：在APP或者网页接入一些第三方应用时，时常会需要用户登录另一个合作平台，比如QQ，微博，微信的授权登录,第三方应用通过oauth2方式获取用户信息运作流程微信开发文档流程说明如下: 1. 第三方发起微信授权登录请求，微信用户允许授权第三方应用后，微信会拉起应用或重定向到第三方网站，并且带上授权临时票据code参数； 2. 通过code参数加上AppID和AppSecret等，通过API换取access_token； 3. 通过access_token进行接口调用，获取用户基本数据资源或帮助用户实现基本操作。具体的实现流程图如下: OAuth2流程图步骤说明(以微信授权登录为例) 1.用户访问第三方网站,第三方应用需要用户登录验证,用户选择微信授权登录 2.第三方应用发起微信登录授权请求 https://open.weixin.qq.com/connect/oauth2/authorize?appid=APPID&redirect_uri=REDIRECT

文本预处理

阅读更多关于文本预处理

1 读入文本 import collections import re def read_time_machine ( ) : with open ( '/home/kesci/input/timemachine7163/timemachine.txt' , 'r' ) as f : lines = [ re . sub ( '[^a-z]+' , ' ' , line . strip ( ) . lower ( ) ) for line in f ] return lines lines = read_time_machine ( ) print ( '# sentences %d' % len ( lines ) ) 2 分词 def tokenize ( sentences , token = 'word' ) : """Split sentences into word or char tokens""" if token == 'word' : return [ sentence . split ( ' ' ) for sentence in sentences ] elif token == 'char' : return [ list ( sentence ) for sentence in sentences ] else : print ( 'ERROR:

Datawhale：动手深度学习第一次打卡！

阅读更多关于 Datawhale：动手深度学习第一次打卡！

Datawhale：动手深度学习第一次打卡！这几天将视频中的代码重新敲了一边，感觉自己学到了不少东西：编程一定要多练呀！！！（叫破喉咙）要多看看一些写的好的代码，不然你就不知道自己代码写的有多辣眼睛学习了一些python的语法点已经一些小技巧又再次复习了以下知识点 Task01：线性回归 import torch from torch import nn import numpy as np torch . manual_seed ( 1 ) print ( torch . __version__ ) torch . set_default_tensor_type ( 'torch.FloatTensor' ) # 生成数据 num_inputs = 2 num_examples = 1000 true_w = [ 2 , - 3.4 ] true_b = 4.2 features = torch . tensor ( np . random . normal ( 0 , 1 , ( num_examples , num_inputs ) ) , dtype = torch . float ) labels = true_w [ 0 ] * features [ : , 0 ] + true_w [ 1 ] * features [ : , 1 ] + true_b

微信公众平台向特定用户推送消息

阅读更多关于微信公众平台向特定用户推送消息

最近研究微信公众平台，这里整理了一下向特定用户推送消息的思路一、首先需要将微信的openid与系统用户绑定。在用户关注公众平台的时候，回复一个链接，要求用户绑定，可以设计如下消息进行回复，（openid最好进行加密处理，后者还需要用这个字段绑定fakeid）。欢迎关注有问必答平台,<a href='http://myweixin123.duapp.com/bind.html?openid=@openid'>点击此处进行用户绑定</a>! 在bind.html页面将openid与系统的usercode进行绑定，这个绑定过程非常简单，这里不详叙述。二、将openid与fakeid进行绑定微信公众平台是一回一答的模式；但是在微信公众平台后台，可以向特定用户进行消息发送。我们利用这个机制使用代码去模拟这个过程来实现消息推送。首先需要模拟登录： using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Security.Cryptography; using System.Text; using System.Net; using System.IO; using System.Security.Authentication; using

动手学深度学习Task2

阅读更多关于动手学深度学习Task2

文本预处理；语言模型；循环神经网络基础文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，文本数据常见的预处理四个步骤如下：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型读入文本数据集：英文小说——H. G. Well的Time Machine import collections import re def read_time_machine(): #只读方式打开存放在与代码文件相同目录下的文本 with open(‘timemachine.txt’,‘r’) as f: lines=[re.sub(’[^a-z]+’,’ ',line.strip().lower()) for line in f] return lines lines=read_time_machine() print(’# sentences %d’%len(lines)) 分词对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。 def tokenize(sentences, token=‘word’): “”“Split sentences into word or char tokens”"" if token == ‘word’: return [sentence

微信公众平台自定义菜单及高级接口PHP SDK

阅读更多关于微信公众平台自定义菜单及高级接口PHP SDK

本文介绍介绍微信公众平台自定义菜单及高级接口的PHP SDK及使用方法。作者方倍工作室修正记录： 2014.05.03 v1.0 方倍工作室 http://www.cnblogs.com/txw1958/ SDK 源码： 1 /* 2 方倍工作室 http://www.cnblogs.com/txw1958/ 3 CopyRight 2014 www.doucube.com All Rights Reserved 4 */ 5 6 class class_weixin_adv 7 { 8 var $appid = ""; 9 var $appsecret = ""; 10 11 //构造函数，获取Access Token 12 public function __construct($appid = NULL, $appsecret = NULL) 13 { 14 if($appid){ 15 $this->appid = $appid; 16 } 17 if($appsecret){ 18 $this->appsecret = $appsecret; 19 } 20 21 //hardcode 22 $this->lasttime = 1395049256; 23 $this->access_token =

语言模型与循环神经网络

阅读更多关于语言模型与循环神经网络

文本预处理基本概念文本是一类序列数据，一篇文章可以看作是字符或单词的序列，在将其输入到模型中之前需要对其进行预处理，处理成为模型可以接收的格式，一般来说，模型预处理包括以下几个步骤： 1.读入文本 2.分词 3.建立字典，将每个词映射到一个唯一的索引（index） 4.将文本从词的序列转换为索引的序列，方便输入模型具体实现文本预处理当中较为关键的是建立字典以及转换索引的过程，为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。实现方法如下： class Vocab ( object ) : def __init__ ( self , tokens , min_freq = 0 , use_special_tokens = False ) : counter = count_corpus ( tokens ) # : self . token_freqs = list ( counter . items ( ) ) self . idx_to_token = [ ] if use_special_tokens : # padding, begin of sentence, end of sentence, unknown self . pad , self . bos , self . eos

微信服务号推送消息接口开发

阅读更多关于微信服务号推送消息接口开发

1.登录微信公众开发平台 https://mp.weixin.qq.com/debug/cgi-bin/sandbox?t=sandbox/login 拿到这个以后，下面会有一个二维码生成，这二维码就是沙箱环境的测试公招号！ 2.基于Django开发接口首先把用到的URL全部贴出。 from django.conf.urls import url from django.contrib import admin from app01 import views urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^index/$', views.index), url(r'^login/$', views.login), url(r'^bind/$', views.bind), url(r'^bind_qcode/$', views.bind_qcode), url(r'^callback/$', views.callback), url(r'^sendmsg/$', views.sendmsg), ] 在项目中需要用户登录，让他关注我们网站的服务号，然后给他推送消息等。准备工作： 1.登录的装饰器 def auth(func): ''' 登录认证的装饰器函数【其实可以写成一个中间件】 :param func:

动手学深度学习之文本预处理

阅读更多关于动手学深度学习之文本预处理

文本预处理文本是一类典型的序列数据，一篇文章可以看作是字符或单词的序列，当使用神经网络处理文本时，是无法直接作用于字符串的，需要对其进行预处理。本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本；分词；建立字典将每个词映射到一个唯一的索引(index)；将文本从词的序列转换为索引的序列，方便输入模型；读入文本以H. G. Wells的小说 The Time Machine 作为示例，展示文本预处理的具体过程。 import collections import re def read_time_machine ( ) : with open ( r 'C:\Users\25756\Desktop\PythonCode\Pytorch\TheTimeMachinebyWells.txt' , 'r' , encoding = 'UTF-8' ) as f : ''' 将文本每一行全部转化为小写且将非小写字母的其他字符全部用空格代替 ''' lines = [ re . sub ( '[^a-z]+' , ' ' , line . strip ( ) . lower ( ) ) for line in f ] return lines lines = read_time_machine ( ) print ( '# sentences %d' %

订阅 token