维度 | 易学教程

Pytorch笔记 (3) 科学计算2

阅读更多关于 Pytorch笔记 (3) 科学计算2

一、组织张量的元素（1）重排张量元素本节介绍在不改变张量元素个数和各元素的值的情况下改变张量的大小 torch.Tensor类的成员方法 reshape() 参数是多个int类型的值。如果想要把一个张量的大小改成 s[0],s[1],s[2],s[3]....那就让s[0],s[1],s[2],s[3]....作为reshape() 方法的n个参数使用 reshape() 在不改变元素个数和各元素的值的情况下改变张量大小 tc = torch.arange(12) #张量大小 (12,) print('tc={}'.format(tc)) t322 = tc.reshape(3,2,2) #张量大小 (3,2,2) print('t322={}'.format(t322)) t43 = t322.reshape(4,3) #张量大小(4,3) print('t43={}'.format(t43)) tc=tensor([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) t322=tensor([[[ 0, 1], [ 2, 3]], [[ 4, 5], [ 6, 7]], [[ 8, 9], [10, 11]]]) t43=tensor([[ 0, 1, 2], [ 3, 4, 5], [ 6, 7, 8], [ 9, 10, 11]])

python学习笔记(2)：科学计算及数据可视化入门

阅读更多关于 python学习笔记(2)：科学计算及数据可视化入门

一、NumPy 　　1.NumPy:Numberical Python 　　2.高性能科学计算和数据分析的基础包　　3.ndarray,多维数组(矩阵)，具有矢量运算的能力，快速、节省空间　　　　(1)ndarray，N维数组对象(矩阵) 　　　　(2)所有元素必须是相同类型　　　　(3)ndim属性，维度个数　　　　(4)shape属性，各维度的大小　　　　(5)dtype属性，数据类型　　4.矩阵运算，无需循环，可完成类似Matlab中的矢量计算　　5.线性代数、随机数生成　　6.import numpy as np narray多维数组 import numpy as np #生成指定维度的随机多维数组 data = np.random.rand(2,3) //生成一个两行三列的多维数组 print dataprint type(data)　　　　　　//查看数据类型,这个地方数据类型是numpy.ndarray的数据类型 [[0.16088508 0.86321185 0.25653982] [0.42456419 0.33277194 0.30046417]] <class 'numpy.ndarray'># print '维度个数', data.ndim　　　　//维度个数 2 　　　　维度个数有两个，第0个维度大小是2，第一个维度大小是3print

ZhaoWei-2020-01-19

阅读更多关于 ZhaoWei-2020-01-19

Dubbo Dubbo是一个分布式服务治理框架，提供高性能和透明化的RPC远程服务调用方案及 SOA 架构治理方案。远程通信提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及 “ 请求-响应”模式的信息交换方式。集群容错提供基于接口方法的透明远程过程调用，包括多协议支持，以及软负载均衡，失败容错，地址路由，动态配置等集群支持。自动发现基于注册中心目录服务，使服务消费方能动态的查找服务提供方，使地址透明，使服务提供方可以平滑增加或减少机器。 springboot整合dubbo 引入依赖在服务提供者、消费者工程中的pom.xml文件中添加依赖。配置Dubbo相关参数启动类添加 @EnableDubbo 注解服务提供方和服务消费方实现服务提供者和消费者服务治理和配置管理服务治理服务治理主要作用是改变运行时服务的行为和选址逻辑，达到限流，权重配置等目的，主要有以下几个功能：应用级别的服务治理在Dubbo2.6及更早版本中，所有的服务治理规则都只针对服务粒度，如果要把某条规则作用到应用粒度上，需要为应用下的所有服务配合相同的规则，变更，删除的时候也需要对应的操作，这样的操作很不友好，因此Dubbo2.7版本中增加了应用粒度的服务治理操作，对于条件路由(包括黑白名单)，动态配置(包括权重，负载均衡)都可以做应用级别的配置：

知物由学 | 人工智能时代，如何反爬虫？

阅读更多关于知物由学 | 人工智能时代，如何反爬虫？

“知物由学”是网易易盾打造的一个品牌栏目，词语出自汉·王充《论衡·实知》。人，能力有高下之分，学习才知道事物的道理，而后才有智慧，不去求问就不会知道。“知物由学”希望通过一篇篇技术干货、趋势解读、人物思考和沉淀给你带来收获的同时，也希望打开你的眼界，成就不一样的你。当然，如果你有不错的认知或分享，也欢迎在“网易易盾”公众号后台投稿。随着互联网开放式、爆发式地增长，数据的价值变得越来越重要，尤其是电商、传媒、社交等等业务，将数据比作黄金也不为过。因而随之诞生了网络爬虫技术，黑客通过调用网站开放的免费接口来批量获取有价值的数据，用以数据挖掘和分析行业状况等。然而大量的非法爬虫会造成网站服务器压力巨大，甚至影响正常用户的访问；而且有价值的数据被窃取，也会对网站的商业利益造成负面影响。因此反爬虫技术应运而生。反爬虫技术大体包含“爬虫识别”和“爬虫反制”两个步骤，后者主要是用于对前者识别出的爬虫出的爬虫进行惩罚和反制，主要包括限制访问、验证码校验、数据投毒等等，本文不做深究。而前者目前常用的方式是基于规则判断。比如以某个用户或者IP为单位，统计其在一定时间内的访问记录，然后用人为设定的一些阈值，这种可以称为专家规则方法。其优点是规则明确、可靠，可以实时针对发现的爬虫特征来设定规则，从而实现与爬虫对抗。但是它也有明显的缺点：强依赖运营的经验，规则和阈值难以凭空设定；

如何构建阿里小蜜算法模型的迭代闭环？

阅读更多关于如何构建阿里小蜜算法模型的迭代闭环？

导读：伴随着AI的兴起，越来越多的智能产品诞生，算法链路也会变得越来越复杂，在工程实践中面临着大量算法模型的从0到1快速构建和不断迭代优化的问题，本文将介绍如何打通数据分析-样本标注-模型训练-监控回流的闭环，为复杂算法系统提供强有力的支持。新技术/实用技术点：实时、离线场景下数据加工的方案选型高维数据的可视化交互面对不同算法，不同部署场景如何对流程进行抽象 01. 背景技术背景及业务需求小蜜系列产品是阿里巴巴为消费者和商家提供的智能服务解决方案，分别在用户助理、电商客服、导购等方面做了很多工作，双十一当天提供了上亿轮次的对话服务。其中用到了问答、预测、推荐、决策等多种算法模型，工程和算法同学在日常运维中会面临着如何从0到1快速算法模型并不断迭代优化，接下来将从工程角度介绍如何打通数据->样本->模型->系统的闭环，加速智能产品的迭代周期。实现实现这一过程分为2个阶段： 0->1阶段：模型冷启动，这一阶段更多关注模型的覆盖率。实现步骤： A. 抽取对话日志作为数据源 B. 做一次知识挖掘从日志中挑出有价值的数据 C. 运营人员进行标注 D. 算法对模型进行训练 E. 运营人员和算法端统一对模型做评测 F. 模型发布 1->100阶段： badcase反馈和修复阶段，主要目标是提升模型的准确率。实现步骤： A. 运营端根据业务反馈（顶踩按钮）、用户不满意会话（如

电商交易数据分析

阅读更多关于电商交易数据分析

一.数据集介绍数据来源于自kaggle的某电商真实交易数据，经过后期处理，不会造成任何隐私的泄露。该公司主要销售礼品，大部分出售对象是面向个人。二.数据集字段介绍数据包含104557条数据，10个字段，字段内容为： orderId：订单编号，订单编号均为数字。 userId：客户编号，每个客户编号由数字组成。 productId：产品编号，由整数组成。 cityId：客户所在城市编号。 price：商品价格。 payMoney：客户最终支付金额。 channelId：购买渠道编号。 deviceType：客户下单的设备类型。 createTime：订单下单时间。 payTime：客户支付时间。三.分析内容分析数据可以从两方面开始考虑，一个是维度，一个是指标，维度可以看做x轴，指标可以看成是y轴，同一个维度可以分析多个指标，同一个维度也可以做降维升维。比如：分析商品维度可以通过价格、销售额以及销量这几个指标进行分析，而城市维度也可以通过销售额和销量这两个指标进行分析、渠道维度可以通过订单数、成交量等指标进行分析。四. 数据处理分析过程 1.数据清洗利用Python语言进行数据分析，开发工具有Jupyter Notebook。导入加载数据分析需要使用的库 import numpy as np import pandas as pd import matplotlib

[GIt] 团队工作效率分析工具gitstats

阅读更多关于 [GIt] 团队工作效率分析工具gitstats

copy : http://www.cnblogs.com/ToDoToTry/p/4311637.html 如果你是团队领导，关心团队的开发效率和工作激情；如果你是开源软件开发者，维护者某个repo；又或者，你关心某个开源软件的开发进度，那么你可以试一试gitstats. gitstats 是一个git仓库分析软件，可以帮助你查看git仓库的提交状态，根据不同维度分析计算，并自动生成数据图表。安装使用非常简单，如果是ubuntu，直接apt-get 即可。如果是mac，那还得装个gnuPlot. 首先，gitstats提供全局上的统计数据报告，包括： 1. 报告产生时间及产生所花费的时间：如仅花了28秒 2. 报告所覆盖的时间：如2008年8月19日至2012年12月19日 3. 年龄：该repo的年纪，如“1288天，其中490天是活跃天.” 4. 文件数及代码：如：220个文件，19万行（包括翻译、自动产生界面数据和其他数据文件），其中这三年，150万行被添加130万行被移除 5. 作者数：如15，每个作者平均提交次数。其次，还包括： 1. 时间维度的效率分析：每天中每小时的、每周中每天的、每周中每小时的、每年中每月的、每年的提交量。 2. 提交者维度的活跃度统计：列举所有的作者（提交数，第一次提交日期，最近一次的提交日期），并按月和年来划分。 3. 按照文件数

注意力机制和Seq2seq模型笔记

阅读更多关于注意力机制和Seq2seq模型笔记

注意力机制在“编码器—解码器（seq2seq）”⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。例如，当把“Hello world”翻译成“Bonjour le monde”时，“Hello”映射成“Bonjour”，“world”映射成“monde”。在seq2seq模型中，解码器只能隐式地从编码器的最终状态中选择相应的信息。然而，注意力机制可以将这种选择过程显式地建模。注意力机制框架 Attention 是一种通用的带权池化方法，输入由两部分构成：询问（query）和键值对（key-value pairs）。 , . Query , attention layer得到输出与value的维度一致 . 对于一个query来说，attention layer 会与每一个key计算注意力分数并进行权重的归一化

如何构建阿里小蜜算法模型的迭代闭环？

阅读更多关于如何构建阿里小蜜算法模型的迭代闭环？

基于内容的推荐算法

阅读更多关于基于内容的推荐算法

输入　　输入 1 ：包含 200 部电影的数据集，集合中包含两列，一列为电影的 id ，一列为电影的流派集合，如下图所示：　　输入 2 ：一个用户的电影兴趣记录， like 字段为 1 表示喜欢， 0 表示不喜欢，如下图所示：　输出　　输出 1 ：输入 1 的 One-Hot 编码形式，类似下图所示：　　输出 2 ：根据输入 2 和输出 1 ，从电影数据集中给用户推荐用户没有看过的与用户相似度最高的 k 个电影。前言　　基于内容的推荐算法是一种比较经典的推荐算法，应用较广，可解释性强，准确率高，尤其是当今社会信息丰富，比如文本、音频等，有比较多的内容可以利用。但是对于一个一无所知的新用户而言，无法针对用户内容进行推荐，只能根据其他算法进行推荐，用户产生内容后才能很好的利用基于内容的推荐算法，这也就是冷启动问题，也是该算法的缺点。原理一、用户画像　　做好一个推荐系统，分为以下 3 步：认识用户给用户推荐他感兴趣的东西观察各项业务指标，一直迭代 1 ， 2 ， 3 循环下去　　上面提到的认识用户就是用户画像，用户画像是一个比较抽象的概念，推荐系统的用户画像是给机器用的。推荐系统要在用户和物品之间建立连接，一般的连接方式是对用户和物品之间的匹配进行评分，也就是预测用户的偏好，我们首先要将用户和物品都表示成向量，这样才能让机器进行计算

订阅维度