Hypothesis

拿什么拯救你?我的博士延毕

为君一笑 提交于 2020-10-02 02:24:06
     作者 | 青暮、蒋宝尚   编辑 | 青暮   AI科技评论昨天推送了一篇文章《 》,讲述了国内青年科学家遭遇的种种困境,某种程度上算是一篇劝退文。   不知同学们看过那篇文章后,是否还保留着“成为科学家”的赤子之心。如果是的话,点个赞。只是读博中难免遇到令人心焦头疼的问题,那就是延毕,上面这篇文章也提到,这是个大概率事件。怎么才能顺利毕业呢?   放心,只要完成了博士该完成的科研训练,毕业就不是难题。 在这篇文章中,我们将为同学们读博指路。   很多打算读博、即将读博或正在读博的同学们可能对此都还很困惑,也许在徘徊着不知如何前进,也许在后悔走错了路,甚至怀疑自己读了个假博。   每个博士研究生都希望付出后能获得飞跃式的成长,并不留遗憾。毕竟读博是一项沉没成本很高的人生投资,也就是说,过程中的每一个选择都需要你付出巨大的努力,但不一定能带来收获。   而在这个知乎问题下,不少过来人分享了自己的经历和观点。   AI科技评论选取了一些高赞回答,并整理如下,希望能对同学们有所启发,少走弯路。   1    数学很重要   读博之前,首先确保自己有足够好的基础,包括数理基础和编程基础,英语能力自然不用多说。同时,博士期间要兼顾课程和科研,对两者的平衡也是很重要的。    良好的数理基础   无数次的实践证明,没有良好的数理基础,很多时候研究都走不深。如果数理基础薄弱

区别于传统低效标注,两种基于自然语言解释的数据增强方法

本秂侑毒 提交于 2020-10-01 23:16:45
本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末 阅读原文 即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回复关键词 课件下载 获取下载链接。 作者简介: 秦禹嘉,清华大学电子工程系本科生,大二开始在清华大学自然语言处理实验室学习。导师刘知远副教授。主要研究方向为义原知识体系的完善与应用。 尽管深度学习模型已经在许多自然语言处理任务上取得了非常好的效果,它们通常依赖于大量的训练数据;然而在实际应用场景下,标注能力、训练数据并不充足的情况经常出现,因此如何让标注者高效率地标注是一个十分有意义的问题。 传统给出标签的标注方式在一定程度上限制了标注者能够提供的信息量,很多情况下我们不仅关注标注者打出的标签,更加关注于其打出该标签的理由。因此一种更加高效的做法是让标注者在给出标签的同时给出相应的自然语言解释来解释其做出该决定的原因。 本文将分享应用自然语言解释的一些挑战,并介绍目前应对这些挑战做出的探索和最新工作。 自然语言解释的概念与背景 如开篇所讲,深度学习的技术已经在许多自然语言处理的任务上取得了很好的效果,但是仍然还有两个问题没有解决。第一个是模型通常需要大量的数据。第二个是模型缺乏可解释性。 先看 data hungry 的问题,很多情况下我们并没有那么多的数据能够喂给模型

搜寻1000万颗恒星无功而返的意味:地外文明真的不存在吗?

Deadly 提交于 2020-09-30 13:45:53
  一组科学家正在搜寻地外文明,他们扫描了 1000 万颗恒星,结果一无所获。   根据 CNET 报道,澳大利亚科廷大学(Curtin University)和研究组织 CSIRO 的科学家们,用 4096 天线阵列扫描了广阔的太空区域,希望能够捕获外星文明使用的无线电传输信号,但是没有任何收获。      当然,这项发现并不能排除外星文明存在的可能性,因为存在一种可能:外星文明存在,它们要么在别处,要么没有发展出与人类相似的无线电技术。   根据周一发表在《澳大利亚天文学会出版物》(Publications of The Astronomical Society of Australia)杂志上的研究报告显示,这次搜索的范围是有史以来最大的一次。虽然科学家们没有找到什么,但他们仍抱希望。   用 CSIRO 研究员的话说,他们搜寻的区域,对于银河系来说,相当于在大海中探测了一个游泳池大小的地方。    人类从未停止对地外文明的搜寻   SETI(Search for Extraterrestrial Intelligence),也被翻译为“在家寻找外星人”,是一个对外星智能生物搜索的集合术语。人类任何对地外文明的搜寻都可以归为 SETI 的一部分。   早在 1899 年,尼古拉 · 特斯拉正在科罗拉多 - 斯普林实验站(Colorado Springs

机器学习西瓜书 | 第一章 绪论

╄→尐↘猪︶ㄣ 提交于 2020-08-18 04:53:17
绪论 1.1 引言 机器学习 machine learning 是一种“学习算法”(learning algorithm) 1.2 基本术语 数据集(data set):记录的集合 示例(instance)= 样本(sample)= 特征向量(feature vector):记录,关于一个事件或对象的描述 属性(attribute)= 特征(feature):反映事件在某方面的表现或性质的事项 属性值(attribute space):属性的取值 属性空间(attribute space)= 样本空间(sample space)= 输入空间:属性张成的空间 样本维数(dimensionality):样本属性/特征的个数 学习(learning)= 训练(training)过程:从数据中学得模型的过程,通过执行某个学习算法来完成 训练数据(training data):训练过程中使用的数据 训练样本(training sample)= 训练示例/训练例(training instance):训练数据中的样本 训练集(training set):训练样本组成的集合 假设(hypothesis):学得模型对应的关于数据的潜在的规律 真相/真实(ground-truth):潜在规律本身,学习过程就是在找出或逼近真相 学习器(learner):学习算法在给定数据和参数空间上的实例化 标记

深入探究JVM之垃圾回收器

心已入冬 提交于 2020-08-14 11:43:19
@ 目录 前言 正文 一、垃圾收集算法 标记-复制 标记-清除 标记-整理 分代回收 二、常用的垃圾回收器 Serial/SerialOld ParNew Parallel Scavenge/ParallelOld CMS Garbage First 总结 前言 JVM的自动内存管理得益于不断发展的垃圾回收器,从最初的单线程收集到现在并发收集,垃圾回收器的开发者们一直在致力于如何降低GC过程中的停顿时间(STW)以及提高吞吐量,但直到现在也不存在一款完美的垃圾回收器,只能根据不同的场景选择最合适的。所以需要了解每款垃圾回收器出现的背景、原因,并掌握各种垃圾回收器的设计原理、算法实现细节以及各个垃圾回收器的优劣对比,这样才能让我们在调优时做出最合适的选择。这部分内容博主准备分为两篇文章进行总结讲解,本篇主要是对 垃圾收集算法的思想 以及目前 稳定商用 的垃圾回收器的讲解。 正文 一、垃圾收集算法 上文分析了JVM判断对象存活的两种算法: 引用计数 和 可达性分析 。因此垃圾收集算法的实现也对应的分为 引用计数式收集 和 追踪式收集 ,而目前JVM中都没有使用 引用计数 算法,所以后面讲解的算法都属于追踪式收集。其细分又分为 标记-复制 、 标记-清除 、 标记-整理 、 分代回收 。 标记-复制 复制算法 最初的理论是 将可用内存分为1:1的两块,每次只使用其中一块,当这块内存满后

使用tensorflow实现LR

纵饮孤独 提交于 2020-08-11 20:28:24
使用tf实现LR. import tensorflow as tf import numpy as np tf.reset_default_graph() # 清空Graph FEATURE_NUM = 8 # 特征数量 with tf.name_scope("input"): x = tf.placeholder(tf.float32, shape=[None, FEATURE_NUM]) y = tf.placeholder(tf.int32, shape=[None]) with tf.name_scope("lr"): weight_init = tf.truncated_normal(shape=[FEATURE_NUM, 1], mean=0.0, stddev=1.0) weight = tf.Variable(weight_init) bais = tf.Variable([0.0]) y_expand = tf.reshape(y,shape=[-1,1]) hypothesis = tf.sigmoid(tf.matmul(x, weight) + bais) with tf.name_scope("loss"): y_float = tf.to_float(y_expand) likelyhood = -(y_float tf.log(hypothesis)

如何做一次完美的 ABTest?

一世执手 提交于 2020-08-08 19:23:32
本文首发于 vivo互联网技术 微信公众号 链接: https://mp.weixin.qq.com/s/mO5MdwG7apD6RzDhFwZhog 作者:DuZhimin 越来越多的公司都在尝试 ABTest,要么是自己搭建系统,要么依赖于第三方的系统。那么在我们进行ABTest的时候,必备的基础知识有哪些?该如何一步一步的进行AB实验呢?本文将根据 AB 实验的流程带领大家一窥究竟。 一、引言 在互联网公司的业务发展过程中,用户增长是永恒的主题,因为没有增长也就没有发展,所以在业务发展的早期产品迭代速度往往是越快越好,总之一句话:“怎么快怎么来”。 而当业务发展到一定阶段后,野蛮生长的红利逐渐消退,用户增长空间在可见策略下变得不那么明显的情况下,如何合理地规划产品迭代策略就显得尤为重要了,而具体如何判断产品策略是否有效,往往就需要数据说话,其结果决定了该产品或策略的生命力以及与之配套的各类资源的调配,毕竟我们都不会将资源浪费在无效的产品和策略上。 那么通过什么样的工具或手段才能确保数据驱动策略的有效落地和实施呢?很多公司都是通过ABTest及建设与之相适配的实验基础设施平台来实现这样的目标。 2019年我们搭建了vivo的ABTest实验平台(霍金实验平台),到目前为止台累计接入业务方14个业务方进行了40个实验,在与业务方沟通过程中发现我们对ABTest的理解还不够

如何做一次完美的 ABTest?

杀马特。学长 韩版系。学妹 提交于 2020-08-08 17:50:24
本文首发于 vivo互联网技术 微信公众号 链接: https://mp.weixin.qq.com/s/mO5MdwG7apD6RzDhFwZhog 作者:DuZhimin 越来越多的公司都在尝试 ABTest,要么是自己搭建系统,要么依赖于第三方的系统。那么在我们进行ABTest的时候,必备的基础知识有哪些?该如何一步一步的进行AB实验呢?本文将根据 AB 实验的流程带领大家一窥究竟。 一、引言 在互联网公司的业务发展过程中,用户增长是永恒的主题,因为没有增长也就没有发展,所以在业务发展的早期产品迭代速度往往是越快越好,总之一句话:“怎么快怎么来”。 而当业务发展到一定阶段后,野蛮生长的红利逐渐消退,用户增长空间在可见策略下变得不那么明显的情况下,如何合理地规划产品迭代策略就显得尤为重要了,而具体如何判断产品策略是否有效,往往就需要数据说话,其结果决定了该产品或策略的生命力以及与之配套的各类资源的调配,毕竟我们都不会将资源浪费在无效的产品和策略上。 那么通过什么样的工具或手段才能确保数据驱动策略的有效落地和实施呢?很多公司都是通过ABTest及建设与之相适配的实验基础设施平台来实现这样的目标。 2019年我们搭建了vivo的ABTest实验平台(霍金实验平台),到目前为止台累计接入业务方14个业务方进行了40个实验,在与业务方沟通过程中发现我们对ABTest的理解还不够

假设检验、Z检验与T检验

半腔热情 提交于 2020-08-07 08:25:28
作者|SUBHASH MEENA 编译|VK 来源|Analytics Vidhya 概述 假设检验是统计学、分析学和数据科学中的一个关键概念 了解假设检验的工作原理、Z检验和t检验之间的区别以及其他统计概念 介绍 冠状病毒大流行使我们大家都成了一个统计学家。我们不断地核对数字,对大流行将如何发展做出自己的假设,并对何时出现“高峰”提出假设。 不仅是我们在进行假设构建,媒体也在这方面蓬勃发展。 几天前,我读到一篇新闻文章,其中提到这次疫情“可能是季节性的”,在温暖的环境下会有所缓解: 所以我开始想,关于冠状病毒,我们还能假设什么呢? 成人是否更容易受到冠状病毒爆发的影响? 相对湿度如何影响病毒的传播? 有什么证据支持这些说法,我们如何检验这些假设呢? 作为一个统计爱好者,所有这些问题都挖掘了我对假设检验基本原理的旧知识。本文将讨论假设检验的概念以及Z检验与t检验的区别。 然后,我们将使用COVID-19案例研究总结我们的假设检验学习。 目录 假设检验基础 基本概念-零假设、替代假设、类型1错误、类型2错误和显著性水平 进行假设检验的步骤 定向假设 非定向假设检验 什么是Z检验? 单样本Z检验 双样本Z检验 什么是t检验? 单样本t检验 双样本t检验 Z检验和t检验的决定 案例研究:Python冠状病毒的假设检验 假设检验基础 让我们举一个例子来理解假设检验的概念。

中奖彩票,子网络的觉悟

吃可爱长大的小学妹 提交于 2020-05-07 08:49:21
本篇对彩票假说的发展及其扩展应用做了分析研究。 机器之心分析师网络,作者:张雨嘉,编辑:H4O。 如今,深度学习在机器学习中占有非常重要的地位。但随着对深度学习的要求越来越多,需要的网络层数越来越深,参数越来越多,消耗的计算资源也随之扩张,而这很大程度上阻碍了其产业化应用和推广。 从上世纪 90 年代开始,Yan Lecun 等人【1】首先提出了 神经网络剪枝 的思想,即将网络中某些对输出结果贡献不大的参数进行剪除。这种方法可以大大提高模型运行速度,但同时会对模型准确度有一定影响。经过近 30 年的研究,现在的神经网络剪枝技术可以减少训练网络时 90% 以上的参数,以减少存储需求,提高模型的推理计算性能。通常的网络剪枝步骤如下图 1 所示,首先训练一个大的、过参数化的模型,然后根据一定的准则对训练过的模型参数进行修剪,最后将修剪过的模型微调以获得失去的精度。 图 1 经典网络剪枝步骤 然而,既然一个网络可以缩小规模,为什么我们不直接训练这个较小的体系结构,使训练更有效率呢?但是人们通过长期实验发现,网络越稀疏,训练越难、学习速度越慢,所以剪枝产生的稀疏体系结构网络很难从一开始就进行训练。 1. 提出「彩票假说」 随着网络剪枝研究的深入,Jonathan Frankle 等人【2】发表了一篇名为《The Lottery Ticket Hypothesis :Finding