科普 | 易学教程

特征抽取--标签与索引的转化: IndexToString

阅读更多关于特征抽取--标签与索引的转化: IndexToString

与StringIndexer相对应，IndexToString的作用是把标签索引的一列重新映射回原有的字符型标签。其主要使用场景一般都是和StringIndexer配合，先用StringIndexer将标签转化成标签索引，进行模型训练，然后在预测标签的时候再把标签索引转化成原有的字符标签。当然，你也可以另外定义其他的标签。首先，和StringIndexer的实验相同，我们用StringIndexer读取数据集中的“category”列，把字符型标签转化成标签索引，然后输出到“categoryIndex”列上，构建出新的DataFrame。 #导入相关的类库 from pyspark.sql import SparkSession from pyspark.ml.feature import IndexToString, StringIndexer #创建SparkSession对象，配置spark spark= SparkSession.builder.master('local').appName('IndexToStringDemo').getOrCreate() #创建一个简单的DataFrame训练集 df = spark.createDataFrame( [(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5,

图像分割——ESE-Seg（Explicit Shape Encoding for Real-Time Instance Segmentation）

阅读更多关于图像分割——ESE-Seg（Explicit Shape Encoding for Real-Time Instance Segmentation）

Explicit Shape Encoding for Real-Time Instance Segmentation 基于显式形状分割编码的实时实例分割论文地址：https://arxiv.org/pdf/1908.04067 1.摘要在本文中，我们提出了一种基于形状编码的自上而下的实例分割框架，称为ESE-Seg。它通过使用张量运算显式地解码多个对象形状，大大的减少了实例分割的计算量，与对象检测的速度几乎相同，并且基于IR（内心半径）、切比雪夫多项式和强大的现代物理检测器。 2.名词解释（1）图像分类（Image Classification）检测图像中含有哪些分类，例如人、牛、羊。（2）目标检测（Object Detection）图片里有什么？分别在哪里，见下图（b）常用的检测算法：Faster R-CNN、YOLO （3）语义分割区分图中的每一点像素。见下图（a）（4）实例分割是目标检测和语义分割的结合相对于目标检测的边界框，实例分割可以精确到物体的边缘；相对于语义分割，实例分割需要标注出图上同一物体的不同个体，例如羊1，羊2，羊3…… 见下图（b） 3.方法 1）IR: 对轮廓进行参数设置内部中心点：以轮廓上的最远点定义，可以通过距离变换获得。 2）切比雪夫多项式多项式：以少量系数来近似形状特征向量给定IR的形状特征，可以用下式切比雪夫多项式逼近

太空养鱼是一种什么样的体验？

阅读更多关于太空养鱼是一种什么样的体验？

2012 年 7 月 20 日，日本空间局（JAXA）将一个水族箱送上了国际空间站。这个水族箱是做什么用的呢？虽然水族箱为地球上的人类提供了一种轻松的消遣方式，但娱乐并不是国际空间站上这个水族箱的目标。实际上，研究人员将使用这个独特的设施来研究微重力对海洋生物的影响。不过，在太空中养鱼，究竟是一种什么样的体验呢？ 　　这个水族箱被叫做“水生生物栖息地（Aquatic Habitat，AQH）”，它被装上日本发射的第三艘 H-Ⅱ无人自动货运飞船送往国际空间站，安放在国际空间站上的日本实验舱内。AQH 被运上天的用途在于研究失重对于水生生物将会产生何种影响，以帮助人们更加深入地理解地面人类健康问题。　　AQH 主要由四个部分组成，包括两个鱼类栖息空间、水循环单元、控制单元和 CCD 相机。这个水族箱将自动对鱼类提供饲料、注入氧气、温度控制，并有一个样本取样装置。自动喂食系统可以根据需要，对不同的进料顺序进行编程。此外，AQH 配置的水循环系统还可以监测水的 pH 值、水温、溶解氧、水的流速和水压，生物过滤器和气体交换器可以用来保持环境系统的质量，特殊的细菌过滤器可以净化去除一些杂质，可以使得这些鱼儿能够在太空中存活长达 90 天。AQH 里的 LED 灯用来为鱼模拟日夜更替

统计--Bhattacharyya distance（巴氏距离）

阅读更多关于统计--Bhattacharyya distance（巴氏距离）

转自维基： https://en.wikipedia.org/wiki/Bhattacharyya_distance 在统计中， Bhattacharyya距离用于度量两个概率分布的相似性。它与 Bhattacharyya系数密切相关，后者是两个统计样本或总体之间重叠量的度量。两项措施均以1930年代在印度统计研究所工作的统计学家 Anil Kumar Bhattacharya的名字命名。 [1] 该系数可用于确定所考虑的两个样本的相对接近度。它用于度量分类的类的可分离性，并且被认为比马哈拉诺比斯距离更可靠，因为当两个类的标准偏差相同时，马哈拉诺比斯距离是Bhattacharyya距离的特例。因此，当两个类别具有相似的均值但标准差不同时，马氏距离将趋于零，而巴氏距离则根据标准差之间的差异而增长。因此，这个公式对于每个具有来自两个样本的成员的分区更大，对于其中两个样本的成员有较大重叠的每个分区更大。分区数目的选择取决于每个样本中的成员数目；过少的分区会因为高估重叠区域而失去准确性，过多的分区会因为在人口稠密的样本空间中创建没有成员的单独分区而失去准确性。如果由于每个分区的乘法为零而没有重叠，那么Bhattacharyya系数将为0。这意味着完全分离的样本之间的距离不会仅由该系数暴露。 Bhattacharyya系数用于极性码的构造[5]。

论文crowd counting using scale-aware attention networks阅读笔记

阅读更多关于论文crowd counting using scale-aware attention networks阅读笔记

论文地址： https://arxiv.org/pdf/1903.02025.pdf 代码：暂时没找到摘要论文提出了一种新的尺度感知注意网络来解决图像中的尺度变化问题。基于最近流行的attention 机制，论文提出的网络能够自动聚焦于某些局部和全局尺度，论文提出的方法在某些数据集上优于其他方法。一、简介二、相关工作三、我们的方法人群密度会随着图像的不同而剧烈变化，即使在同一张图片内，随着空间位置不同，密度图变化也很剧烈。我们建议同时使用全局和局部注意权重来捕捉人群密度在图像间和图像内的变化。 wanghua6091@163.com | 手机版 | 升级VIP | 升级服务 | 设置 | 帮助 | 退出邮箱选项卡删除抄送密送群发单显日程邀请收件人： songhengyang@163.com 抄送人： 729578663@qq.com 主　题：添加附件来源： CSDN 作者： wanghua609 链接： https://blog.csdn.net/weixin_38145317/article/details/103961861

HTML、css、javascript、DOM编程

阅读更多关于 HTML、css、javascript、DOM编程

HTML、css、javascript、DOM编程一、Html 1.1html概述 Html就是超文本标记语言的简写，是最基础的网页语言，其代码都是由标签所组成，是通过标签来定义的语言，代码不需要区分大小写，由<html>开始</html>结束，里面由头部分<head></head>和体部分<body></body>两部分组成，头部分的内容会先加载，里面的内容是给html页面增加一些辅助或者属性信息，体部分是真正存放页面数据的地方。 1.2html书写规范（1）多数标签都是有开始标签和结束标签，但是其中有个别标签因为只有单一功能，或者没有要修饰的内容，可以在标签内结束。例如 （2）想要对被标签修饰的内容进行更丰富的操作，就用到了标签中的属性，通过对标签属性的改变，增加更多效果选择。（3）属性与属性值之间用“=”连接，属性值可以用单引号或双引号或不用引号，一般都用双引号，或公司规定书写规范。格式：<标签名属性名=‘属性值’>数据内容</标签名> <标签名属性名=‘属性值’/> 1.3操作思想为了操作数据，可以将数据进行不同标签的封装，通过标签中的属性对封装的数据进行操作，标签就相当于一个容器，对容器中的数据进行操作就是在不断改变容器的属性值。 1.4常用标签标签特点：对于数据进行封装，那么就有开始标签和结束标签，但是也有一些标签只体现单一功能

去哪里寻找不可能的分子？

阅读更多关于去哪里寻找不可能的分子？

1 　　元素周期表的最后一列是一类“扫兴”的元素，它们被统称为惰性气体。大多数元素的原子会和其他原子共享电子，形成化学键，从而构成分子，而惰性气体原子的最外层的电子本身已经达到“满”的状态，因此它们自身就极其稳定，很少发生化学反应，很难与其他原子结合形成分子。　　在地球上，还没有发现天然形成的惰性气体化合物。从上个世纪开始，科学家就在实验室中尝试将惰性气体的原子合成分子。1925 年，科学家在实验室中设法让氦（He）与氢离子（H?）共享一个电子，合成了第一个氦合氢离子（HeH?）。天文学家将氦合氢离子称为“分子”，但由于它并不是电中性的，化学家更愿意称之为“分子离子”。　　1962 年，化学家尼尔·巴特利特（Neil Bartlett）诱导氙（Xe）、氟和铂结合，得到了一个芥黄色的化合物——六氟合铂酸氙，这是一个电中性分子，也是第一个电中性的惰性气体化合物分子。　　但在宇宙中，情况可能大不一样。太空是一个寻找惰性气体化合物分子的绝佳场所。惰性气体元素在宇宙中十分丰富。氦是仅次于氢的宇宙中第二丰富的元素，氖（Ne）的丰度大约排在第五或第六名。在星际空间中，温度和密度时常达到极端情况

HTML基础语法

阅读更多关于 HTML基础语法

HTML文档的后缀一般都是.html，但是在以前，.htm后缀也是不少的，它们都代表html文档，实际上也没有本质的区别。htm是在win32时代，系统只能识别3位扩展名时使用的。现在一般都使用.html 概念 (Hyper Text Markup Language)超文本标记语言，是用来描述网页的一种语言 1. 超文本(Hyper Text):不只包括文本，也可以包括图片、链接、音乐、视频等非文本元素 2. 标记语言(Markup Language):标记语言是一套标记标签，HTML使用标记标签来描述网页标签由尖括号包围的关键词，比如 HTML 标签分为单标签和双标签 1. 双标签：HTML标签通常是成对出现的，比如 和 。第一个标签是开始标签，第二个标签是结束标签；开始标签和结束标签也被称为开放标签和闭合标签 2. 常见的单标签有： <img> <hr><input> 注意：HTML标签对大小写不敏感，但要全小写属性 HTML标签可以拥有属性，属性提供了有关HTML元素的更多信息。属性以名值对(名称/值)的形式出现，且总是在HTML元素的开始标签中规定。元素从开始标签到结束标签的所有代码 HTML元素以开始标签起始，以结束标签终止，元素的内容是开始标签与结束标签之间的内容。文档 HTML文档被称为网页

费马小定理与素数判定

阅读更多关于费马小定理与素数判定

费马小定理是初等数论四大定理（威尔逊定理，欧拉定理（数论中的欧拉定理，即欧拉函数），中国剩余定理和费马小定理）之一，在初等数论中有着非常广泛和重要的应用。实际上，它是欧拉定理的一个特殊情况。其内容为：假如p是质数，且GCD(a,p)=1 ，那么 a^(p-1) ≡1（mod p）（假如p是质数，且a,p互质，那么 a的(p-1)次方除以p的余数恒等于1）证明：大数取余的公式 (a*b)%mod =(a%mod * b%mod) %mod, 设P为素数那么 (a*k) %p =(a%p*k) % P [1<=k<=p-1] ;a%p=c是个定值，由于p是个素数，所以 (a%p*k) % P 的值互不相同，如果存在 (c*i) %p == (c*j) %p (i<j) 那么 c*i +p*t == c*j , 说明 c = a%p 可以被 p 整除，显然不成立； (a*k) %p 的值在[1,p-1]中取，既然互不相同，所以 (a*k) %p 的值覆盖了 [1,p-1] 中的所有数，则 (a*1) %p * (a*2) %p * (a*3) %p * ... * (a*(p-1)) %p = 1*2*3*...*(p-1) =(a^(p-1))%p * 1*2*3*...*(p-1) ==> (a^(p-1))%p =1 证毕。

机器学习在生物信息领域可以做些什么？

阅读更多关于机器学习在生物信息领域可以做些什么？

用“machine learning genomics”在 biorxiv 中检索（限定一下Bioinformatics领域），查看最新文章的标题和摘要，看看机器学习都能做些什么实际的项目。 1. Machine-learning annotation of human splicing branchpoints （RNA剪切体位点预测）使用机器学习来注释人类剪切体的分支点需要有 RNA splicing 的知识，首先得搞懂 branchpoint、lariat formation的概念 2. The value of prior knowledge in machine learning of complex network systems （贝叶斯）生物信息中复杂网络系统中先验知识的价值预测病人在指定药物或治疗方案下的反应 3. Systematic assessment of multi-gene predictors of pan-cancer cell line sensitivity to drugs exploiting gene expression data （随机森林在药物学上的预测）通过基因表达数据系统评估泛癌细胞系的多基因预测器对药物的敏感性指定的基因突变通常用于指导肿瘤病人的用药，大规模的药物基因组数据被用来发现这些对药物敏感的单基因标记

订阅科普