决策树

AI为你拨开“阴霾”:机器学习在抑郁症治疗中的应用

 ̄綄美尐妖づ 提交于 2020-10-01 02:03:30
本文转载自公众号“读芯术”(ID:AI_Discovery)。 机器学习这一话题早已远远超出了它的起源——计算机科学,***到了众多的公共和私营行业以及各种不同的学术学科。尽管机器学习技术和人工智能(AI)这两个术语经常可以互换使用,但其实前者通常被认为是更广泛的人工智能(AI)领域的一个子集。 医疗保健业就是尝试将运用机器学习技术的领域之一。目前,医疗行业中应用最广泛的人工智能技术就是机器学习,它在改善患者身体健康以及心理健康等方面都有所涉足。 医疗保健行业内机器学习应用的目标一般是增强临床理解与改善患者护理。具体来说,越来越多的研究都将重点放在使用机器学习来改善患者的筛查、诊断、临床决策和特定治疗结果上。 相较于机器学习在身体健康领域的应用来说,它在心理健康领域的应用仍比较落后。不过我们很开心能看到,近年来有关机器学习改善人们心理健康方面的研究数量增长十分迅速。 心理健康是一个庞大的产业,这一领域的机器学习研究已经被应用到了大量的课题,包括药物治疗、临床诊断、心理治疗结果,它甚至可以预测严重精神疾病的发生。更具体地说,上述几个方面机器学习在心理健康领域的应用往往聚焦于某一特定的诊断群体,有时甚至会细化到该心理疾病的某一特定治疗方式。 目前机器学习研究中最普遍的诊断群体也是心理健康疾病中最普遍的病症——抑郁症。据估计,仅在美国

excel插件开发,Smartbi免费版安装流程

柔情痞子 提交于 2020-09-30 06:01:05
excel插件开发,Smartbi免费版安装流程 自动安装 1、安装Microsoft .Net Framework 4.0 Full 2、获取安装介质 插件安装包不包含在标准的产品安装包中,若需对插件进行学习或使用,请到官网进行下载。 3、点击安装介质,弹出安装界面如图: 4、点击 下一步 ,配置安装路径: 5、点击 下一步,检测是否有插件正在被使用: 6、点击 安装,进行安装: 7、安装完成。 插件升级 Excel插件支持在线更新的方式。 系统检测更新 设计、维护用户在每次使用Excel插件登录的时候,会检测服务器插件版本是否有更新; 若服务器上Excel插件有了新版本,则会提示更新,按提示进行更新即可。 手动检测更新 点击工具栏的 更新 按钮,进行更新: 安装环境要求 关于电子表格插件的安装环境要求,详情请参考官网产品在线文档或咨询客服· 关于Smartbi Smartbi强大的数据分析能力,人人可用的自助式BI。简便的操作,专业化的要求不高。可以大范围的应用。使得Smartbi在BI领域独树一帜。 1、下载安装 下载和安装很简单,官网上直接下载。启动软件时会加载数据日志,但是所有操作都在web端。 2、学习教程 激活时会发送一个学习资料包,有功能教学视频,还有学习帮助文档,下载激活时大家留心,记得收藏。除此之外,还有个学习交流的论坛,提问回答好积极,对技术宅来讲是极好的。

机器学习系列(三)决策树的集成算法--随机森林与极限森林--三个臭皮匠与完美主义者的较量

ぃ、小莉子 提交于 2020-09-30 04:27:51
写在前面: 我是 「nicedays」 ,一枚喜爱 做特效,听音乐,分享技术 的 大数据开发猿 。这名字是来自 world order 乐队的一首 HAVE A NICE DAY 。如今,走到现在很多坎坷和不顺,如今终于明白 nice day 是需要自己赋予的。 白驹过隙,时光荏苒,珍惜当下 ~~ 写博客一方面是对自己学习的一点点 总结及记录 ,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对 大数据与机器学习 感兴趣,可以关注我的 动态 https://blog.csdn.net/qq_35050438 ,让我们一起挖掘数据与人工智能的价值~ 文章目录 随机森林--极限森林--梯度提升树(本章未写): 一:集成算法Ensemble learning 1)Bagging:训练多个学习器取平均 2)Boosting:从弱学习器开始加强,通过加权来进行训练 AdaBoost: 3)Stacking:聚合多个分类或回归模型(可以分阶段来做) 二:集成模式下的竞争:随机森林--极限森林--梯度提升树 1)大名鼎鼎的随机森林: 单个决策树随机了什么? 怎么构建? 随机森林得优势: 2)不极限的极限森林: 单个决策树随机了什么? 极限树与随机森林的主要区别: 三:附录Scikit-learn的randomForest和ExtraTrees的参数说明:

4.集成学习之1.Bagging

巧了我就是萌 提交于 2020-09-29 11:23:35
基于bagging思想的套袋集成技术 套袋方法是由柳.布莱曼在1994年的技术报告中首先提出并证明了套袋方法可以提高不稳定模型的准确度的同时降低过拟合的程度(可降低方差)。 套袋方法的流程如下: 注意:套袋方法与投票方法的不同: 投票机制在训练每个分类器的时候都是用相同的全部样本,而Bagging方法则是使用全部样本的一个随机抽样,每个分类器都是使用不同的样本进行训练。其他都是跟投票方法一模一样! 对训练集随机采样 分别基于不同的样本集合训练n个弱分类器。 对每个弱分类器输出预测结果,并投票(如下图) 每个样本取投票数最多的那个预测为该样本最终分类预测。 我们使用葡萄酒数据集进行建模(数据处理): ## 我们使用葡萄酒数据集进行建模(数据处理) df_wine = pd . read_csv ( 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data' , header = None ) df_wine . columns = [ 'Class label' , 'Alcohol' , 'Malic acid' , 'Ash' , 'Alcalinity of ash' , 'Magnesium' , 'Total phenols' , 'Flavanoids' ,

可视化入门之如何轻松创建可视化图表

谁说我不能喝 提交于 2020-09-29 07:06:31
第五章 创建图表 同一种数据,往往有多种可视化呈现的方式。然而,在我们将数据可视化的过程中,却经常会被“惯性思维”所束缚,觉得显示占比就要采用饼图,展示数据变化趋势只用折线图,那今天我们在DataFocus中来一起了解,除了饼图还可以有哪些图形可以展示占比,除了折线图,展示数据趋势还能用什么图形。 DataFocus作为一款新型的数据可视化工具,与以往传统的拖拽方式不同,其采用的是搜索式,这种交互方式大大降低了数据可视化的难度,节约了大量的人力成本以及时间成本,我们通过类似谷歌一样的搜索方式进行搜索,系统实时返回结果,并智能展示最适图形,DataFocus目前支持的图形种类有35种,分为基础图形以及高级图形,基础图形又包括:柱形图、折线图、饼图、雷达图、位置图、组合图等,高级图形有桑基图、平行图、时序图、热力图、打包图等,基本满足企业的数据可视化需求。本章主要通过实例来详细的介绍针如何创建图表,以及图表的个性化配置等。数据源来自于一份超市销售数据: 5.1 表格 DataFocus的表格大致可以分为两类,一类是数值表,用于查看制图是用到的数值,可以在表格基础上修改聚合、筛选、排序。 另一种就是数据透视表,数据透视表使用所需的数据结构必须满足两个属性列和一个及以上的数据列。区别于数值表,在数据透视表上可以对数据的小计行和总计行进行计算,因此更适合将数据进行分类汇总处理。 5.2

Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了

跟風遠走 提交于 2020-09-29 05:40:28
作者 | 刘早起 来源 | 早起Python 导语:很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。 本文在翻译的同时删减了部分介绍性文字,并对结构进行了调整方便大家阅读,由于篇幅原因,本篇文章中并没有包含大段的代码,仅保留过程与结果。建议在文末获取Notebook版本与数据集完整复现一遍,如果你正处于机器学习入门阶段相信一定会有所收获。 项目背景与分析 泰坦尼克号沉没是历史上有名的沉船事件之一。1912年4月15日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使2224名乘客和机组人员中的1502人丧生。这一耸人听闻的悲剧震惊了国际社会。 沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存,例如妇女,儿童和上层阶级。 在这个项目中,我们被要求完成对可能生存的人群的分析。并且需要使用机器学习工具来预测哪些乘客可以幸免于悲剧。 数据读取与检查 首先导入与数据处理相关的库,并检查版本与数据文件夹 #导入相关库 import sys

【算法系列(七)】:回溯

六眼飞鱼酱① 提交于 2020-09-28 08:43:10
目录 一、回溯法 二、算法应用 51. N 皇后 一、回溯法 回溯法(back tracking) (探索与回溯法)是一种选优搜索法,又称为试探法,按选优条件向前搜索,以达到目标。但当探索到某一步时,发现原先选择并不优或达不到目标,就退回一步重新选择,这种走不通就退回再走的技术为回溯法,而满足回溯条件的某个状态的点称为“回溯点”。 解决一个回溯问题,实际上就是一个决策树的遍历过程 。你只需要思考 3 个问题: 1、路径:也就是已经做出的选择。 2、选择列表:也就是你当前可以做的选择。 3、结束条件:也就是到达决策树底层,无法再做选择的条件。 回溯算法的基本框架: result = [] def backtrack(路径, 选择列表): if 满足结束条件: result.add(路径) return for 选择 in 选择列表: 做选择 backtrack(路径, 选择列表) 撤销选择 当我们讲二叉树的遍历时,我们常常把在递归前的操作叫做前序遍历,在递归最后的操作叫做后序遍历。这两个遍历与我们回溯算法有什么关系呢?我们可以看到,回溯算法模板中有两个关键操作: 做选择 和 撤销选择 。做选择是对当前节点添加到路径中,所以我们需要前序遍历。如果已经遍历完当前分支了,我们需要回退到上一个节点,继续遍历下一个分支,所以需要撤销选择,而这个刚好可以用后续遍历实现

Datawhale数据分析课程第二章

一世执手 提交于 2020-09-26 02:19:55
Datawhale数据分析课程第二章 准备工作 数据清洗及特征处理 相关定义 缺失值观察与处理 任务一:缺失值观察 (1) 请查看每个特征缺失值个数 (2) 请查看Age, Cabin, Embarked列的数据 以上方式都有多种方式,所以大家多多益善 任务二:对缺失值进行处理 (1)处理缺失值一般有几种思路 (2) 请尝试对Age列的数据的缺失值进行处理 (3) 请尝试使用不同的方法直接对整张表的缺失值进行处理 重复值观察与处理 任务一:请查看数据中的重复值 任务二:对重复值进行处理 (1)重复值有哪些处理方式呢? (2)处理我们数据的重复值 任务三:将前面清洗的数据保存为csv格式 特征观察与处理 任务一:对年龄进行分箱(离散化)处理 (1) 分箱操作是什么? (2) 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示 (3) 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示 (4) 将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示 (5) 将上面的获得的数据分别进行保存,保存为csv格式 任务二:对文本变量进行转换 (1) 查看文本变量名及种类 (2) 将文本变量Sex, Cabin ,Embarked用数值变量12345表示

《统计学习方法》第二版的代码实现

女生的网名这么多〃 提交于 2020-08-19 23:14:40
《统计学习方法》的代码实现 下载地址:https://github.com/fengdu78/lihang-code 打包下载: 链接:https://pan.baidu.com/s/13Ob6SoAnRCYEkipIwiDHZQ 提取码:arqo “机器学习初学者”公众号 李航老师编写的《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。 《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。 今天我们将李航老师的《统计学习方法》第二版的代码进行了整理,并提供下载。 非常感谢各位朋友贡献的自己的笔记、代码! 2020年6月7日 代码更新地址: https://github.com/fengdu78/lihang-code 代码目录 第1章 统计学习方法概论 第2章 感知机 第3章 k近邻法 第4章 朴素贝叶斯 第5章 决策树 第6章 逻辑斯谛回归 第7章 支持向量机 第8章 提升方法 第9章 EM算法及其推广 第10章 隐马尔可夫模型

XGBoost类库使用小结

无人久伴 提交于 2020-08-19 20:52:34
    在 XGBoost算法原理小结 中,我们讨论了XGBoost的算法原理,这一片我们讨论如何使用XGBoost的Python类库,以及一些重要参数的意义和调参思路。     本文主要参考了 XGBoost的Python文档 和 XGBoost的参数文档 。 1. XGBoost类库概述     XGBoost除了支持Python外,也支持R,Java等语言。本文关注于Python的XGBoost类库,安装使用"pip install xgboost"即可,目前使用的是XGBoost的0.90版本。XGBoost类库除了支持决策树作为弱学习器外,还支持线性分类器,以及带DropOut的决策树DART,不过通常情况下,我们使用默认的决策树弱学习器即可,本文也只会讨论使用默认决策树弱学习器的XGBoost。     XGBoost有2种Python接口风格。一种是XGBoost自带的原生Python API接口,另一种是sklearn风格的API接口,两者的实现是基本一样的,仅仅有细微的API使用的不同,主要体现在参数命名上,以及数据集的初始化上面。 2. XGBoost类库的基本使用方式     完整示例参见我的 Github代码 。 2.1 使用原生Python API接口     XGBoost的类库的2种接口风格,我们先来看看原生Python API接口如何使用。