机器学习

机器学习【初探建模那些事儿】(五)

蹲街弑〆低调 提交于 2020-12-11 12:58:41
https://zhuanlan.zhihu.com/p/106927814 本篇你将了解过拟合和欠拟合的概念,并且能够使得你的模型更准确 (一)尝试不同的模型 既然你有一种可靠的方法来测量模型精度,那么你可以尝试使用其他模型,并查看哪种模型可以提供最佳预测。 可以在scikit-learn的文档中看到决策树模型有很多选项(比你想要的或需要的更多)。 最重要的选项决定了树的深度。 回想一下这个微课程的第一课,树的深度是衡量它在进行预测之前分裂的数量。 这是一棵相对较浅的树 在实践中,树在顶层(所有房屋)和叶子之间有10个分裂并不罕见。随着树木越来越深,数据集被切成了更少房屋的树叶。如果树只有1个分割,则将数据分为2组。如果每组再次拆分,我们将获得4组房屋。再次拆分每个将创建8个组。如果我们通过在每个级别添加更多分组来保持组的数量翻倍,那么当我们到达第10级时,我们将拥有210组房屋。这是1024片叶子。 当我们将房屋分成许多树叶时,每片叶子中的房屋数量也会减少。拥有极少数房屋的树叶将做出与房屋实际值非常接近的预测,但它们可能会对新数据做出非常不可靠的预测(因为每个预测仅基于少数房屋)。 这是一种称为过度拟合的现象,其中模型几乎完美地匹配训练数据,但在验证和其他新数据方面表现不佳。另一方面,如果我们使树很浅,它不会将房屋分成非常不同的组。 在极端情况下,如果一棵树将房屋分成2或4

自适应安全:知己重于知彼

混江龙づ霸主 提交于 2020-12-11 12:41:59
“善攻者,敌不知其所守;善守者,敌不知其所攻。”——《孙子・虚实篇》 在网络安全的***对抗中,***者往往占据主动地位,***者可以选择有利时机,采用各种技术或社交欺骗战术,掩盖自己的***行为、过程和目标,做到瞒天过海,攻其不备;而防守者则想方设法完善自己的防护体系,力图做到滴水不漏…… 然而现实却是,在互联网和数字经济的浪潮下,业务数字化也在迅速发展,企业业务越来越复杂、多变,网络环境越来越开放、高效,且变化极快,数字资产成为了企业的核心资产……这一切都给企业安全带来了新的难题。例如:物理世界和虚拟世界之间的打通,线上和线下的界限的消失;固定的防御边界难以保持,企业面临各种利益驱动、蓄谋已久的***,因而难以防护;且***直接针对核心资产,风险巨大;而对工业控制系统,物联网的***和侵害,则不仅仅针对数字资产,而是可以直接作用到物理空间,对物理世界甚至人身造造成伤害…… 在这种形势下,企业传统的基于可信边界的安全防护模式遇到越来越大的挑战: 1、边界防火墙/IPS无法提供数据中心内部的安全保护,并缺乏企业内部“东-西”向的安全防护功能。***者使用以诱骗方式(如:钓鱼邮件,鱼叉***,水坑***)越过企业边界防护,以内部安全薄弱的终端设备为跳板,横向移动,恶意软件可以通过内部网络快速感染其他主机,从内部非关键资产蔓延至企业关键资产(如,重要的服务器),导致严重安全损害。 2

####好好好#####知识图谱上的双塔召回:阿里的IntentGC模型

Deadly 提交于 2020-12-11 10:35:59
关注本人的同学可能发现,我最近点评的文章都是关于"GNN在推荐系统应用"方向的。这当然与现如今这个方向非常火有关,但是作为一个合格的炼丹师+调参侠,总要搞清楚一门技术为什么火?这么火的技术对于自己是否有用?根据我的理解,由“传统机器学习→深度学习→图计算或知识图谱”这一路下来的发展脉络如下: 一切技术的目标都是为了更好地“伺候”好“ 推荐系统的一等公民 — ID类特征 ”。用户购买过的商品、光顾过的店铺、搜索过的关键词、商品的分类与标签,都是这样的ID类特征 传统的机器学习只会“ 严格匹配 ”。用户喜欢喝可口可乐,算法不会给他推百事可乐,因为“可口可乐”与“百事可乐”是两个不同的概念,占据了两个不同的ID。这时的推荐算法只有“ 记忆 ”功能。 深度学习的特点是, 一切皆可embedding 。通过将“可口可乐”与“百事可乐”都扩展成embedding向量,发现这两个“概念”不是正交的,反而在向量空间里非常相近,从而推荐系统有机会给一个只喝过可口可乐的用户推荐百事可乐。这时的推荐算法不再只能记忆,而是有了举一反三的“ 扩展 ”功能。 而到了“图计算”或“知识图谱”的阶段,ID类特征换了个名字,变成图上的节点或者知识图谱中的entity。换名字是小事,关键是 这些ID不再是孤立的,而是彼此关联,从而带来了信息的传递 。之前,小明喝过“可口可乐”,只有“可口可乐

机器学习 | 基于机器学习的供应链管理之销售库存优化分析(实操分享)

可紊 提交于 2020-12-11 08:22:06
本次是用机器学习做出未来一定时期内的销售量预测,从而辅助指导销售库存计划的决策分析,以达到合理配置库存,减少资源成本浪费的目的。实操内容有点多,虽然我已经尽量删减了。有兴趣的朋友可以关注 + 收藏,后面慢慢看哟。如果觉得内容还行,请多多鼓励;如果有啥想法,评论留言 or私信。那么我们开始说正事了~ 一、数据准备阶段 数据集描述 用于技术验证的数据集来自kaggle上的医药销售预测项目Rossmann Stores Clustering and Forecast,整个数据集包含三张表 : 训练集 、 测试集 、 经销商信息表 。 测试集只比训练集少销售额Sales和Customers这两个字段,其它字段完全相同,其中训练集和测试集分别有1017209和41088条,训练集和测试集前五条数据如下。 测试集包含未来六周的促销等状况,要求预测指定经销商的销售额或则顾客总数。 经销商信息数据集store.csv有1115条数据,也就是1115家经销商,10个字段 。 其中Store字段唯一代表一家经销商,可以将train.csv和test.csv分别与store.csv通过字段Store关联起来。 数据预处理 1. 首先从日期字段Date中提取出年月日以及该日期在所在年的第几周,并将它们作为新的字段,方便之后对数据按时间进行聚合处理。 2. 对三张表中的分类变量进行编码转换

未来供应链管理的五大数字化趋势

杀马特。学长 韩版系。学妹 提交于 2020-12-11 04:42:57
近十几年来,随着互联网技术的深入应用,电子商务的蓬勃发展,企业供应链与物流也在不断地演进。目前,供应链管理已成为企业经营活动中的一个重要环节,而供应链管理则是顾客能否与组织进行良好互动的关键因素。 随着全球一体化的进程,以及我们开始关注下沉市场,开启内循环时代,传统的物流也需要向供应链系统去转型,形成工作流、实物流、资金流和信息流等为一体的综合系统。为了更加高效的操作,把合适的产品以合适的价格,及时准确的送达消费者手上,未来的供应链管理和运营的5种数字化趋势,或许能带来一些灵感。 1.人工智能和机器学习 对于供应链管理而言,人工智能和机器学习目前处于新兴解决方案的最前沿,这些技术可能会在需求预测、计划生产和预测维护领域大展拳脚。 机器学习获取历史货运数据并将其转换为预测。这些预测可以衡量需求的季节性波动,并提供产品、商店或设施级别的预测,涵盖每天、每月甚至更长的任何时间范围。仓储和运输将特别受益于AI和机器学习,因为它们通过自动化提高了订单交付和服务的能力。例如,公司可以使用AI技术来确定迅速履行订单的最佳方式。 知道未来的需求,企业可以比以前更可靠地计划生产和预测性维护。交货时间可以大大缩短,以便客户迅速收到他们的交货单。使用预测分析,企业可以提前知道何时以及是否需要维修系统中的组件,并创建替代生产计划以进行补偿。 2.物联网 设备之间可以相互通信的次数越多,它们之间的“交流沟通

湖南人,霸占互联网的三分天下

梦想与她 提交于 2020-12-10 19:45:42
作者 | 良叔 来源 | 公众号 良大师(ID:liang_da_shi) 在中国的互联网圈,有一支不可忽视的流量大军: 湖南人。 “微信之父”张小龙、“腾讯五虎”之一的曾李青、58同城姚劲波、陌陌唐岩、快手宿华、快播王欣…… 这应该是互联网最庞大的一个群体。 有人估算,在中国的互联网圈,湖南人可占到三分之一。 虽然这么说,并没通过严谨地统计,但也足以证明“湘军”在互联网圈的影响力。 100年前,是“得湖南者得天下”。而100年后,是“得湖南者得流量”。 金沙江创投的朱啸虎也说过一句话: “张小龙、唐岩都是湖南人,投社交就要投湖南的产品经理。” 曾李青 湖南衡阳人曾李青,绝对是中国互联网界的元老级人物。 他和马化腾、张志东、陈一丹、许晨晔并称“腾讯五虎”,在腾讯的发展初期,功不可没。 而且腾讯“五虎”和阿里巴巴“十八罗汉”也不太相似。 “十八罗汉”实际上是“以马云为中心”,而“五虎”却是一种互补关系,缺一不可。 1998年,当小马哥和他的大学同学张志东开始合伙创业。在深圳电信混得风生水起的曾李青已经有了一个很牛逼的身份: 深圳互联网的开拓者之一。 因为深圳乃至全国的第一个宽带小区,就是在他的推动下建成的。 不过到了1998年,电信局整顿“三产”,曾李青所在的项目公司,面临被裁撤的命运,他也萌生了辞职下海的想法。 最后,他决定去找他的领导——深圳电信局局长许文艳,请她帮助拿拿主意。

原创 | 人工智能的人文主义,如何让AI更有爱

随声附和 提交于 2020-12-10 19:44:31
一、数字鸿沟凸显,老年人成为“数字难民” 近日,两则关于老年人的新闻在网络刷屏,引人深思。 11月23日,一则视频在网上热传,湖北宜昌一位老人冒雨到村代收点交医保,现场工作人员却告诉她不收现金,只能使用手机支付。而不久前,为激活社保卡,一名94岁的老人被抬到银行进行人脸识别,老人膝盖弯曲,十分吃力,实在让人不忍直视。 管中窥豹,时见一斑。事实上,两位老人的处境正是万千中国老人的缩影。如今,无论是网购、外卖、打车,还是就医、理财、买菜,智能化应用都为我们提供了不少便利,却也把不少老年人拦在了智能时代之外,让他们沦为 “数字难民” 。 根据中国互联网络信息中心2018年的报告,六成中老年人不会在网上缴纳手机费;七成左右的中老年人不会网上购物、导航;四分之三左右的中老年人不会用打车软件,或缴纳水、电、煤气等生活费用;而会网上挂号、订火车票机票、订宾馆等便利服务的中老年人所占比例更是很低。已经有相关的研究机构关注到这个问题,清华大学人因与工效学研究所打算在北京地区开展教老人用智能手机的活动时介绍,由于流程的线上化,老年人的出行和医疗是目前两大最常见的痛点。 曾有媒体对老年人使用科技产品的习惯做了简单调查,能够熟练使用手机进行打车、导航、挂号、缴费的老年人凤毛麟角,“学手机”这件事大多数时候是老年人自我摸索,或互相传授经验。但事实上,并非所有的老年人都有能力靠自学来积极拥抱互联网

苹果耳机AirPods Max(Pro)的空间音频技术,Unity端开源框架下载

旧城冷巷雨未停 提交于 2020-12-10 15:52:21
AIRX三次方会定期为大家推荐一些可移植性强的、可二次开发应用的、可落地实际场景使用的实战工程源码分享给大家。另外有优秀的demo或案例推广、解决方案对接的也可以联系我们(尾部有联系方式)。本部分分享的代码主要是 Unity 空间音频(AirPods Pro(Max)) 不管是AirPods Pro,还是新出AirPods Max,支持动态头部追踪的空间音频功能可在观看大片时,带给你剧场般的环绕声体验。利用内置的陀螺仪和加速感应器,AirPods Max 能与 iPhone 或 iPad 配合,追踪头部的轻微活动,让你始终感觉声音来自设备的方向。 苹果在iOS 14中发布了Headphone Motion API,可以通过AirPods Pro(Max)兼容耳机访问头部跟踪数据。Unity也公开这个API。使用这个来从苹果耳机(如AirPods Pro)获取头部跟踪数据到Unity场景中。 Headphone Motion API: https://developer.apple.com/documentation/coremotion/cmheadphonemotionmanager 下 面是一些头部跟踪数据的可能用途: 用于空间音频应用的音频侦听器旋转 头像头部运动 自然手势交互(点头表示同意) 健身跟踪应用程序 该插件的功能: 检查给定设备上的耳机运动API是否可用

时序数据库作为量化金融研究平台的优势在哪里?

夙愿已清 提交于 2020-12-10 11:23:23
大数据下 金融行业面临的四大痛点 当前整个金融市场环境日趋严峻,监管越来越严,无论是银行的零售、公司、交易或同业业务,都需要直面营销与风险的效率与准确率的问题。越来越多的金融机构都希望依靠大数据来拉动业务模式进行创新,但是由于行业特点,存在着四大痛点。 第一个痛点是数据来源多样化,需要整合后分析。 金融行业的数据来源通常包含三大类:业务信息数据、行为数据和第三方数据。这些来源的数据包括结构化数据和非结构化的数据,在进行数据分析时通常需要进行一定程度的整合,例如客户信息与客户行为数据的整合,企业内部交易信息与上下游合作企业的交易信息的整合等等。 第二个痛点是技术和业务人员各司其职,部门协作成本高。 金融行业的企业通常有专门的信息中心来进行数据的管理,这些技术人才通常精通数据分析技术,但对业务中涉及到的各种指标并不熟悉。业务管理人员则正好相反,精通业务指标的运用,但对数据分析技术难以掌握。这种场景常常导致一个分析报告的制作需要多个部门间反复沟通,期间的时间、人员成本巨大。 第三个痛点是金融行业数据量级大,分析性能要求高。 众所周知,金融行业的数据量级大,通常总存储量达到TB级别,而单次计算数据量也在GB级别,大数据量下的数据分析性能很难得到保障。 第四个痛点是数据安全问题,数据权限粒度细。 金融行业数据安全的重要性不言而喻,对数据权限的要求从权限的分配,到数据的访问控制

大数据体系

情到浓时终转凉″ 提交于 2020-12-09 18:56:02
一、数据科学家 数据科学(Data Science) 这一概念自大数据崛起也随之成为数据领域的讨论热点,“数据科学家”成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使各有想法进入大数据领域的朋友在真正从事大数据工作之前对行业的情况有所知晓。数据科学是一个混合交叉学科(如下图所示),要完整的成为一个数据科学家,就需要具备较好的 数学和计算机知识 ,以及某一个 专业领域 的知识。所做的工作都是围绕数据打转转,在数据量爆发之后,大数据被看做是数据科学中的一个分支。 二、大数据体系 大数据(Big Data)其实已经兴起好些年了,只是随着无处不在的传感器、无处不在的数据埋点,获取数据变得越来越容易、量越来越大、内容越来越多样化,于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。用以下两点进一步阐述: 吴军博士提出的一个观点:现有产业+新技术=新产业,大数据也符合这个原则,只是催生出来的不仅仅是一个新产业,而是一个完整的产业链:原有的数据领域+新的大数据技术=大数据产业链; 数据使用的范围,原来的数据应用主要是从现有数据中的数据中进行采样,再做数据挖掘和分析