机器学习

Flink 消息聚合处理方案

可紊 提交于 2020-12-12 13:54:08
微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。 为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count Window 成为第二个可选方案。 由于需要使用 KeyedStream

Flink 消息聚合处理方案

时间秒杀一切 提交于 2020-12-12 13:53:53
微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。 为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count Window 成为第二个可选方案。 由于需要使用 KeyedStream

Flink 消息聚合处理方案

醉酒当歌 提交于 2020-12-12 13:32:31
微博机器学习平台使用 Flink 实时处理用户行为日志和生成标签,并且在生成标签后写入存储系统。为了降低存储系统的 IO 负载,有批量写入的需求,同时对数据延迟也需要进行一定的控制,因此需要一种有效的消息聚合处理方案。 在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案,描述不同方案中可能遇到的问题和解决方法,并进行对比。 基于 flatMap 的解决方案 这是我们能够想到最直观的解决方案,即在自定义的 flatMap 方法中对消息进行聚合,伪代码如下: 对应的作业拓扑和运行状态如下: 该方案的优点如下: 逻辑简单直观,各并发间负载均匀。 flatMap 可以和上游算子 chain 到一起,减少网络传输开销。 使用 operator state 完成 checkpoint,支持正常和改并发恢复。 与此同时,由于使用 operator state,因此所有数据都保存在 JVM 堆上,当数据量较大时有 GC/OOM 风险。 使用 Count Window 的解决方案 对于大规模 state 数据,Flink 推荐使用 RocksDB backend,并且只支持在 KeyedStream 上使用。与此同时,KeyedStream 支持通过 Count Window 来实现消息聚合,因此 Count Window 成为第二个可选方案。 由于需要使用 KeyedStream

人工智能公开课视频整理

喜欢而已 提交于 2020-12-12 09:47:21
机器学习视频集合 使用方法: 点开图片长按识别小程序码,跳出最下方的链接就可以直接进行学习。 李宏毅老师的机器学习 林轩田老师的机器学习 吴恩达老师的机器学习 李宏毅老师的深度学习 李宏毅老师的强化学习 B站大神的白板机器学习 推荐阅读: 【机器学习】Python标准库 【机器学习】Numpy常用函数集锦 【机器学习】Pandas函数总结 【机器学习】Matplotlib数据可视化 【机器学习】Scipy模块函数 【机器学习算法】1、线性回归——深层理解 【机器学习算法】2、逻辑回归——从来源说起 【机器学习算法】3、K-近邻算法 【机器学习算法】4、降维算法之PCA(深入理解与实践) 【机器学习算法】5、支持向量机算法 【机器学习算法】6、K-Means流程结束要不要多问几个为什么呢? 【机器学习算法】7、聚类算法之Mean-Shift 【机器学习算法】8、聚类算法之DBSCAN 【机器学习算法】9、EM算法与K-Means算法的收敛性证明 【机器学习算法】10、朴素贝叶斯算法+中文分词项目实战 【机器学习算法】11、高斯混合模型算法+语音识别项目实战 【机器学习算法】12、隐马尔科夫模型+股票预测项目实战+中文分词项目实战 常见概率分布知多少——13个常用概率分布的介绍 声明:转载请说明出处 下方为小生公众号,还望包容接纳和关注,非常期待与您的美好相遇,让我们以梦为马,砥砺前行

一文回顾 Google I/O大会

╄→尐↘猪︶ㄣ 提交于 2020-12-12 09:39:30
北京时间2018年5月9日凌晨, Google I/O 2018大会在美国加州山景城拉开帷幕。当天有近 7000人来到现场。 在今天的 Keynote 中,谷歌 CEO 桑德尔·皮查伊等人介绍了谷歌一年来的多方面 AI 研究成果,例如深度学习医疗、TPU3.0、Google Duplex 等,也展示了 AI 如何全方位地融入了谷歌每一条产品线,从安卓到 Google Lens 和 Waymo。在本文中,机器之心对 Keynote 的核心内容进行了整理。 让我们看一下有哪些精彩的展示: TPU 3.0 现在正式推出TPU 3.0,相比去年发布的2.0版本,性能提升8倍,高达100 petaflops,而且由于芯片太强大,Google第一次引入液体冷却方法——对于希望为机器学习创建定制硬件的公司来说,散热越来越成为一个难题。 Google Assistant Google Assistant将提供超过13万儿童故事,新加入了针对儿童的Pretty please功能,鼓励小孩对Google Assistant进行礼貌提问。 GoogleMap GoogleMap加入了全新的AR 导航系统,当你去一些路口较多的地方,可以开启相机进行实景导航。 Google News Google News也开始和AI结合,以精准判断用户感兴趣的新闻。 根据用户的阅读偏好,Google News 还可以在

硬核干货!Redis 分布式集群部署实战

僤鯓⒐⒋嵵緔 提交于 2020-12-12 07:51:31
原理: Redis集群采用一致性哈希槽的方式将集群中每个主节点都分配一定的哈希槽,对写入的数据进行哈希后分配到某个主节点进行存储。 集群使用公式(CRC16 key)& 16384计算键key数据那个槽。 16384个slot均匀分布在各个节点上。 集群中每个主节点将承担一部分槽点的维护,而槽点中存储着数据,每个主节点都有至少一个从节点用于高可用。 节点通信方式: 开启一个端口 设置的端口号+10000,用于集群之间节点通信交换信息。 每个节点默认每秒10次选择随机5个节点发送ping消息,将自身信息和知道的集群信息传递,收到ping消息后返回pong消息做回复,最后通过这种随机的消息交换,最终每个节点将获得所有信息。 当某个主节点挂掉,所有节点将会发现主节点挂掉了,作为主节点的从节点,就会接替主节点的工作,然后告诉所有其它节点,他成为了主。这样其它存活节点,就将它们维护的信息表更新从节点将接任做主,如果都挂掉集群将报错。当从一个节点操作,根据一致性哈希计算后将存储在其中一个主节点中,从节点将同步主的数据。 redis cluster是去中心化的,集群中的每个节点都是平等的关系,每个节点都保存各自的数据和整个集群的状态。每个节点都和其他所有节点连接,而且这些连接保持活跃。 搭建集群时,会为每一个分片的主节点,对应一个从节点。实现slaveof功能,同时当主节点down

招聘信息 | 眼控科技3个岗位招聘,AI气象研究员(30-60K·14薪)

家住魔仙堡 提交于 2020-12-12 07:15:59
介绍 上海眼控科技股份有限公司成立于 2009 年,是一家集计算机视觉识别与深度学习技术研发应用于一体的全球性人工智能科技企业。经过多年的极致追求与打磨,推出了一系列人工智能技术,包括:人脸识别、目标检测与识别、OCR、人体关键点检测& 姿态识别、场景语义理解、模型压缩与蒸馏、车辆与行人 ReID 和追踪等。眼控科技已成为中国领先的 AI 智慧交通、智慧气象领域解决方案提供商。 眼控科技汇聚了来自美国斯坦福大学、纽约大学、香港科技大学等国内外知名大学的顶尖 AI 人才 100 余名,先后在道路交通领域,联合公安部交通管理科学研究所、上海交大人工智能研究院建立全国首家 AI+ 道路安全监管创新中心。同时,联合华东空管局气象中心、上海交大人工智能研究院建立全国首家航空智慧气象创新中心。眼控科技在智慧道路交通、智慧航空气象垂直领域的市场占有率已位居行业领先地位,产品覆盖北京、上海、天津、河北、山东等 30 多个省市。 使命:用人工智能提供更安全更高效的交通安全解决方案 愿景:成为全球AI领域最具创新活力的企业 价值观:敬业、创新、协作、自信 眼控科技大事记: 2009年,眼控科技成立,深度探索人工智能技术; 2013年,与上海交大、公安部无锡所成立道路交通联合实验室; 2015年,探索航空气象领域AI技术研究; 2017年,道路交通安全智能监管领域市场占有率第一; 2018年

【12月8日更新】如何入门 TensorFlow ? “开发者出道计划”第一期话题精华内容汇总

和自甴很熟 提交于 2020-12-12 01:55:49
大家好! “TensorFlow 开发者出道计划” 第一期正在火热展开中!在11月-1月,出道计划第一期围绕“如何入门 TensorFlow”,社区内上线了超级多的实用技术干货,更重磅邀请来自 CSDN 的百大热门技术博主倾囊分享成长心得。在社区的问答版块,关于 TensorFlow 的讨论也在实时火热进行中! 为了帮助开发者伙伴更方便检索到这些优质内容,小编特地整理了本篇精华帖,为大家收录优质内容的链接直通车,帮助大家一步到位 get 到自己想要看的好内容!本篇精华帖将持续更新,建议你动动手指把它收录到自己的“收藏夹”,随时查阅哦! 特邀 社区作者 分享学习成长心路历程 & 技巧!(持续更新中) 我是管小亮: 《关于 TensorFlow 入坑那些事儿》 文章提要: 新手入门 TensorFlow,如何学习?如何高效、快速地学习?CSDN 百万粉丝博客专家@我是管小亮 畅谈经验和见解,为你打开通向新世界的大门! 希望像上面的作者一样,让您的个人洞见、项目实践被更多社区开发者看到,欢迎 点击这里 了解更多。 在 社区问答版块 也有了不少开发者关心的内容得到了热烈的 回复 ,看看是否也有你所关心的话题: 问题1: 从零接触 TensorFlow,我该选择1.0还是2.0版本? 是不是感受到了这些优质回答确实有帮您解答了在入门 TensorFlow 遇到的一些学习瓶颈或是实操问题

地球上最神奇的10种物质,打赌你都没见过!

帅比萌擦擦* 提交于 2020-12-11 22:40:07
日常生活中总会看到一些神奇的现象, 这些神奇的现象背后, 有时也会隐藏着神奇的物理材料, 今天科普君就来给大家炫一把“技”, 展示展示这些神奇的材料, 看看你见过几个? >>>> 1. 超疏水材料 2. 三碘化氮 3. 水凝胶 4. 形状记忆合金 5. 镓 6. 气凝胶 7. 磁性橡皮泥 8. 磁流体 9. 超材料 10. 非牛顿流体 怎么样,这10个物质你见过几个? 留言区里说说呗 —THE END— 来源:广东科普 编辑 ∑Gemini 文章推荐 ☞ 报效祖国:今年已有多位国际顶级学者加盟国内高校 ☞ 物理学中最难的方程之一,你知道多少? ☞ 数学和编程 ☞ 机器学习中需要了解的 5 种采样方法 ☞ 颜宁:当科学家是幸福的 ☞ 知乎超万赞回答:中国有哪些「无心插柳柳成荫」的事情? 来源: oschina 链接: https://my.oschina.net/u/4287100/blog/4792466

机器学习【初探建模那些事儿】(五)

淺唱寂寞╮ 提交于 2020-12-11 12:59:05
https://zhuanlan.zhihu.com/p/106927814 本篇你将了解过拟合和欠拟合的概念,并且能够使得你的模型更准确 (一)尝试不同的模型 既然你有一种可靠的方法来测量模型精度,那么你可以尝试使用其他模型,并查看哪种模型可以提供最佳预测。 可以在scikit-learn的文档中看到决策树模型有很多选项(比你想要的或需要的更多)。 最重要的选项决定了树的深度。 回想一下这个微课程的第一课,树的深度是衡量它在进行预测之前分裂的数量。 这是一棵相对较浅的树 在实践中,树在顶层(所有房屋)和叶子之间有10个分裂并不罕见。随着树木越来越深,数据集被切成了更少房屋的树叶。如果树只有1个分割,则将数据分为2组。如果每组再次拆分,我们将获得4组房屋。再次拆分每个将创建8个组。如果我们通过在每个级别添加更多分组来保持组的数量翻倍,那么当我们到达第10级时,我们将拥有210组房屋。这是1024片叶子。 当我们将房屋分成许多树叶时,每片叶子中的房屋数量也会减少。拥有极少数房屋的树叶将做出与房屋实际值非常接近的预测,但它们可能会对新数据做出非常不可靠的预测(因为每个预测仅基于少数房屋)。 这是一种称为过度拟合的现象,其中模型几乎完美地匹配训练数据,但在验证和其他新数据方面表现不佳。另一方面,如果我们使树很浅,它不会将房屋分成非常不同的组。 在极端情况下,如果一棵树将房屋分成2或4