聚类

综述 | 知识图谱技术综述(上)

百般思念 提交于 2020-12-06 18:32:47
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 0.导读 人类先后经历了以文档互联为主要特征的“ Web 1.0 ”时代与数据互联为特征的“ Web 2.0 ”时代,正在迈向基于知识互联的崭新“ Web 3.0 ”时代 [1] 。 知识图谱 (knowledge graph)

优酷双11猫晚技术质量保障

十年热恋 提交于 2020-12-06 07:55:43
阿里QA导读:大家还记得天猫双11狂欢夜(猫晚)吗?小编依然还会经常听到真实力老酷guy腾格尔老师钢铁硬核版的《丑八怪》。与往年猫晚相比,今年是最“国际化”的一届,整场晚会通过优酷进行了全球直播覆盖,在这样的双11猫晚的特殊场景下,如何完成质量保障工作,让全球直播也能“如丝般顺滑”,让不同地域、不同设备的用户都能享受极致的体验? 本文为阿里文娱测试开发专家 宫浩 在【阿里文娱2019双11猫晚技术沙龙】中的演讲。 与开发团队不同,质量保障是一个横向支撑的团队,涉及的业务场景和技术点很多而且非常重要。在双11猫晚这样的特殊场景下,我们是如何输出保障能力的,并结合质量保障的平台能力,去保障双11和猫晚的全链路稳定性的?如何保证不同地域、设备用户都有极致的用户体验? 一、双11猫晚质量保障的挑战 双11猫晚的挑战有两大块,一是 ‍ 稳定性,在这种超级事件中,稳定压倒一切。 其次,是在稳定的基础上,如何创新,并实现成本的降低。 优酷双11战役包含两大块,优酷站内的活动和猫晚,站内活动从10月20日就开始预热了,所以整个活动周期持续将近20天,我们要在这个长周期内保持整个活动的稳定,而且还要针对猫晚直播当天的创新性玩法做好针对性的测试保障工作,在人员有限的情况下,整体挑战很大。 1、稳定性压倒一切 直播链路的稳定性: 4个小时的直播,可能有不同的网络环境,优酷、淘宝和天猫三个APP

综述 | 知识图谱技术综述(下)

孤街浪徒 提交于 2020-12-06 05:59:05
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 3.知识图谱的关键技术 前文回顾 3.1 知识抽取 3.1.1 实体抽取 1) 基于规则与词典的实体抽取方法 2) 基于统计机器学习的实体抽取方法 3) 面向开放域的实体抽取方法 3.1.2 关系抽取 1) 开放式实体关系抽取 2

软件工程之软件概要设计

那年仲夏 提交于 2020-12-04 17:51:50
在完成对软件系统的需求分析之后,接下来需要进行的是软件系统的概要设计。一般说来, 对于较大规模的软件项目,软件设计往往被分成两个阶段进行。首先是前期概要设计,用于确 定软件系统的基本框架;然后是在概要设计基础上的后期详细设计,用于确定软件系统的内部 实现细节。 概要设计也称总体设计,其基本目标是能够针对软件需求分析中提出的一系列软件问题, 概要地回答问题如何解决。例如,软件系统将采用什么样的体系构架、需要创建哪些功能模块、 模块之间的关系如何、数据结构如何?软件系统需要什么样的网络环境提供支持、需要采用什 么类型的后台数据库等。 应该说,软件概要设计是软件开发过程中一个非常重要的阶段。可以肯定,如果软件系统 没有经过认真细致的概要设计,就直接考虑它的算法或直接编写源程序,这个系统的质量就很 难保证。许多软件就是因为结构上的问题,使得它经常发生故障,而且很难维护。 一、概要设计过程和任务 1.设计过程 概要设计基本过程如图 5-1 所示,它主要包括三个方面的设计。首先是系统构架设计,用 于定义组成系统的子系统,以及对子系统的控制、子系统之间的通信和数据环境等;然后是软 件结构和数据结构的设计,用于定义构造子系统的功能模块、模块接口、模块之间的调用与返 回关系,以及数据结构、数据库结构等。 概要设计要求建立在需求分析基础之上,软件需求文档是软件概要设计的前提条件。只有这样

大数据量数据库设计与优化方案

巧了我就是萌 提交于 2020-11-29 04:49:46
转自: https://www.cnblogs.com/zuizui1204/p/9197248.html 一、数据库结构的设计 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能。所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的。 在一个系统分析、设计阶段,因为数据量较小,负荷较低。我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程。 所以在考虑整个系统的流程的时候,我们必须要考虑,在高并发大数据量的访问情况下,我们的系统会不会出现极端的情况。(例:对外统计系统在7月16日出现的数据异常的情况,并发大数据量的的访问造成,数据库的响应时间不能跟上数据刷新的速度造成。具体情况是:在日期临界时(00:00:00),判断数据库中是否有当前日期的记录,没有则插入一条当前日期的记录。在低并发访问的情况下,不会发生问题,但是当日期临界时的访问量相当大的时候,在做这一判断的时候,会出现多次条件成立,则数据库里会被插入多条当前日期的记录,从而造成数据错误), 数据库的模型确定下来之后,我们有必要做一个系统内数据流向图,分析可能出现的瓶颈。 为了保证数据库的一致性和完整性

OpenCV 学习笔记 07 目标检测与识别

有些话、适合烂在心里 提交于 2020-11-27 03:25:56
目标检测与识别是计算机视觉中最常见的挑战之一。属于高级主题。 本章节将扩展目标检测的概念,首先探讨人脸识别技术,然后将该技术应用到显示生活中的各种目标检测。 1 目标检测与识别技术 为了与 OpenCV 学习笔记 05 人脸检测和识别 进行区分;需重新说明一下什么是目标检测。 目标检测是一个程序,它用来确定图像的某个区域是否有要识别的对象,对象识别是程序识别对象的能力。识别通常只处理已检测到对象的区域。若人们总是会在有人脸图像的区域去识别人脸。 在计算机视觉中有很多目标检测和识别的技术,本章会用到: 梯度直方图(Histogram of Oriented Gradient, HOG) 图像金字塔(image pyramid) 滑动窗口(sliding window) 与特征检测算法不同,这些算法是互补的。如在梯度直方图(HOG)中会使用滑动窗口技术。 1.1 HOG 描述符 HOG 是一个特征描述符,因此 HOG 与 SIFT、SURF 和 ORB 属于同一类型的描述符。 在图像和视觉处理中常常会进行目标检测,其实目标检测的内部机制都差不多,如人脸识别的 LBPH 描述符: 第一步:将图像划分成多个部分 第二步:计算各个部分的梯度 HOG 不是基于颜色值而是基于梯度来计算直方图。 HOG 所得到的 特征描述符 能够为 特征匹配 和 目标检测 (或目标识别)提供非常重要的信息。

三代全长转录组测序

狂风中的少年 提交于 2020-11-26 16:31:39
“三代转录组”是什么?对于混迹在科研领域的一员,如果现在还不了解全长转录组测序,恐怕都不好意思说自己了解高通量测序了呢! 今天小编总结了一些三代全长转录组测序的相关问题,给大家来一个详细全面的解释,希望可以帮到爱学习的您哦! 1.什么是三代全长转录组测序 三代全长转录组测序,即利用PacBio三代测序平台对某一物种的mRNA进行测序研究。它以平均超长读长10-15kb的优势、结合多片段文库筛选技术,实现了无需拼接的转录本分析,克服了传统二代转录组Unigene拼接较短、转录本结构不完整的缺陷,也由于其可直接获得单个RNA分子从5’端到3’端的高质量全部转录组信息而得名。 2.为什么要做全长转录组测序? 转录本非常多样和复杂,绝大多数基因不符合“一基因一转录本”的模式,这些基因往往存在多种剪切形式。通过二代测序,我们可以很准确地进行基因的表达及定量的研究,但是受限于读长的限制,不能得到全长转录本的信息。 基于二代测序平台的转录组产品,首先是把RNA打成小的短片断进行测序,然后再通过生物信息的方法进行拼接,将拼接后的序列交付给客户。但是基于二代测序平台的转录组,由于读长的限制(PE150),在转录本组装的过程中会存在较多的嵌合体,并且不能准确地得到完整转录本的信息,从而会大大降低表达量、可变剪接、基因融合等分析的准确性。 图1. 二代和三代转录组测序原理及读长对比

面试了8家公司,他们问了我这些机器学习题目......

淺唱寂寞╮ 提交于 2020-11-26 13:57:02
翻译 | 王柯凝 出品|人工智能头条(公众号ID: AI_Thinker ) 【 导读 】 今年年初以来,作者一直在印度找数据科学、机器学习以及深度学习领域的工作。在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司、基于服务的公司以及基于产品的公司。作者希望他的面试经验能够为求职者提供一些有用的信息,因而撰写了此文。希望你读后能够有所收获! 首先自我介绍一下: 我在机器学习(语音分析、文本分析和图像分析领域应用)领域有4年以上的从业经验。总的来说,我认为这个领域的大多数工作职位主要包括文本分析(自然语言处理)和图像分析(计算机视觉)。很少有公司招聘语音或音频分析的人才。我现在的目标是应聘一个中高级职位,可以带领一个深度学习或机器学习团队做一些有趣的项目。 下面是我在应聘过程中被问到的问题,希望能够对你有所帮助。 ▌ 公司一:基于全球性服务的某公司(面试时长:20-25min) 你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类? 假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。 你如何阅读扫描版pdf文件或图像格式的书面文件的内容? 朴素贝叶斯为什么被称为“朴素”? 请详细介绍一下朴素贝叶斯分类器。 什么是深度学习

以《大秦帝国之崛起》为例,来谈大数据舆情分析和文本挖掘

五迷三道 提交于 2020-11-26 07:51:29
本文转自知乎 作者:苏格兰折耳喵 ————————————————————————————————————————————————————— 本文作者将以《大秦帝国之崛起》作为分析对象,来详细阐述在大数据时代数据分析会涉及到的全网舆情分析、微博传播分析以及文本挖掘。 今年开年,因饰演白起的演员王学兵吸毒而拖延上映的《大秦帝国之崛起》(以下简称为“崛起”),终于在剧迷的千呼万唤中播出。 这部根据孙皓晖同名小说改编的电视剧是“大秦帝国”系列的第三部,首部《大秦帝国之裂变》,第二部《大秦帝国之纵横》分别于2009年、2013年播出,均获得不错的口碑,第三部《大秦帝国之崛起》因为上面的原因而补拍,直到今年年初才在央视开播。 本文将以该剧作为分析对象,来详细阐述在大数据时代数据分析会涉及到的三个“子课题”: 全网的舆情分析 :基于全网媒体或网民关于该剧的探讨,进行“ Social Listening(社会化聆听) ”,了解该剧整体口碑概况 微博传播分析 :基于新浪微博某条对于该剧具有重大影响力的微博的传播情况,了解该条微博的传播规律,互动粉丝的画像,以及水军的辨识 文本挖掘 :通过对该剧相关非结构化文本数据的分析,了解其获得观众较高认可的原因 在接下来的分析中,笔者将结合 分析工具 (新浪微舆情、头条媒体实验室、Python、Gephi等)、 分析思路 (分析角度和分析流程)、 业务知识

破旧立新,精准测试之道

与世无争的帅哥 提交于 2020-11-25 13:43:38
前言 第一次听到精准测试是在几年前了,那一瞬间就对这个流派充满了好奇和探索的欲望,最近几年逐渐得到了各领域各行业中测试人员的广泛关注,那么问题来了: 什么是精准测试; 精准测试的意义和价值在哪里; 精准测试整体方案如何落地; 传统测试的痛点 测试效率低下 常规的测试类型包括功能测试、回归测试、自动化测试、接口测试等,非常依赖于测试人员的测试经验,基于人工主观分析的黑盒测试,借助常规的用例设计方法来确保产品质量。 根据收益递减规律,虽然大量的人力投入,不断的执行测试,但是漏测率还是居高不下。中间的无效测试和重复测试也浪费了大量的测试成本。 测试范围无法评估 多分支代码合并到主分支,修改哪个文件哪个行,测试不可控; 代码更新影响哪些功能无感知; 大部分的测试还是基于对业务的理解,与真实业务数据还有差距,准确性难以保证,盲测,风险大; 测试过程中的质量标准无法衡量 怎么样判定测试完成,怎么样判定测的怎么样?质量控制贯穿于整个质量保障流程。 用例执行完成; 探索性测试完成; 开发人员缺陷修复完成; 回归测试完成; 自动化执行通过; 上述步骤完成意味着我们的产品质量是合格的吗? 上线之后的非一致性成本逐渐增高,测试过程没有数据量化的评定,无法衡量,只能依赖线上缺陷率,线下缺陷数,千行缺陷率等比较飘的指标来评定,测试管理难度大。 敏捷模式和分布式微服务架构下的挑战 迭代周期短