自然语言处理

宜信OCR技术探索与实践|直播速记

随声附和 提交于 2020-08-06 21:10:42
宜信OCR技术探索与实践​|直播速记 ​ 宜信OCR技术探索与实践|完整视频回放 ​ ​ ​分享实录 一、OCR概述 1.1 OCR技术演进 传统图像,冈萨雷斯的图像处理。 信号处理、频域分析以及各类算法:SIFT、HOG、HOUGH、Harris、Canny…都很赞。 从2016年以后业界基本上都已经转向深度了,因为效果真的特别好。 1.2 OCR技术商业服务 身份证卡证类相对容易些,但是要做到复杂场景的,也不是那么容易。 发票、业务单据相对复杂,除了识别,更重要的是版面分析。 最近表格识别比较火,各家都在努力实现,微软的开放tablebank数据集 移动端backboneMobileNet,或者是tesseract+opencv 二、我们的业务场景 2.1 业务需求 满足业务是第一需要,不同于大厂,对外服务API,要求大并发那么强,多样性品类完备,我们更强调单品要做到尽量达到业务要求,更强调定制化,可以分布走,业务上可以给反馈不断改进。 2.2 识别过程中需要解决的问题 三、OCR算法详解 3.1 算法概述——分享原则 大家一定要自己弄细节,读代码、甚至自己动手撸,自己训练,调参,排错,才能有真正的体会和理解,只讲我认为每个算法里面不太好理解,重点,以及容易忽略的点,跟同行一起交流,沟通。 一个模型,要全面深入了解,需要: 目标、目的、意义是啥? 网络结构啥样? loss是啥?

基于自然语言处理技术的智能电子病历系统

久未见 提交于 2020-08-06 08:59:21
一、设计理念&产品介绍 智能电子病历系统采用独有的NLP技术对病历进行细致的、专业的结构化处理,使得病历内容的内在含义为计算机“理解”,实现监控和利用。其核心价值不单纯在于病历的无纸化存储和电子化记录,更是在医疗质量控制、区域医疗信息化、临床路径、疾病监测、科研教学等方面都发挥出重要作用。 患者就医过程中产生了大量的医疗数据,医生给其接诊时又需要获取该患者既往和当下产生的数据以辅助医生采取下一步治疗,根据治疗所产生的数据再采取对应的治疗措施,周而复始直至患者疾病治愈。这个治疗模式是现有临床诊疗的模式。我们做的是临床诊疗系统,操作者是临床医生,因此我们采取该模式设计了智能电子病历一体化系统,我们的设计理念是,从临床数据中心、专病数据中心、临床诊疗指南、疾病知识库抽取疾病诊疗数据构建医疗知识图谱,以医疗知识图谱为基础创建临床决策引擎,把临床决策引擎接入全结构化的电子病历系统,通过赋能电子病历系统,让医生感知智能医疗:辅助诊断、智能推荐、智能输入、智能纠错、智能质控、智能编码等,让医生从上一代的业务操作系统进入到新一代的智能化时代。 赋能临床诊疗的全过程后提高了临床效率,在对整个医疗过程进行过程质控、内容质控、效果质控实现智能医疗质控,以提高医疗质量,降低医疗事故,保障医疗安全。 二、产品特点优势 如果为了电子病历的结构化,把应该用自然语言自由化输入的电子病历

Visual Question Answering: A Survey of Methods and Datasets

拈花ヽ惹草 提交于 2020-08-06 08:11:32
Abstract 视觉问答(VQA)是一项具有挑战性的任务,已受到计算机视觉和自然语言处理社区的越来越多的关注。给定图像和自然语言的问题,就需要对图像的视觉元素和常识进行推理,以推断出正确的答案。在本调查的第一部分中,我们通过比较解决问题的现代方法来检查最新技术。我们通过它们将视觉和文本模态联系起来的机制对方法进行分类。特别是,我们研究了结合卷积神经网络和递归神经网络将图像和问题映射到公共特征空间的通用方法。我们还将讨论与结构化知识库交互的内存增强型和模块化体系结构。在本调查的第二部分,我们回顾了可用于培训和评估VQA系统的数据集。各种数据集包含不同复杂程度的问题,这些问题需要不同的推理能力和类型。我们深入研究了Visual Genome项目中的问题/答案对,并评估了带有结构图的图像与VQA场景图的注释的相关性。最后,我们讨论了该领域有希望的未来方向,特别是与结构化知识库的连接以及自然语言处理模型的使用。 1. Introduction 视觉问题解答是一项旨在将计算机视觉与自然语言处理(NLP)联系起来,促进研究并推动这两个领域界限的任务。一方面,计算机视觉研究了获取,处理和理解图像的方法。简而言之,其目的是教机器如何看。另一方面,NLP是涉及以自然语言实现计算机与人之间的交互的领域,即教学机器如何阅读以及其他任务。计算机视觉和NLP都属于人工智能领域

机器学习实训课程|31章全免费!完整的自学教程+课件+安装包

扶醉桌前 提交于 2020-08-06 05:32:39
Python玩转机器学习(纯手工代码实现)课程旨在帮助同学们在机器学习领域打下坚实基础。课程注重算法原理讲解与数学公式推导并基于Python语言给出完整的代码实现,从零开始实现每一模块功能(非调用工具包)通过代码实例演示算法工作流程与实现方法。建议同学们在学习过程中先掌握算法原理,基于数学推导公式进行代码复现与实战演练。课程提供全部课程所需PPT,数据,代码。 机器学习|31章全免费!完整的自学教程+课件+安装包 ​ mp.weixin.qq.com 第一章: Python实战关联规则 1-关联规则概述 2支持度与置信度 3-提升度的作用 4-Python实战关联规则 5-数据集制作 6-电影数据集题材关联分析 第二章:爱彼迎数据集分析与建模 1-数据与任务分析 2-提取月份信息进行统计分析 3-房价随星期变化的可视化展示 4-房屋信息指标分析 5-提取房屋常见设施 6-房屋规格热度图分析 7-预处理与建模准备 8-随机森林与LightGBM 9-训练与评估 第三章:基于相似度的酒店推荐系统 1-数据与任务介绍 2-文本词频统计 3-ngram结果可视化展示 4-文本清洗 5-相似度计算 6-得出推荐结果 第四章:商品销售额回归分析 1-数据任务分析 2-特征工程制作 4-特征信息提取 5-标签变换. 6-输入数据制作 7-Xgboost训练模型 8-生成输出结果 第五章

写给程序员的机器学习入门 (六)

醉酒当歌 提交于 2020-08-06 04:45:45
这一篇将会举两个例子说明怎么应用递归模型,包括文本情感分类和预测股价走势。与前几篇不同,这一篇使用的数据是现实存在的数据,我们将可以看到更高级的模型和手法🤠。 例子① - 文本感情分类 文本感情分类是一个典型的例子,简单的来说就是给出一段话,判断这段话是正面还是负面的,例如淘宝或者京东上对商品的评价,豆瓣上对电影的评价,更高级的情感分类还能对文本中的感情进行细分。因为涉及到自然语言,文本感情分类也属于自然语言处理 (NLP, Nature Langure Processing),我们接下来将会使用 ami66 在 github 上 公开的数据 ,来实现根据商品评论内容识别是正面评论还是负面评论。 在处理文本之前我们需要对文本进行切分,切分方法可以分为按字切分和按单词切分,按单词切分的精度更高但要求使用分词类库。处理中文时我们可以使用开源的 jieba 类库来按单词切分,执行 pip3 install jieba --user 即可安装,使用例子如下: # 按字切分 >>> words = [c for c in "我来到北京清华大学"] >>> words ['我', '来', '到', '北', '京', '清', '华', '大', '学'] # 按单词切分 >>> import jieba >>> words = list(jieba.cut("我来到北京清华大学")) >>

数据结构 | 30行代码,手把手带你实现Trie树

六眼飞鱼酱① 提交于 2020-08-06 03:55:52
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 算法和数据结构专题 的第28篇文章,我们一起来聊聊一个经典的字符串处理数据结构——Trie。 在之前的4篇文章当中我们介绍了关于博弈论的一些算法,其中应用最广也是最重要的就是最后的SG函数。了解到这些之后,足够我们应付常见的博弈论算法问题了。博弈论本身就是一门学科,其中有这很深邃的理论基础,我们只是浅尝辄止,大家感兴趣的可以自行钻研一下,相信一定会很有收获。 小故事 以前读过一个大牛的文章,文章里讨论了一个问题, 如果不是为了面试的话,我们为什么要学算法 ? 他讲了一个他自己的故事,说是在很多年前,手机还是诺基亚功能机的时代,他为塞班系统开发了一个通讯簿查找联系人的软件。软件的功能很简单,就是存储联系人,然后可以 通过拼音或者是拼音首字母查找 到对应的联系人。这里需要对汉字以及拼音的映射做一个处理,也不是很复杂的操作,我们脑补应该就可以想出来。 软件很快做好了,做好了之后投入使用发现也很好用。但是很快遇到了一个没想到的问题,就是当 联系人多了之后,软件的运行速度变得非常慢 ,也就是卡。卡的原因也很简单,因为搜索联系人的这个步骤他用的是遍历查找的方式搜索的。他一开始先是自己脑补了一些优化方案和野路子,虽然能有些提升但是不能根本解决问题。后来被逼无奈,他在搜索了相关资料之后,找到了我们今天的主角Trie

网络安全的未来是否掌握在 AI 手中(三)

…衆ロ難τιáo~ 提交于 2020-08-06 03:45:09
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! AI 提升网络防御系统安全级别 可能的网络防御系统应该至少提供三个级别的网络安全。 第一级别包括传统的静态网络防御机制,如身份认证、密码保护、访问控制、网络过滤等。第二级别包括主动的网络防御机制,如信息收集、安全评估、网络状态监控和攻击。第三个级别对应于网络防御管理,对网络状态进行整体评估,选择适当或最佳的防御机制,以及它们的适应性。 预警、入侵检测和防御系统,包括人工智能技术,在确保这些网络安全水平方面发挥着重要作用。 预警系统(Early Warning Systems,EWS)用于防范网络攻击,并尽快作出响应。然而,由于随着新技术的发展,网络威胁的级别也在不断升级。与传统的纯数据包检测方法不同,新的预警系统架构需要收集、分析、关联数据,同时还需要近实时地检测、分析和响应威胁模型。这都是公众已经听说过的。这一需求包括虚拟传感器的开发、复杂的数据关联、用于网络行为分析的新逻辑模型、学习算法,以及能够提供可伸缩性、可靠性和灵活性的概念和新方法的开发,特别是在 IPv6 网络中。 在预警和入侵检测中使用人工智能的目的是开发一种先进的智能帮助系统,用于在局域网和广域网中尽早检测来自互联网的攻击。在这一框架内,还应考虑广泛使用的互联网协议,如 FTP、SMTP 和 HTTP

BERT的前世今生

旧时模样 提交于 2020-08-06 02:11:37
Transformer Transformer来自论文: All Attention Is You Need 别人的总结资源: 谷歌官方AI博客: Transformer: A Novel Neural Network Architecture for Language Understanding Attention机制详解(二)——Self-Attention与Transformer 谷歌软件工程师 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 中科院软件所 · 自然语言处理 /搜索 10年工作经验的博士(阿里,微博); Calvo的博客: Dissecting BERT Part 1: The Encoder ,尽管说是解析Bert,但是因为Bert的Encoder就是Transformer,所以其实它是在解析Transformer,里面举的例子很好; 再然后可以进阶一下,参考哈佛大学NLP研究组写的 “The Annotated Transformer. ” ,代码原理双管齐下,讲得也很清楚。 《Attention is All You Need》浅读(简介+代码) 这个总结的角度也很棒。 A High-Level Look 可以将输入的语言序列转换成另外一种序列,比如下图的神经机器翻译: Transformer模型由编码器

BERT的前世今生

微笑、不失礼 提交于 2020-08-06 00:23:00
Transformer Transformer来自论文: All Attention Is You Need 别人的总结资源: 谷歌官方AI博客: Transformer: A Novel Neural Network Architecture for Language Understanding Attention机制详解(二)——Self-Attention与Transformer 谷歌软件工程师 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 中科院软件所 · 自然语言处理 /搜索 10年工作经验的博士(阿里,微博); Calvo的博客: Dissecting BERT Part 1: The Encoder ,尽管说是解析Bert,但是因为Bert的Encoder就是Transformer,所以其实它是在解析Transformer,里面举的例子很好; 再然后可以进阶一下,参考哈佛大学NLP研究组写的 “The Annotated Transformer. ” ,代码原理双管齐下,讲得也很清楚。 《Attention is All You Need》浅读(简介+代码) 这个总结的角度也很棒。 A High-Level Look 可以将输入的语言序列转换成另外一种序列,比如下图的神经机器翻译: Transformer模型由编码器

斯坦福大学研究人员利用AI加快新冠药物发现

耗尽温柔 提交于 2020-08-05 23:34:36
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 随着COVID-19疫情不断威胁全球民众的生命安全与日常生活,人们开始高度重视这一疾病的预防与治疗。以往人用药物在美国食品药监局(FDA)的批准流程往往需要耗费数亿美元,且需要数月甚至数年的临床试验周期。但是,也许治疗COVID-19的特效药就藏在FDA方面已经批准的超过7800种人用药物当中。为了验证这一猜想,全球数百名研究人员开始投入不懈努力。 在这样一个时间节点之下,人工智能挺身而出担当重任,尝试用AI药物发现的方式为抗疫工作带来新的希望。在今年全美最具发展前景的50家人工智能企业当中,Atomwise、Genesis Therapeutics、Recursion Pharmaceuticals以及twoXAR等AI药物发现厂商榜上有名。来自英国的Benevolent.ai等企业也开始在国际上推动AI药物发现的普及。这些公司早在COVID-19疫情爆发之前就迈出了自己的探索脚步,希望使用AI方法发现现有药物能否治疗多种疾病。 从事这方面研究的AI从业者也在快速增加。为此,我们与斯坦福大学人类中心AI研究所著名生物工程学教授兼副主任Russ Altman博士进行了交流。Altman的实验室重点研究人类遗传变异对药物反应造成的影响。面对此次气势汹汹的COVID-19疫情