Duke

Looking for libraries which support deduplication on entity

主宰稳场 提交于 2021-02-07 23:01:44
问题 I am going to work on some projects to deal with entity deduplication. Datasets (one or more) which may contain duplicate entity. In the realtime, entity may represent the name, address, country, email, social media id in the different form. My goal is to identify that these are possible duplicates based on different weightage for the different entity Info. I am trying to look for a library that is open-source & preferably written in Java. As I need to process the millions of data, I need to

美国医疗机构是如何应用和看待「新冠AI」的?

拜拜、爱过 提交于 2020-10-27 19:41:30
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 自从新冠肺炎在全球爆发以来,众多医学影像AI企业均开发了相关的医学影像AI产品,并被广泛使用。 其中,加州大学圣地亚哥分校(UCSD)卫生系统的Albert Hsiao团队,已经在一项X射线胸片上识别肺炎的人工智能项目上研究了18个月。当新冠病毒袭击美国时,他们决定看看这套系统能做什么。 研究人员迅速部署了他们的程序,该程序会在X射线图像上打上有彩色斑点,用于勾画肺损伤或肺炎迹象。UCSD增强成像和人工智能数据分析实验室主任Hsiao表示,他们已经将其应用于6000多次胸部X射线检测。 他的团队,是疫情期间美国将AI计划推向临床应用的几支重要团队之一,执行的任务包括确定哪些患者面临最大的并发症风险,以及哪些患者可以安全地转入低强度护理。 而像UCSD这样的团队在美国非常之多,基于AI,机器学习程序可滚动分析百万条数据,以检测出临床医生可能难以识别或者漏诊的特征。 然而,很少有新冠检测算法进行过严格的临床测试。 AI专家警告说,尽管AI通常看起来很有帮助,但在疫情期推广这些程序,可能会给医生带来较大的学习成本,同时在实际临床使用过程中,也存在误诊问题。 斯克里普斯研究转化研究所所长埃里克·托波尔(Eric Topol)博士说:“人工智能正在被用于检测可疑的的影像特征。” Eric

生成流畅文本方法

一笑奈何 提交于 2020-10-24 06:53:46
作者|Aaron Abrahamson 编译|VK 来源|Towards Data Science 在沙丘魔堡2000上训练文本生成模型 沙丘魔堡是一个遥远的封建社会的故事。它关注的是一位公爵和他的家人,他们被迫成为沙漠星球阿拉基斯的管理者。弗兰克·赫伯特在1965年出版了这部经典作品。几乎任何现代科幻小说都可以追溯到沙丘的某些元素。 我最近完成了《沙丘》的续集《沙丘的弥赛亚》,并且刚刚开始了《沙丘的孩子》系列的第三部。有六个故事最初是赫伯特写的,后来又有一大堆是他儿子写的。我没读过那些。 我一直在探索文本生成模型。我觉得用沙丘试试会很有趣。很多的“经典”机器学习模型被用于预测和聚类。生成性建模允许模型创建角度从中学习的训练数据。最近一个关于生成建模能力的例子是StyleGAN,看看这段视频( https://www.youtube.com/watch?v=kSLJriaOumA )。 这里有一个链接到我在这个项目中使用的Colab笔记本( https://drive.google.com/file/d/15Z7SNBnBL12acmUGvvMLQ-OoMspb-B5k/view?usp=sharing )。 处理过程 获取文本数据的语料库 数据清洗。我有一些unicode字符,每当有分页符的时候就会出现“page”这个词,这个词是没有用的

寻找下一个生命科学领域的独角兽!《麻省理工科技评论》中国生命科学创业大赛持续报名中

吃可爱长大的小学妹 提交于 2020-08-14 14:01:47
  据 CB Insights 和普华永道联手发布《MoneyTree 2020 年第一季度报告》显示: 医疗健康成为 2020 Q1 筹集资金最多的行业。   此外,近年来生命科学领域也涌现出了越来越多的革命性技术突破,中国本土也诞生出越来越多的新兴科技企业,今年初爆发的疫情,大大提高了资本对生命科学行业的兴趣和认知。 蓬勃发展的生物医药行业,正在形成一个万人瞩目的领域。    由《麻省理工科技评论》中国联合 DeepTech 举办的“首届生命科学创业大赛”全面启动。 本次大赛旨在挖掘生命科学领域真正有潜力的新兴科技初创企业及创新团队,给予他们应得的关注度的同时,提供来自产业巨头代表、顶尖学术专家、专注生命科学投资的专业资本力量的共同支持,帮助其获得更丰富的成长资源,进一步实现商业化落地,站上更广阔的国际舞台。   本次大赛主要采取“ 线上评选 ”的方式进行,总决赛及颁奖典礼将于年底举行。欢迎符合要求的企业积极报名参选( 报名 方式见下图或点击阅读原文 )。             本次大赛也获得到了 31 位重磅评委的鼎力支持! 他们均为来自国内外的生命科学领域的权威人士——科学家、产业专家及专业投资人,他们将对进入决赛的项目进行打分和专业的点评,同时优秀的项目代表还将有机会与这些评委进行深度沟通交流会的机会。   *以下排名不分先后    梁颕宇    启明创投主管合伙人  

寻找下一个生命科学领域的独角兽!《麻省理工科技评论》中国生命科学创业大赛报名中

五迷三道 提交于 2020-08-12 09:58:07
  2020 年 5 月 22 日开拓药业港交所上市,这是疫情期间在港交所 “逆势” 上市的第三家生物医药企。   一方面疫情爆发后,全球医疗行业的需求正处在快速上升期,使得医疗板块成为一个逆周期板块、甚至是逆势增长的行业。另一方面,港交所及科创板的上市新规让许多成长期的生物医药企业得以在二级市场融资,更快速高效地完成新药研发。 可见,新的创业和投资机遇正在产生。   此外,近年来生命科学领域也涌现出了越来越多的革命性技术突破,中国本土也诞生出越来越多的新兴科技企业, 蓬勃发展的生物医药行业,正在形成一个万人瞩目的领域。    由《麻省理工科技评论》中国联合 DeepTech 举办的“首届生命科学创业大赛”持续报名中! 本次大赛旨在挖掘生命科学领域真正有潜力的新兴科技初创企业及创新团队,给予他们应得的关注度的同时,提供来自产业巨头代表、顶尖学术专家、专注生命科学投资的专业资本力量的共同支持,帮助其获得更丰富的成长资源,进一步实现商业化落地,站上更广阔的国际舞台。   本次大赛主要采取“ 线上评选 ”的方式进行,总决赛及颁奖典礼将于年底举行。欢迎符合要求的企业积极报名参选( 报名 方式见下图或点击阅读原文 )。             本次大赛也获得到了 32 位重磅评委的鼎力支持! 他们均为来自国内外的生命科学领域的权威人士——科学家、产业专家及专业投资人

Postgresql 全文检索测试

霸气de小男生 提交于 2020-08-12 03:08:32
Postgresql:10.11 测试表数据量:3亿 测试使用8c 16g 服务器 创建一张表: create table nt_order ( id int PRIMARY KEY, order_id text, order_time timestamp without time zone, info jsonb ); CREATE SEQUENCE nt_order_id_seq START WITH 1 INCREMENT BY 1 NO MINVALUE NO MAXVALUE CACHE 1; alter table nt_order alter column id set default nextval('nt_order_id_seq'); 创建索引: brin索引: create index idx_nt_order_brin on nt_order using brin (order_time); 全文检索: create index idx_gin_nt_order_info on nt_order using gin(to_tsvector('english',info)); 为什么使用brin索引? 占空间小,比btree小千倍靠上 使用brin索引适用任何场景吗? brin索引适合范围查询(与btree索引比差距较小),brin索引主要用于高度相关的数据

PE、VC最为关注的热门赛道,下一个独角兽会在哪里?|《麻省理工科技评论》中国生命科学创业大赛持续招募中

被刻印的时光 ゝ 提交于 2020-07-28 01:44:25
  对于全球市场而言,2020 年是极不平凡的一年。随着年中分水岭 6 月如期而至,疫情带来的 “黑天鹅” 效应影响逐渐减弱,全球范围内,生命科学领域 1-5 月的投融资进展稳步进行。   结合疫情对行业的影响,医疗健康已成为当下最直接的需求,包括医药在内的医疗健康领域则成为私募股权投资(PE)与风险投资(VC)机构最为关注的热门赛道。据相关数据统计,今年一季度,在有投资行为的 788 家 PE/VC 机构中,约有 33% 的机构参与了医疗健康领域的投资。 可见,新的创业和投资机遇正在产生。   此外,近年来生命科学领域也涌现出了越来越多的革命性技术突破,中国本土也诞生出越来越多的新兴科技企业, 蓬勃发展的生物医药行业,正在形成一个万人瞩目的领域。    由《麻省理工科技评论》中国联合 DeepTech 举办的“首届生命科学创业大赛”持续报名中! 本次大赛旨在挖掘生命科学领域真正有潜力的新兴科技初创企业及创新团队,给予他们应得的关注度的同时,提供来自产业巨头代表、顶尖学术专家、专注生命科学投资的专业资本力量的共同支持,帮助其获得更丰富的成长资源,进一步实现商业化落地,站上更广阔的国际舞台。   本次大赛主要采取“ 线上评选 ”的方式进行,总决赛及颁奖典礼将于年底举行。欢迎符合要求的企业积极报名参选( 报名 方式见下图或点击阅读原文 )。             本次大赛也获得到了

2020fall申请季总结-从化学到CS-0基础转码申请

天涯浪子 提交于 2020-05-04 22:06:46
2020fall申请季总结-从化学到CS-0基础转码申请 申请季终于结束啦(4.14就结束了),还是想要发一个总结,update一下。想说的话有点多,关于自己的申请,选校未来想法等等。 寄托的帖子在这里可以看 阅读须知:这是我个人对于自身未来道路的思考,不适用于所有的人。只是希望能分享出来,让更多的人看到。如果读者有跟我一样的想法,希望我的文章能够帮助到你。 目录 2020fall申请季总结-从化学到CS-0基础转码申请 申请条件 申请结果:(均为master) 如何选校 申请经验 为什么要出国读书? 我的转行历程 什么时候开始思考的? 思考历程 总结 申请条件 西部末流985化学本科,申请绩点3.78/4.0,雅思7.5(小分6.0),GRE 324+3.5。本科上过一门C语言和大学计算机基础课程,属于零基础转码。无文章,无比赛,一些无关紧要的奖。有mitacs科研项目部经历,有外导的推荐信。 在Coursera上上过Python、Machine learning和网页开发的课程,有在线证书。 申请结果:(均为master) @AD CS-Align@Northeastern University美国东北大学 (去这个!) Computational Science@University of Amsterdam荷兰阿姆斯特丹大学 Bioinformatics

腾讯优图再次刷新三大ReID公开数据集纪录,首位命中率最高近99%

假如想象 提交于 2020-04-24 16:04:42
近日,腾讯优图实验室在行人重识别(R eID) 技术上再次取得突破, 通过引入跨场景ReID, 其 ReID模型性能刷新了三大 权威主流 ReID公开数据集CUHK03,DUKE-MTMC和Market1501的记录 ,算 法关键指标首位命中率(RANK 1 Accuracy) 和 平均精度均值(Mean Average Precision) 获得业内最好成绩。 表1: ReID公开数据集性能比较 Market1501 DukeMTMC CUHK03 RANK1 MAP RANK1 MAP RANK1 MAP Tencent YouTu 98.99 % 97.16 % 95.15 % 91.10 % 95.79 % 95.00 % YITU 98.60 % 96.60 % 94.75 % 90.02 % 95.00 % 94.23 % HaiGe 97.54 % 94.77 % 9 4.37% 89.77% 94.40% 91.20% ZTE 97.32 % 94.66 % 92.46 % 87.65 % 89.79 % 87.99 % Dahua Tech 96.76 % 91.98 % 91.52 % 83.9 6% 87.73 % 85.72 % Pensees 96.73 % 89.89 % 92.01 % 82.51 % 84.57 % 82.81 % WINSENSE