检索

Hibernate查询、 检索、 抓取 (Fetch)

本小妞迷上赌 提交于 2019-12-01 19:59:50
一、HQL 在hql中关键字不区分大小写,但属性和类名区分大小写 1. 简单属性查询 * 单一属性查询,返回结果集属性列表 * 多个属性查询,返回集合元素是对象数组,数组长度取决于select中属性个数 * 返回数组不够对象化,可以采用hql动态实例化对象 e.g: select new Student(name, age) from Student; 2. 实体对象查询 * N + 1问题,在默认情况下,使用query.iterate查询, 可能 出现N + 1问题 发出N+1条sql语句 1: 首先发出一条查询id列表的SQL N: 根据id列表到缓存中查询,如果缓存未命中,则根据ID发出N条相应sql * list和iterated 区别 > list : 每次都会发出SQL语句,list会向缓存中放入数据,而不利用缓存的数据 > iterate : 在默认情况下iterate利用缓存数据,但在缓存中根据ID未命中则可能出现N+1问题 3. 条件查询 * 可以采用拼接字符串的方式传递参数 * 可以采用 ?来传递参数(索引从0开始) * 可以采用 :参数名 来传递 4. 本地SQL查询 5. 外置命名查询 6. 分页查询 7. 对象导航查询 9. 连接查询 (内连,外连) * 内连接 select c.name, s.name from Student s join s

“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程

試著忘記壹切 提交于 2019-11-30 10:15:52
今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从2012年3月创建以来,今日头条至今已经累计激活用户3.1亿,日活跃用户超过3000万。 本文尝试从技术层面分析今日头条的传播机制和相关原理。 网络爬虫:抓取新闻的基本技术 今日头条是一个典型的数据新闻平台,其新闻来源除了合作媒体之外,很大一部分来自于搜索引擎的网络爬虫。 网络爬虫是什么? STEP 1:从互联网各个角落收集信息; STEP 2:将其中的新闻类信息进行汇总; STEP 3:汇总的信息经过基于机器学习的分类和排序,划分出每一个时刻的热点新闻。 今日头条作为数据新闻平台,与一般数据新闻的区别,在于提供一个媒介平台,展示汇总的信息,而不是一条信息。 网络爬虫的工作机制是什么? 网络爬虫的工作机制依赖于会联网互联网上的超链接网络。 在互联网上多数网页,都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。爬虫作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。如图所示: “今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程 STEP 1:爬虫从一个种子节点0开始爬取网页内容, STEP 2