nosql

大数据基本概念浅析及技术简介

时光怂恿深爱的人放手 提交于 2021-02-13 19:03:58
大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。 一、基本概念 在讲什么是大数据之前,我们首先需要厘清几个基本概念。 1.数据 关于数据的定义,大概没有一个权威版本。为方便,此处使用一个简单的工作定义:数据是可以获取和存储的信息。 直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。 不过数值是所有数据中最容易被处理的一种,许多和数据相关的概念,例如下面的数据可视化和数据分析,最早是立足于数值数据的。 传统意义上的数据一词,尤其是相对于今天的“大数据”的“小数据”,主要指的就是数值数据,甚至在很多情况下专指统计数值数据。这些数值数据用来描述某种客观事物的属性。 2.数据可视化 对应英语的data visulization(或可译为数据展示),指通过图表将若干数字以直观的方式呈现给读者。比如非常常见的饼图、柱状图、走势图、热点图、K线等等,目前以二维展示为主,不过越来越多的三维图像和动态图也被用来展示数据。 3.数据分析 这一概念狭义上,指统计分析,即通过统计学手段

如何去写一手好SQL

霸气de小男生 提交于 2021-02-13 17:22:30
MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据的单表,分页查询最新的20条记录耗时0.6秒,SQL语句大致是 select field_1,field_2 from table where id < #{prePageMinId} order by id desc limit 20 ,prePageMinId是上一页数据记录的最小ID。 虽然当时查询速度还凑合,随着数据不断增长,有朝一日必定不堪重负。分库分表是个周期长而风险高的大活儿,应该尽可能在当前结构上优化,比如升级硬件、迁移历史数据等等,实在没辙了再分。对分库分表感兴趣的同学可以阅读分库分表的基本思想。 最大并发数 并发数是指同一时刻数据库能处理多少个请求,由max_connections和max_user_connections决定。max_connections是指MySQL实例的最大连接数,上限值是16384,max_user_connections是指每个数据库用户的最大连接数

MySQL数据库初识

非 Y 不嫁゛ 提交于 2021-02-12 01:59:28
一 数据库概述 1. 数据库???   什么是数据库呢?   先来看看百度怎么说的 数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。   百度的貌似不好理解啊,让我说啊,数据库是存储数据的地方,超哥,你这不是废话么?这位同学,你你你你你说的对,哈哈,存数据的地方是存在哪里呢,存在硬盘上,为什么不是存在内存里面,因为内存无法永久保存。之前我们存数据都是使用的文件,在一个word文档里面写一些羞羞的网址,然后保存,就存储到硬盘上了。有同学就会说了,超哥,我这通过文件不是也将数据保存上了吗?是的,没毛病,但是你想,通过文件来操作数据,效率是不是很低,首先打开关闭就比较慢,其次是我们操作起来也比较麻烦,对不对,如果我想记录一条关于我个人信息的数据,我使用文档来存,是不是很不友好,并且我们要查数据的时候,看图1:图1是一个word里面记录的信息,如果我想查询出所有人的名字,这个操作是不是就很难搞定了,来来来,配合起来~~,你应该说是的,那我就接着说,有同学可能就会说了,老师我用excel啊,看图2,一列就搞定了,没毛病,但是你想打开操作excel效率低不低。并且通过你自己写的程序来操作这些文件是不是很麻烦

FLWOR query in eXist gives: XML Parsing Error: no root element found

陌路散爱 提交于 2021-02-11 15:14:37
问题 I'm looking to adapt the simplest possible FLWOR possible from BaseX to eXist as below. Error in eXist : XML Parsing Error: no root element found Location: http://localhost:8080/exist/rest/db/scripts/notes.xq Line Number 1, Column 1: Query: xquery version "3.0"; for $note in collection("/db/temp/notes") return $note Collection: <notes> <note> foo </note> <note> bar </note> <note> baz </note> </notes> from BaseX : nicholas@mordor:~/basex$ nicholas@mordor:~/basex$ cat notes.xq xquery version "3

Why does Firefox show: XML Parsing Error: junk after document element?

限于喜欢 提交于 2021-02-11 14:22:57
问题 Error: yet from the console, desired output: nicholas@mordor:~$ nicholas@mordor:~$ curl http://localhost:8080/exist/rest/db/scripts/notes.xq <notes> <note> <to>Tove</to> <from>Jani</from> <heading>Reminder</heading> <body>Don't forget me this weekend!</body> </note> <note> foo </note> <note> bar </note> </notes> <notes> <note> foo </note> <note> bar </note> <note> baz </note> </notes>nicholas@mordor:~$ nicholas@mordor:~$ nicholas@mordor:~$ lynx http://localhost:8080/exist/rest/db/scripts

How to add an XML string to an existing BaseX database?

蓝咒 提交于 2021-02-11 14:10:36
问题 Using org.json and, crucially, JSONArray rather than JSONObject , managed to, seemingly at least, get XML output through Twitter4J . However, it shows as: The Markup In The Document Following The Root Element Must Be Well-formed., Line '1', Column '98'. The Markup In The Document Following The Root Element Must Be Well-formed. When validation is attempted. It does, however, have at least the appearance of XML . Assuming that BaseX will wrangle the XML sufficiently, I'm looking to add the

how to get or acquire tweets as JSON or XML?

扶醉桌前 提交于 2021-02-11 14:08:48
问题 I'm intrigued by BaseX documention on Twitter utilizing a JSON module for converting to XML -- but how was the data acquired? To populate a database with tweets, for similar results, what's most expedient method? (For expediant, read quick-and-dirty without tokens.) 来源: https://stackoverflow.com/questions/58350152/how-to-get-or-acquire-tweets-as-json-or-xml

上海·2020线下年会来了!| MongoDB,More than Document Database.

拟墨画扇 提交于 2021-02-11 13:53:12
2020年MongoDB中文社区年终大会 一起重新认识MongoDB! (2021-1-8 上海线下) DB-Engines是对数据库管理系统的受欢迎程度进行排名的网站,近年来,MongoDB在DB-Engines 数据库流行度排行榜稳居榜单前五,在DB-Engines Ranking上Relational环抱中赫然出现一个Document。 对于MongoDB,不少朋友可能还带着疑惑: MongoDB究竟是一个怎样的存在? 为什么MongoDB可以突破关系型的重围出现在大家的视野之中,并连续几年位居前五? MongoDB仅仅是一个文档型数据库吗? 跟其它数据库相比,MongoDB具有怎样的特性? MongoDB有什么应用场景和解决方案? 2020 跨时代的一年,MongoDB中文社区带大家重新认识 MongoDB。 01 大会速递 MongoDB,More than Document Database. 时间:2021年1月8日(星期五)9:00-17:30 地点:上海市静安区市北高新园区江场三路258号上海市大数据产业基地商务中心三楼宴会厅中厅 大会名额:200名 报名链接: http://hdxu.cn/RInMN *大会优享票:9.9元优享票,联系小芒果领取(微信ID:mongoingcom) 长按识别二维码 添加小芒果微信 并根据提示进行回复获取优惠票 添加后请备注

Recommendation for a Java in memory database [closed]

荒凉一梦 提交于 2021-02-11 13:28:48
问题 Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. Want to improve this question? Update the question so it's on-topic for Stack Overflow. Closed 5 years ago . Improve this question Looking for a recommendation. I have a command line utility that now needs to process a large amount of data coming from a web service in a form of a CSV. I need to run multiple tests on the data to look for anomalies and patterns. I'd like the utility to be

Recommendation for a Java in memory database [closed]

戏子无情 提交于 2021-02-11 13:28:22
问题 Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. Want to improve this question? Update the question so it's on-topic for Stack Overflow. Closed 5 years ago . Improve this question Looking for a recommendation. I have a command line utility that now needs to process a large amount of data coming from a web service in a form of a CSV. I need to run multiple tests on the data to look for anomalies and patterns. I'd like the utility to be