时事通讯




大数据说明

“大数据”代表了用于存储,分析和利用信息资产的技术和技术的范式转变。在本专栏中,我们跟踪Hadoop,NoSQL和Data Science等技术的进度,并了解他们如何彻底改变数据库管理,商业惯例和我们日常生活。



看到NoSQL运动从“我们不需要讨厌的SQL”的态度转变为“我可以有一些SQL吗?”的哲学是很有趣的。过去8年出现的非关系数据库最初不提供SQL功能。然而,今天我们对“NoSQL”有一个尴尬的SQL选项。Hive为Hadoop系统提供SQL, Spark有SparkSQL, MongoDB有基于SQL的BI连接器,等等。

发布于2016年12月1日

多年来,Cassandra一直以其处理大规模扩展和全球可用性的能力而闻名。基于Amazon的Dynamo, Cassandra实现了一个无主架构,允许数据库事务继续,即使当数据库受到大规模网络或数据中心中断。即使在两个地理上独立的数据中心因网络中断而完全隔离的情况下,Cassandra数据库也可以继续在两个地理位置上运行,在中断解决后协调冲突的事务(尽管可能不完全)。

发表于2016年10月7日

迄今为止,迄今为止,MongoDB可以说是今天增长最快的数据库技术。MongoDB的快速增长主要是推动其对开发人员的吸引力。通过使用JavaScript对象符号(JSON)文档作为本机数据库格式,MongoDB减少了程序代码和数据库之间的阻抗不匹配,允许更灵活和快速的应用程序开发。

发布于2016年8月4日

对于那些还没有遇到过这个术语的人来说,“幻灭的低谷”是Gartner炒作周期中的一个标准阶段。人们期望新技术能从“期望膨胀的顶峰”通过幻灭的低谷,最终达到“生产力的高原”。预计大多数新技术都将经历这一低谷,所以大数据进入这一阶段并不令人意外。

发表于2016年6月09日

它几乎是硅谷的标准职业道路:一位才华横溢的工程师在一个更大的组织内创造了一个有价值的开源软件商品,然后将该公司创建一个新的启动以将开源产品商业化。实际上,这几乎是硅谷的热闹HBO喜剧系列的情节线。Jay Krepes,LinkedIn和NoSQL数据库系统的voldemort的知名工程师,voldemort,有这样一个故事。

发布于2016年3月31日

不管你怎么评价甲骨文,它肯定不能被指责没有与时俱进。通常情况下,甲骨文(Oracle)在技术聚会上来得晚,但却打扮得很漂亮。

发布于2016年2月10日

它通常被断言 - 并且普遍接受 - “单尺寸适合”数据库的时代结束。我们希望企业将使用数据库技术的组合来满足各种应用架构创建的不同需求。

发表于2015年12月02日

有相当多的数据库竞争NoSQL的“王”。MongoDB声称拥有增长最快的NoSQL数据库生态系统,MarkLogic声称是唯一的Enterprise NoSQL数据库,而其他数据库声称是最快或最具可扩展性的系统。

发表于2015年10月7日

在非关系数据库爆炸后不久,2009年左右,显而易见的是,而不是作为问题的一部分,SQL将继续成为解决方案的一部分。如果新浪潮数据库系统排除了大量的SQL识字专业人士,那么他们将阻碍他们在商业世界的摄取。此外,整个生商智能工具使用SQL作为将用户信息请求转换为数据库查询的常用方式。对于SQL采用的驱动器来说比Hadoop的情况更清楚。

发布于2015年8月10日

毫无疑问,非关系系统的新浪潮代表了数据库技术的一场重要而必要的革命。但是,尽管我们需要避免拘泥于过去的技术,并不断创新,但忽视历史的教训绝不是一个好主意。

发表于2015年6月9日

虽然新的数据存储和其他软件组件通常是开源的,很少或没有许可成本,但新堆栈的体系结构变得越来越复杂,这种复杂性对规模较小的组织采用这种技术造成了障碍。

发表于2015年4月06日

在阅读Hadoop的一些新闻报道后,可能会宽恕有人新的大数据和Hadoop的人。一方面,Hadoop已经在主流媒体上实现了很好的看涨覆盖范围。然而,在这种正覆盖范围内,已经有许多权利要求Hadoop被覆盖。什么是所有这些混合信息的人?

发表于2015年2月11日

在非关系数据库中引入增强的事务能力是有意义的——就像在Hadoop和许多其他非关系存储之上提供SQL层是有意义的。但是它确实提高了关系系统和非关系系统融合的可能性。毕竟,如果我使用一个非关系数据库并添加SQL和ACID事务,我是否仍然得到一个非关系数据库,还是回到了关系模型?

发布于2014年12月3日

大数据革命的一个特征是确认,单个数据库管理系统架构无法满足所有需求。然而,Lambda架构提供了一种用于组合多个大数据技术来实现多种企业目标的有用模式。首先由Nathan Marz提出,它试图提供一种技术的组合,其中可以提供可以满足可用性,可维护性和容错的要求的网络级系统的特性。

发表于2014年10月8日

大数据的先驱,如谷歌,亚马逊和eBay,从他们的核心操作产生了“数据排气”,这足以让它们创建数据驱动的过程自动化。但是,对于较小的企业来说,数据可能是稀缺的商品。因此,数据市场的出现。

发表于2014年8月05日

大数据分析是一个复杂的领域,但如果你了解基本概念——比如监督式学习和非监督式学习的区别——你肯定会在下次鸡尾酒会上领先于那些想要谈论数据科学的人!

发表于2014年6月11日

大约3年前,AMP(算法,机器,人)实验室成立于U.C.伯克利攻击大数据上先进分析和机器学习的新出现挑战。由此产生的伯克利数据分析堆栈 - 特别是火花加工发动机 - 已经显示出快速的摄取和巨大的承诺。

发表于2014年4月4日

固态磁盘(SSD)——特别是闪存SSD——承诺通过提供比磁盘快几个数量级的存储介质来彻底改变数据库性能,这是几十年来磁盘I/O延迟的第一次显著改善。Aerospike是一个NoSQL数据库,试图提供一个数据库架构,可以充分利用闪存SSD的I/O特性。

发布于2014年2月10日