上一期中,我们回顾了过去一周云计算频道里的热点新闻,本期将继续给大家回顾上周的热点新闻。
谷歌数据分析:一点万亿
谷歌把其最新的数据中心技术作为最重要的商业机密。但有时随着时间的推移,谷歌也很乐意描绘一下他们的技术。
Google基础设施负责人Urs Hölzle表示:“我们试图在不丧失我们竞争优势的前提下,旧能的开放。”今年夏天早些时候,谷歌讨论的研究论文,就偶尔出现了由谷歌提供的一个窥视其内部基础设施的机会。
这些文件往往预示着谷歌其他业务即将发生的事。世界上最重要的开源项目之一Hadoop就起源自谷歌在2003年底和2004年发表的两篇学术论文。其在2010年的一篇论文描述了一个令人震惊的强大的称为Dremel的数据分析工具,催生了一个准备重塑Hadoop的新项目。
因此,在本月早些时候谷歌发表的研究论文中可能透露了未来的一个新业务。该论文描述了一个工具,它只需单击一下鼠标,就能够处理一万亿条信息。据该文件介绍,这个工具比传统数据库的信息分析速度快10到100倍。
什么!美国人也不懂云计算?
在最近的一次调查中显示:大部分的美国用户都不懂云计算是如何运行,更有甚者连云计算是什么都不知道!
受云技术公司Citrix的委托,Wakefield Research完成了这项调查。调查结果表明:许多美国用户都认为云计算是天气方面的,或者枕头、毒品、天空、外太空、及厕纸相关。
尽管如此,这项来自千人以上的研究表明:虽然人们对云计算没有充分的认识,但是他们通常会认识到云计算有着巨大的经济效益并且能推动经济的发展。
当被问及云计算时,29%的人会觉得一大团又白又软的东西,仅有16%的人会把这个词与网络存储、使用互联网设备应用和分享数据联系起来。
云计算的含义被广泛的误解了,调查发现:
- 51%的调查对象,包括千禧年一代(1980-2002)表示暴风雪会受到云计算的干涉。
- 现在有95%的人都通过在线购物、网上银行、社交网络及文件共享来使用云服务,尽管有三分之一的人觉得这可能是未来的事情。
- 59%的人认为“未来的工作场所”将会搬到云上。(PS:这是要他们上帝抢工作吗?)
深入理解Hadoop集群和网络
本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。
Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时,名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分,担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又冲当与他们主节点通信的守护进程。守护进程隶属于Job Tracker,数据节点在归属于名称节点。
Client机器集合了Hadoop上所有的集群设置,但既不包括主节点也不包括从节点。取而代之的是客户端机器的作用是把数据加载到集群中,递交给Map Reduce数据处理工作的描述,并在工作结束后取回或者查看结果。在小的集群中(大约40个节点)可能会面对单物理设备处理多任务,比如同时Job Tracker和名称节点。作为大集群的中间件,一般情况下都是用独立的服务器去处理单个任务。
在真正的产品集群中是没有虚拟服务器和管理层的存在的,这样就没有了多余的性能损耗。Hadoop在Linux系统上运行的最好,直接操作底层硬件设施。这就说明Hadoop实际上是直接在虚拟机上工作。这样在花费、易学性和速度上有着无与伦比的优势。
浅谈Google与VMware十年辉煌背后的人才战略
对于Google和VMware,过去的十年无疑是辉煌的十年。然而他们的成功只是来于自对时机的把握吗?当然不是!Eric Brewer谈到其中的一个原因:从20世纪90年代的后期,两个公司从知名实验室中挖走了世界上最优秀的工程师。
在这之前的30年里,科技巨头实验室(比如AT&T、Xerox、DEC)一直引领着技术的改革很创新。但于千禧年,转折发生!这些巨头的命脉都被送入了那对羽翼未丰的公司。
原加利福尼亚大学计算机科学系教授,现Google帝国的捍卫者,从事科技重设计的Brewer说到,在2001年,那个泡沫毁灭的时代。当所有公司都在忙着裁员的时候(包括DEC),Google和VMware却大开城门,广聘高科技行业英才。正是因为那疯狂的供需不平衡,才让这两个公司都聘用到了一些真正人才。而之所以他们能大展宏图,一部分原因就在这。
MongoDB最新稳定版本2.2发布
MongoDB开发团队10gen的CTO Eliot Horowitz刚刚发表博客,宣布最新的稳定版(可以用于生产环境)MongoDB 2.2已经可以下载。距离上一个稳定版本2.0发布的2011年9月,将近一年。
MongoDB是高性能开源文档数据库,也是目前最受关注的NoSQL技术之一,以敏捷、可扩展和对企业应用友好