混混小说网

手机浏览器扫描二维码访问

第200章 0201 大数据时代(第2页)

自己必须拿出完全体来对付这帮同样有梦想的年轻人!

宁子默自信地笑笑,乘着抿一口咖啡的时间在脑子里将峰语搜索的关键技术汇集成册。

把杯子从嘴边拿开的时候,宁子默脑子里有关峰语搜索关键技术的封印,

已然打开!

“说到搜索,人们往往会简单地认为搜索只是抓取爬虫从网络上抓取的结果。但实际上,搜索并没有人们想象的那么简单。”

宁子默将杯子轻轻地放在桌上,笑着扫了三人一眼,细细地解释到:

“我们谈到大数据搜索,其核心一定是体量极大的数据量。这种体量的数据存储、索引和检索,已经不单单是数据库结构能去实现并解决的。

大数据量的数据存储和搜索一定要有对应的文件存储检索系统,它必定是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。

我们【bing】除了在搜索和爬虫上用心外,最核心的部分还是背后那套围绕在bfs(bingfilesystem)文件系统的核心技术体。这套系统的设计目标,与许多传统的分布式文件系统有很多相同之处。比如,性能、可伸缩性、可靠性以及可用性。

但bfs的还是以应用负载情况和技术环境的分析为基础着重考虑,不管现在还是将来,bfs和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。

首先,组件失效被认为是常态而不是意外。bfs需要管理成百上千存储机器,同时被相当数量的用户终端机访问。bfs组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。

当我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在gfs中。

其次,以通常的标准衡量,我们的文件非常巨大。数gb文件都可能非常普遍。每个文件通常都包含许多应用程序对象,比如web文档。

当我们未来需要处理快速增长并由数亿个对象构成的、数以tb的数据集时,采用管理数亿个kb大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。因此,设计的假设条件和参数,比如io操作和block的尺寸都需要重新考虑。

第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。对文件的随机写入操作在实际中几乎不存在。一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。

大量的数据符合这些特性,比如:数据分析程序扫描的超大的数据集;正在运行的应用程序生成的连续的数据流;存档的数据;由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。

对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。

第四,应用程序和文件系统api的协同设计提高了整个系统的灵活性。比如,我们放松了对bfs一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了bfs的设计。

bfs还引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。”

端起咖啡又喝了一口,宁子默已经习惯了身边这四人目瞪狗呆的状态。

放下杯子,宁子默再也懒得去解释那些技术细节,但还是提点到:

“bfs一早就规划了四大核心技术体,其中涵盖了第一个部分的分布式基础设施,包含的模块有文件系统(file),分布式锁服务(chubby)和数据化序列协议(protocolbuffer)。

而第二部分是分布式大规模数据处理模块,其中包含分布式运算程序的编程框架和对应的数据查询语言。他们或许和sql和类似,但实际上它应该被称之为dsl(domain-specificlanguage)。

第三部分则是分布式数据库技术,它包含的模块就有分布式数据存储系统(bigtable)和数据库分区系统(sharding)。

最后一部分当然包含数据中心优化技术,这些技术中包括综合考虑的数据中心高温化,还有电池与服务器相应整合技术等。”

撇了撇嘴,宁子默皱着眉头说,“搜索引擎是一个全盘技术的考虑,但我仅仅只举了一个很简单的例子,并且其应用范围还只是在网页搜索结果当中,并没有提及一整个生态的整体考虑。

但我所说技术方面的内容,远比我现在讲给你们听的内容要复杂的多。每一个单项里都会包含大量工作人员相应的工作成果,确实不是短期内可以去实现的。

但好在我们【bing】团队的目标明确啊。”

“梦想还是要有的,万一实现了呢?”宁子默撇着嘴挑了挑眉毛。

这个轻挑的动作,在kaltix三人组的眼里却郑重如斯。

办公室里鸦雀无声,除了必要的眨眼,好半天都没有一个人有多余的动作。

离宫记  时间停止器  他是支理大人  未来的男朋友被我作没了怎么办!  有别(NPH)(原名:《普通大学生》)  如何死出铁骨美感[快穿]  在末世BOSS面前刷脸卡363天之后  前妻归来,总裁靠边站  单身狗的春天  这个野怪有点强  乍见之欢  有缝  淡荡春光  情滞幻野【简体中文】  [GL]余生为期  大宋的最强纨绔子弟  剑三系统带你飞  大明帝师  穿成七零锦鲤富贵命  约么?我说吃饭  

热门小说推荐
全家读心被迫吃瓜,我喝奶躺赢

全家读心被迫吃瓜,我喝奶躺赢

阳盛阴衰的萧夏家终于迎来了三代里唯一的女娃娃!一出生就有爹娘哥哥哄着,就连重女轻男在家里一锤定音的奶奶捧在手心宠爱。锦鲤附身的夏清月简直遇到了王者开局,她负责吐槽吃瓜。全家负责偷听改名,逆袭旺全家。有她的领导,大哥顺利成为镇北侯,二哥登阁拜相,那个贪财如命的小哥哥,都成了全城首富。面对全家的团宠,小锦鲤直呼,受不住...

农门娇妻:拐个相公来种田

农门娇妻:拐个相公来种田

农门娇妻拐个相公来种田简介emspemsp见过倒霉没?你肯定见过,但是你绝对没有见过我这么倒霉的!见过醉酒没?你肯定见过,但是你肯定没有想过睁开眼的时候,自己居然要被人烧死。意外来得太快,还不等我适应过来,现实不仅给了我一巴掌,还嫌不够...

从武庚纪打开洪荒世界

从武庚纪打开洪荒世界

在星星有泪寒风凛凛的夜晚,鬼魅森林中,他苍白的脸上木无表情,对于周围无数的死亡眼神不闻不问,他乱舞狂刀屠神族铁血无双战圣王穷凶极恶杀神眼逆天而行斩玄冥纵横天下称霸王,然后开始大吃四方,并在美丽的幻岛随风起舞。ps本书前半部分是武庚纪世界,后半部分是洪荒世界。欢迎加入藍螢流光,QQ群号码1032945195如果您喜欢从武庚纪打开洪荒世界,别忘记分享给朋友...

我的外挂太狠了

我的外挂太狠了

大王,这是上好的宝物,可以觉醒天赋!大王,这是天地奇物,可以觉醒天赋神通!大王,这是龙血!张远张口吞下,然后长叹一口气,耳边适时传来声音。叮!灵力值+10000叮!灵力值+1000000叮!灵力值+10000000我的外挂太狠了!张远看着水中长得平平无奇的自己,内心里感慨万千。实力强大又如何?统领万里疆域又如何?震慑群雄又如何?称王称霸又如何?麾下拥有无数走狗又如何?自己终究还是平平无奇啊五米高的身材,在这灵气复苏的巨兽时代,微不足道。张远退下了数十米高的走狗,无神地看着湛蓝色天空。叮!灵力值+10该死!!张远心中古井无波的骂了一句,然后昏昏然睡了下去。如果您喜欢我的外挂太狠了,别忘记分享给朋友...

人鬼殊途

人鬼殊途

人鬼殊途简介emspemsp我叫江道陵,原名江凯。六岁的时候,我被过路的阴兵打伤了腿,差点变成了瘸子,直到遇到一个游方的老和尚,老和尚治好了我的腿,并收我为徒,可是自此以后,我的眼睛居然可以看到鬼原┊创┇文┊章wоо⒙νiρ﹝Wσ...

凰女之海棠无香

凰女之海棠无香

从现在开始,你没有资格拥有名字,你的代号叫‘海棠’。海棠无香,明明与梅花桃花樱花比肩,却被世人遗忘。一场突如其来的变故,她失去了所有的家人。姑娘,你命数本不该如此,如今只是到了回归正轨的时候,歇息吧。事到如今在说些什么啊?我要成为第一杀手,我要去找到他,然后杀了他!她不愿,抗过了沙漠,她活了下来!可最终她还是逃不过命。再次睁眼也许是吹过的风将那美得不可思议的白发撩乱或是刚刚发生的事情所导致,此刻的眼前人,在她眼中成了前生今世所见过最美的画面。如果您喜欢凰女之海棠无香,别忘记分享给朋友...

每日热搜小说推荐