首页 > 代码库 > 关于现在的实习生活

关于现在的实习生活

最近收获:

如果一个公司有针对简单数据的基于关键字(key)的存储和检索的需求,他们可以选择来自系统领域的key-value存储系统。作为选择,他们也可以采用依靠应用程序级的“分片”,通过人工的(哈希)分割他们的数据仓库,通过多个开源的Mysql或者PostGres数据库实例来检索他们的数据。


实习公司现状:

目前使用像网站(Web)拓扑信息以及用户的查询历史,来提供更精确的查询结果,以及随着查询结果的精确定位广告显示,以提高搜索结果的价值,同时将单机5.0亿条数据查询速度提高到30s.

为了应对web量级存储的挑战,在HDFS的基础上创建File System。提供了系统级字节流的客户端抽象来操作文件,它可以操作极其巨大的文件,这些文件的内容可以分布在数百台无共享集群的机器上,并且这些机器非常廉价。

公司在面对着具有批量风格(batch-style)半结构化数据分析的挑战,较早的进入了hadoop的世界,正在尝试接触更多开源的技术。



看到过一句经典的话分享下“并行数据库系统就像洋葱。他们在内部分层,但用户只能在外面把它看做一个整体(SQL)。如果你想把他们分开,你就会流眼泪T_T。”


关于现在的实习生活