Cassandra文件系统

根据轻快的实现方式[Cassandra SF中的演示]-Cassandra,CFS,作业/任务跟踪程序和Hive Metastore在单个JVM中运行,这与配置独立的hadoop集群完全不同.

这是优势吗?

如果Task Tracker或JVM中的任何单个进程失败,该怎么办?这会影响同一JVM中的cassandra实例吗?

CFS如何获取数据?是将SSTables存储为子块还是它的副本?子块的压缩在哪里完成?

问候,
泰米尔语

最佳答案
Brisk的确在单个JVM中运行所有功能,但是在不相互影响的独立线程中运行.跟踪器在专用节点上运行,但是没有单点故障.可以选择任何节点来运行跟踪器,并且所有状态都将保留到Cassandra集群中.

所有这些都在同一个JVM中的优点在于,将数据从Cassandra移到Hadoop代码中没有复制和序列化开销.

CassandraFS将64MB HDFS块分成2MB块,并将它们作为列存储在Cassandra中,每个块一行.文件本身映射到inode列族中的块行UUID列表.

转载注明原文:Cassandra文件系统 - 代码日志