linux – 是否有类似“有状态”备份的东西?

我在生物信息学方面工作,我们存储了许多永远不会改变的非常大的文件 – 植物基因组,基因组读取等.我们不断收到这种类型的新数据,我们的备份大小正在爆炸式增长.

在我看来,一直备份这些大文件是没有意义的,三到五次就足够了.是否有类似“有状态”备份的东西存储哪些文件已经“安全”(已经在5个磁带上,使用可能的文件哈希)然后只备份其余的?

我在谷歌上搜索,什么也没发现.

谢谢!

最佳答案
通常,这可以通过增量备份(备份自上次备份以来的所有文件)或差异备份(自上次完全备份以来的所有文件)来解决. Gnu Tar手册(第5.2和5.3节)简要讨论了这些类型的备份.但是,这并不能解决您希望每个文件的最小份数的问题.

另一个选择,如果你想在每个备份上获得系统的精确快照,但仍然节省空间,那就是使用rsync快照备份(谷歌搜索rsync快照,有几篇文章和工具可以实现这一点).基本上,这使用rsync来复制到远程系统(或外部驱动器),并使用硬链接来防止在每次备份之间不改变的文件,以节省空间.要获得多个副本,您可以将备份驱动器rsync到另一个备份驱动器.

但是,如果您希望这一切都发生在磁带上,我唯一知道的是Tivoli等商业备份工具.您可能会考虑Bacula,我认为它也支持保留最少数量的副本,但我还没有使用过那个.

一些即将推出的东西,是我自己一直在努力的备份工具.我需要整理一些文档并清理代码,然后再将它放在github上,但基本上它是快照式的增量备份 – 永久备份,通过MD5哈希跟踪文件,并存储快照的目录系统看起来像每个备份.作为副作用,它还可以在将多个主机备份到单个备份服务器时执行文件级重复数据删除.如果你有兴趣,我会稍后回来并在我上传这个工具的初始版本后更新这篇文章(假设这里没有违反政策推广你自己的项目 – 如果是的话,我很抱歉).

转载注明原文:linux – 是否有类似“有状态”备份的东西? - 代码日志