Skip to main content

未提供项目描述

项目描述

https://travis-ci.org/internetarchive/trough.svg?branch=master

大数据,小数据库。

大数据实际上只是大量的小数据。

如果你将一个大型数据集拆分为多个小型 SQL 数据库,这些数据库在一个精心选择的键上分片,它们可以协同工作以创建一个可以查询非常大数据集的数据库系统。

最坏情况下的性能很重要

处理大型数据集时的一个关键见解是,使用单体大数据工具的性能在很大程度上与完整加载完整数据集并在生产质量集群中工作有关。

Trough 被设计为具有非常可预测的性能特征:只需确定您的分片键,确定您的最大分片,将其加载到本地的 sqlite 数据库中,您就已经知道最坏的性能场景。

旨在利用存储,而不是 RAM

Trough 依赖于扁平的 sqlite 文件,而不是需要巨大的 CPU 和内存来对大型数据集提供高性能查询,这些文件很容易分发到集群并进行查询。

可靠的零件,可靠的整体

堆栈中的每一项技术都经过精心挑选和负载测试,以确保您的数据可靠地保持正常运行和可靠地可查询。代码足够小,可供一名程序员审核。

易于安装

建立大数据系统最糟糕的部分之一通常是设置合理的默认值并将其部署到登台和生产环境。槽的设计要求尽可能少的配置。

一个示例 ansible 部署规范已从 trough 存储库中删除,但可以在https://github.com/internetarchive/trough/tree/cc32d3771a7/ansible找到。它专为集群 Ubuntu 16.04 Xenial 节点而设计。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

Trough-0.2.0.tar.gz (34.5 kB 查看哈希

已上传 source

内置分布

Trough-0.2.0-py3-none-any.whl (39.2 kB 查看哈希

已上传 py3