oxnr

新手上路 2026-3-3 08:56

主楼

关系数据库管理系统

MySQL 全球最受欢迎的开源数据库。
PostgreSQL 全球最先进的开源数据库。
Oracle Database - 对象关系型数据库管理系统。
Teradata - 高性能 MPP 数据仓库平台。

框架

Bistro - 通用数据处理引擎，支持批处理和流式分析。它基于一种新颖的数据模型，通过 *函数* 表示数据，并通过 *列操作 处理数据，而不同于传统方法（如 MapReduce 或 SQL）仅使用集合操作。

IBM Streams - 分布式处理和实时分析的平台。与大数据生态系统中的许多流行技术（如 Kafka、HDFS、Spark 等）集成。
Apache Hadoop - 分布式处理框架。集成了 MapReduce（并行处理）、YARN（作业调度）和 HDFS（分布式文件系统）。
Tigon - 高吞吐量实时流处理框架。
Pachyderm - Pachyderm 是一个基于 Docker 和 Kubernetes 的数据存储平台，提供可重复的数据处理和分析。
Polyaxon - 一个用于可重复和可扩展机器学习和深度学习的平台。
Smooks - 一个可扩展的 Java 框架，用于构建 XML 和非 XML（CSV、EDI、Java 等）流应用程序。

分布式编程

AddThis Hydra - 由 AddThis 最初开发的分布式数据处理和存储系统。
AMPLab SIMR - 在 Hadoop MapReduce v1 上运行 Spark。
Apache APEX - 一个统一的、企业级的大数据流和批处理平台。
Apache Beam - 一个统一模型和一系列特定于语言的 SDK，用于定义和执行数据处理工作流。
Apache Crunch - 一个简单的 Java API，用于执行像连接和数据聚合这样在纯 MapReduce 上实现起来很繁琐的任务。
Apache DataFu - 由 LinkedIn 开发的一系列用户定义函数，用于 Hadoop 和 Pig。
Apache Flink - 高性能运行时和自动程序优化。
Apache Gearpump - 基于 Akka 的实时大数据流处理引擎。
Apache Gora - 内存数据模型和持久化框架。
Apache Hama - BSP（批量同步并行）计算框架。
Apache MapReduce - 在集群上使用并行、分布式算法处理大型数据集的编程模型。
Apache Pig - 一种用于 Hadoop 的数据分析程序的高级语言。
Apache REEF - 一种可保留的评估器执行框架，用于简化和统一大数据系统的底层。
Apache S4 - 一种流处理框架，S4 的实现。
Apache Spark - 一种内存内集群计算框架。
Apache Spark Streaming - 流处理框架，Spark 的一部分。
Apache Storm - 由 Twitter 开发的流处理框架，也支持 YARN。
Apache Samza - 基于 Kafka 和 YARN 的流处理框架。
Apache Tez - 用于执行复杂有向无环图（DAG）任务的应用程序框架，基于 YARN。
Apache Twill - 对 YARN 的抽象，降低了开发分布式应用的复杂性。
Baidu Bigflow - 一个允许编写分布式计算程序的接口，提供大量简单、灵活、强大的 API，轻松处理任意规模的数据。
Cascalog - 数据处理和查询库。
Cheetah - 基于 MapReduce 的高性能、自定义数据仓库。
并发级联 - 用于 Hadoop 数据管理/分析的框架。
Damballa Parkour - Clojure 的 MapReduce 库。
Datasalt Pangool - 另一种 MapReduce 范式。
DataTorrent StrAM - 实时引擎旨在尽可能无阻塞地实现分布式、异步的实时内存大数据计算，具有最小的开销和对性能的影响。
Facebook Corona - Hadoop 增强功能，消除了单点故障。
Facebook Peregrine - Map Reduce 框架。
Facebook Scuba - 分布式内存数据存储。
Google Dataflow - 创建数据管道以帮助他们摄取、转换和分析数据。
Google MapReduce - MapReduce 框架。
Google MillWheel - 容错流处理框架。
IBM Streams - 用于分布式处理和实时分析的平台。提供开箱即用的先进分析工具包，如地理空间、时间序列等。
JAQL - 用于处理结构化、半结构化和非结构化数据的声明式编程语言。
Kite - 是一套专注于简化在 Hadoop 生态系统之上构建系统的库、工具、示例和文档。
Metamarkets Druid - 大数据集实时分析框架。
Netflix PigPen - 用于 Clojure 的 map-reduce，编译为 Apache Pig。
Nokia Disco - 由诺基亚开发的 MapReduce 框架。
Onyx - 云计算的分布式计算。
Pinterest Pinlater - 异步任务执行系统。
Pydoop - 用于 Hadoop 的 Python MapReduce 和 HDFS API。
Ray - 用于构建和运行分布式应用的快速简单框架。
Rackerlabs Blueflood - 多租户分布式指标处理系统
Skale - NodeJS 中的高性能分布式数据处理。
Stratosphere - 通用集群计算框架。
Streamdrill - 适用于跨不同时间窗口统计事件流活动并找出最活跃的一个。
streamsx.topology - 用于在 Java、Python 或 Scala 中构建 IBM Streams 应用的库。
Tuktu - 易于使用的批处理和流计算平台，使用 Scala、Akka 和 Play 构建！
Twitter Heron - Heron 是来自 Twitter 的实时、分布式、容错流处理引擎，取代了 Storm。
Twitter Scalding - 基于 Cascading 构建的用于 Map Reduce 任务的 Scala 库。
Twitter Summingbird - 由 Twitter 开发的基于 Scalding 和 Storm 的流式 MapReduce。
Twitter TSAR - 由 Twitter 开发的时序数据聚合器。
Wallaroo - 超快速且可扩展的数据处理引擎。大数据或高速数据 - 无需烦恼，无需 Java。

分布式文件系统

Ambry - 一个分布式对象存储系统，支持存储万亿个小型不可变对象以及数十亿个大型对象。
Apache HDFS - 一种在多台机器上存储大型文件的方法。
Apache Kudu - Hadoop 的存储层，以实现快速数据上的快速分析。
BeeGFS - 曾称为 FhGFS，并行分布式文件系统。
Ceph 文件系统 - 设计的软件存储平台。
Disco DDFS - 分布式文件系统。
Facebook Haystack - 对象存储系统。
Google GFS - 分布式文件系统。
Google Megastore - 可扩展、高可用的存储。
GridGain - GGFS，兼容 Hadoop 的内存文件系统。
Lustre 文件系统 - 高性能分布式文件系统。
Microsoft Azure Data Lake Store - Azure 云中的 HDFS 兼容存储。
Quantcast File System QFS - 开源分布式文件系统。
Red Hat GlusterFS - 可扩展网络附加存储文件系统。
Seaweed-FS - 简单且高度可扩展的分布式文件系统。
Alluxio - 在集群框架中实现内存速度级别的可靠文件共享。
Tahoe-LAFS - 去中心化云存储系统。
Baidu File System - 分布式文件系统。

分布式索引

Pilosa 开源分布式位图索引，可显著加速跨多个大规模数据集的查询。

文档数据模型

Actian Versant - 商业面向对象数据库管理系统。
Crate Data - 是一个开源的、可大规模扩展的数据存储。它无需管理。
Facebook Apollo - Facebook 的类似 Paxos 的 NoSQL 数据库。
jumboDB - 基于 Hadoop 的文档型数据存储。
LinkedIn Espresso - 水平可扩展的文档型 NoSQL 数据存储。
MarkLogic - 无模式企业级 NoSQL 数据库技术。
Microsoft Azure DocumentDB - 支持 MongoDB 协议的 NoSQL 云数据库服务。
MongoDB - 面向文档的数据库系统。
RavenDB - 一个事务性的、开源的文档数据库。
RethinkDB - 支持类似表连接和分组查询的文档数据库。

关键映射数据模型

注意：行业内存在一些术语混淆，"列式数据库"这个名称被用于指代两种不同的事物。其中一些（此处列出）是围绕"键映射"数据模型构建的分布式、持久化数据库：所有数据都有一个（可能是复合的）键，与之关联的是一个键值对映射。在某些系统中，多个这样的值映射可以与一个键相关联，这些映射被称为"列族"（值映射键被称为"列"）。
另一组技术也可以被称为"列式数据库"，其区别在于数据存储方式，即存储在磁盘上还是内存中——与传统方式不同（传统方式是将给定键的所有列值按行依次存储），这些系统将所有*列*值按列依次存储。因此，获取给定键的所有列需要更多的工作，但获取给定列的所有值需要较少的工作。
前一组在此处被称为"键映射数据模型"。它们与键值数据模型存储之间的界限相当模糊。
后者更关注存储格式而非数据模型，因此被列在列式数据库下。
您可以在 Daniel Abadi 教授的博客上了解更多关于这一区别的内容：区分两种主要的列式存储类型。

Apache Accumulo - 分布式键值存储，基于 Hadoop 构建。
Apache Cassandra - 列式分布式数据存储，受 BigTable 启发。
Apache HBase - 列式分布式数据存储，受 BigTable 启发。
Baidu Tera - 一种互联网规模数据库，受 BigTable 启发。
Facebook HydraBase - 由 Facebook 开发的 HBase 进化版本。
Google BigTable - 列式分布式数据存储。
Google Cloud Datastore - 是一个完全托管的、无模式的数据库，用于在 BigTable 上存储非关系型数据。
Hypertable - 列式分布式数据存储，受 BigTable 启发。
InfiniDB - 通过 MySQL 接口访问，并使用大规模并行处理来并行化查询。
Tephra - HBase 的事务。
Twitter Manhattan - 针对 Twitter 规模的实时、多租户分布式数据库。
ScyllaDB - C++编写的列式分布式数据存储，完全兼容 Apache Cassandra。

键值数据模型

Aerospike - NoSQL 闪存优化、内存内。开源，"服务器代码用'C'编写（不是 Java 或 Erlang），精确调优以避免上下文切换和内存复制。"
Amazon DynamoDB - 分布式键值存储，Dynamo 论文实现。
Badger - 一种快速、简单、高效且持久的键值存储，用 Go 原生编写。
Bolt - Go 语言的嵌入式键值数据库。
BTDB - .Net 中的键值数据库，具有对象数据库层、RPC、动态 IL 等功能。
BuntDB - 一个快速、可嵌入的内存键值数据库，适用于 Go，支持自定义索引和地理空间功能。
Edis - 兼容 Redis 协议的服务器替代品。
ElephantDB - 专门用于从 Hadoop 导出数据的分布式数据库。
EventStore - 分布式时间序列数据库。
GhostDB - 一个分布式、内存中、通用的键值数据存储，在任何规模下都能提供微秒级性能。
Graviton - 一个简单、快速、版本化、认证的、可嵌入的键值存储数据库，使用纯 Go 语言编写。
GridDB - 适用于存储时间序列的传感器数据。
HyperDex - 一个可扩展的下一代键值和文档存储，具有广泛的功能，包括一致性、容错和高性能。
Ignite - 是一个内存中的键值数据存储，提供完全符合 SQL 的数据访问，可以选择性地由磁盘存储支持。
LinkedIn Krati - 是一个简单的持久化数据存储，具有非常低的延迟和高吞吐量。
Linkedin Voldemort - 分布式键/值存储系统。
Oracle NoSQL Database - 由 Oracle 公司提供的分布式键值数据库。
Redis - 内存键值数据存储。
Riak - 一种分布式数据存储。
Storehaus - 由 Twitter 开发的用于处理异步键值存储的库。
SummitDB - 一种内存中的 NoSQL 键/值数据库，具有磁盘持久化功能，并使用 Raft 共识算法。
Tarantool - 一个高效的 NoSQL 数据库和 Lua 应用服务器。
TiKV - 一个由 Rust 驱动的分布式键值数据库，受 Google Spanner 和 HBase 启发。
Tile38 - 一个地理位置数据存储、空间索引和实时地理围栏，支持多种对象类型，包括经纬度点、边界框、XYZ 瓦片、Geohash 和 GeoJSON。
TreodeDB - 一个复制和分片的键值存储，提供原子多行写入。

图数据模型

Actionbase - 用户交互数据库（点赞、观看、关注），预计算读取，支持 HBase。
AgensGraph - 适用于现代复杂数据环境的下一代多模型图数据库。
Apache Giraph - Pregel 的实现，基于 Hadoop。
Apache Spark Bagel - Pregel 的实现，Spark 的一部分。
ArangoDB - 多模型分布式数据库。
DGraph - 一个可扩展的、分布式的、低延迟、高吞吐量的图数据库，旨在提供 Google 生产级别的规模和吞吐量，延迟足够低，可以服务于实时用户查询，处理 TB 级别的结构化数据。
EliasDB - 一个轻量级的基于图的数据库，不需要任何第三方库。
Facebook TAO - TAO 是 Facebook 广泛使用的分布式数据存储，用于存储和提供社交图谱。
GCHQ Gaffer - GCHQ 的 Gaffer 是一个框架，可以轻松存储大规模的图，其中节点和边具有统计数据。
Google Cayley - 开源图数据库。
Google Pregel - 图处理框架。
GraphLab PowerGraph - 基于 GraphLab API 构建的核心 C++ 图处理 API，以及高性能机器学习和数据挖掘工具集。
GraphX - Spark 上的弹性分布式图系统。
Gremlin - 图遍历语言。
Infovore - RDF 中心化的 Map/Reduce 框架。
Intel GraphBuilder - 在 Hadoop 之上构建大规模图的工具。
JanusGraph - 开源、分布式图数据库

支持多种存储后端选项（Bigtable、HBase、Cassandra 等）
以及多种索引后端选项（Elasticsearch、Solr、Lucene）。

MapGraph - 基于 GPU 的大规模并行图处理。
Microsoft Graph Engine - 一个分布式内存数据处理引擎，基于强类型内存键值存储和通用分布式计算引擎。
Neo4j - 完全用 Java 编写的图数据库。
OrientDB - 文档和图数据库。
Phoebus - 大规模图处理框架。
Titan - 基于 Cassandra 构建的分布式图数据库。
Twitter FlockDB - 分布式图数据库。
NodeXL - 一个免费的、开源的 Microsoft® Excel® 2007、2010、2013 和 2016 模板，使探索网络图变得容易。

列式数据库

注意请阅读键映射数据模型部分的说明。

列式存储 - 列式存储的解释以及你可能需要它的时机。
Actian Vector - 列式分析数据库。
ClickHouse - 一个开源的列式数据库管理系统，允许实时生成分析数据报告。
EventQL - 一个分布式列式数据库，专为大规模事件收集和分析而构建。
MonetDB - 列式存储数据库。
Parquet - Hadoop 的列式存储格式。
Pivotal Greenplum - 专为分析而设计的专用分析数据仓库，提供列式引擎以及传统的行式引擎。
Vertica - 设计用于管理大量快速增长的数据，并在用作数据仓库时提供非常快的查询性能。
SQream DB - 一款基于 GPU 的大数据数据库，专为分析和数据仓库设计，符合 ANSI-92 标准 SQL，适用于 10TB 到 1PB 的数据集。
Google BigQuery - 背靠其在 Dremel 上的开创性工作，谷歌提供的云服务。
Amazon Redshift - 亚马逊的云服务，同样基于列式数据存储后端。
IndexR - 一种开源的列式存储格式，用于大数据的快速和实时分析。
LocustDB - 一个实验性的分析数据库，旨在为商用硬件上的查询性能设定新标准。

NewSQL 数据库

Actian Ingres - 商业支持、开源的 SQL 关系型数据库管理系统。
ActorDB - 一种分布式 SQL 数据库，具有 KV 存储的可扩展性，同时保留关系型数据库的查询能力。
Amazon RedShift - 数据仓库服务，基于 PostgreSQL。
BayesDB - 以统计为导向的 SQL 数据库。
Bedrock - 基于 SQLite 构建，简单、模块化、网络化和分布式事务层。
CitusDB - 通过分片和复制扩展 PostgreSQL。
Cockroach - 可扩展、地理复制、事务性数据存储。
Comdb2 - 基于乐观并发控制技术构建的集群式 RDBMS。
Datomic - 分布式数据库，旨在实现可扩展、灵活和智能的应用。
FoundationDB - 分布式数据库，受 F1 启发。
Google F1 - 基于 Spanner 构建的分布式 SQL 数据库。
Google Spanner - 全球分布式半关系型数据库。
H-Store - 是一个针对在线事务处理（OLTP）应用优化的实验性主存并行数据库管理系统。
Haeinsa - 基于 Percolator 的线性可扩展多行多表事务库，适用于 HBase。
HandlerSocket - MySQL/MariaDB 的非关系型数据库插件。
InfiniSQL - 无限可扩展的关系型数据库管理系统。
KarelDB - 基于 Apache Kafka 的关系型数据库。
Map-D - GPU 内存数据库，大数据分析和可视化平台。
MemSQL - 内存 SQL 数据库，具有针对闪存的优化列式存储。
NuoDB - 符合 SQL/ACID 的分布式数据库。
Oracle TimesTen 在内存数据库 - 在内存中，关系型数据库管理系统，具有持久性和可恢复性。
Pivotal GemFire XD - 低延迟，在内存中，分布式 SQL 数据存储。提供 SQL 接口到内存表数据，可持久化到 HDFS。
SAP HANA - 是一个在内存中，列式，关系型数据库管理系统。
SenseiDB - 分布式，实时，半结构化数据库。
Sky - 用于灵活、高性能分析行为数据的数据库。
SymmetricDS - 用于文件和数据库同步的开源软件。
TiDB - TiDB 是一个分布式 SQL 数据库。灵感来源于 Google F1 的设计。
VoltDB - 声称是最快的内存数据库。
yugabyteDB - 开源、高性能、分布式 SQL 数据库，兼容 PostgreSQL。

时间序列数据库

Axibase Time Series Database - 基于 HBase 集成的时间序列数据库，内置可视化、规则引擎和 SQL 支持。
Chronix - 用于高度压缩存储时间序列和快速访问时间序列存储。
Cube - 使用 MongoDB 存储时间序列数据。
Heroic - 基于 Cassandra 和 Elasticsearch 的可扩展时间序列数据库。
InfluxDB - 优化了 IO 和查询的时间序列数据库，支持 pgsql 和 influx 线路协议。
QuestDB - 高性能、开源的 SQL 数据库，适用于金融服务、物联网、机器学习、DevOps 和可观察性应用。
IronDB - 可扩展的通用时间序列数据库。
Kairosdb - 类似于 OpenTSDB，但允许使用 Cassandra。
M3DB - 一个分布式时间序列数据库，可用于存储长期保留的实时指标。
Newts - 基于 Apache Cassandra 的时间序列数据库。
TDengine - 一种使用 C 语言编写的时间序列数据库，利用物联网的独特特性来提高读写吞吐量并减少数据存储所需的空间
OpenTSDB - 基于 HBase 的分布式时间序列数据库。
Prometheus - 一种时间序列数据库和服务监控系统。
Beringei - Facebook 的内存时间序列数据库。
TrailDB - 一个用于存储和查询事件序列的高效工具。
Druid 列式分布式数据存储，非常适合为交互式应用程序提供支持。
Riak-TS Riak TS 是唯一一个专为物联网和时间序列数据优化的企业级 NoSQL 时间序列数据库。
Akumuli Akumuli 是一个数值时间序列数据库。它可以用于实时捕获、存储和处理时间序列数据。"akumuli" 这个词可以从 esperanto 语中翻译为"accumulate"（累积）。
Rhombus 一个用于 Cassandra 的时间序列对象存储，处理构建宽行索引的所有复杂性。
Dalmatiner DB 快速分布式指标数据库
Blueflood 一个分布式系统，设计用于摄取和处理时间序列数据
Timely Timely 是一个基于 Accumulo 和 Grafana 的时间序列数据库应用程序，提供对时间序列数据的 secure 访问。
SiriDB 高可扩展、健壮且快速，具有集群功能的开源时间序列数据库。
Thanos - Thanos 是一组组件，用于创建具有无限存储容量的高可用度指标系统，使用多个（现有的）Prometheus 部署。
VictoriaMetrics - 快速、可扩展且资源高效的、与 Prometheus 兼容的开源 TSDB。包含单节点和集群版本。

类 SQL 处理

Actian SQL for Hadoop - 高性能交互式 SQL 访问所有 Hadoop 数据。
Apache Drill - 交互式分析框架，受 Dremel 启发。
Apache HCatalog - Hadoop 的表和存储管理层。
Apache Hive - Hadoop 的类 SQL 数据仓库系统。
Apache Calcite - 一个允许高效翻译涉及异构和联邦数据的查询的框架。
Apache Phoenix - HBase 上的 SQL 接口。
Aster Database - 用于 MapReduce 的类似 SQL 的分析处理。
Cloudera Impala - 交互式分析的框架，受 Dremel 启发。
Concurrent Lingual - Cascading 的 SQL 类查询语言。
Datasalt Splout SQL - 大数据集的全 SQL 查询引擎。
Dremio - 基于 Apache Arrow 的开源、SQL 类数据即服务平台。
Facebook PrestoDB - 分布式 SQL 查询引擎。
Google BigQuery - 交互式分析框架，Dremel 的实现。
Iceberg - 用于大型分析数据集的开源表格式。Iceberg 为 Trino 和 Spark 添加了表，这些表使用高性能格式，就像 SQL 表一样工作。
Materialize - 是用于实时应用的流式数据库，使用 SQL 进行查询，并支持 PostgreSQL 的大部分功能。
Invantive SQL - 用于在线和本地使用的 SQL 引擎，集成了本地数据复制和 70 多个连接器。
PipelineDB - 一个开源的关系型数据库，可以在数据流上持续运行 SQL 查询，并将结果增量存储在表中。
Pivotal HDB - Hadoop 用的 SQL 类似的数据仓库系统。
RainstorDB - 用于存储 PB 级结构化和半结构化数据的数据库。
Spark Catalyst - 是 Spark 和 Shark 的查询优化框架。
SparkSQL - 使用 Spark 操作结构化数据。
Splice Machine - 具有全面功能的 Hadoop SQL 关系数据库管理系统，支持 ACID 事务。
Stinger - Hive 的交互式查询。
Tajo - 基于 Hadoop 的分布式数据仓库系统。
Trafodion - 面向大数据交易或操作工作负载的企业级 SQL-on-HBase 解决方案。

数据摄取

redpanda - 适用于关键系统的 Kafka®替代品；速度提升 10 倍。使用 C++编写。
Amazon Kinesis - 大规模实时处理流数据。
Amazon Web Services Glue - 无服务完全管理的提取、转换和加载（ETL）服务
Census - 一种反向 ETL 产品，可让您将数据从数据仓库同步到 SaaS 应用程序。无需工程支持——只需 SQL。
Apache Chukwa - 数据收集系统。
Apache Flume - 管理大量日志数据的服务。
Apache Kafka - 分布式发布-订阅消息系统。
Apache NiFi - Apache NiFi 是一个集成化数据物流平台，用于自动化不同系统之间的数据传输。
Apache Pulsar - 一个具有非常灵活的消息模型和直观客户端 API 的分布式发布-订阅消息平台。
Apache Sqoop - 用于在 Hadoop 和结构化数据存储之间传输数据的工具。
Embulk - 开源批量数据加载工具，帮助在不同数据库、存储、文件格式和云服务之间进行数据传输。
Estuary - 基于 Gazette 的 SaaS 平台，具有即插即用的连接器。
Facebook Scribe - 流式日志数据聚合器。
Fluentd - 收集事件和日志的工具。
Gazette - 基于云存储构建的分布式流式基础设施，使得混合和匹配批处理和流式处理范式变得容易。
Google Photon - 地理上分布的系统，用于实时高可扩展性和低延迟地连接多个连续流动的数据流。
Heka - 开源流处理软件系统。
HIHO - 用于连接异构数据源的 Hadoop 框架。
Kestrel - 分布式消息队列系统。
LinkedIn Databus - 数据库变更捕获事件流。
LinkedIn Kamikaze - 用于压缩排序整数数组的工具包。
LinkedIn White Elephant - 日志聚合器和仪表板。
Logstash - 一个用于管理事件和日志的工具。
Netflix Suro - 基于 Chukwa 的 Storm 和 Samza 类似的日志聚合器。
Pinterest Secor - 实现 Kafka 日志持久化的服务。
Linkedin Gobblin - 链接子的通用数据摄取框架。
Skizze - 用于处理计数和绘图相关问题的概率数据结构草图数据存储。
StreamSets Data Collector - 具有简单易用 IDE 的连续大数据摄取基础设施。
Alooma - 数据管道即服务，能够将 MySQL 等数据源迁移到数据仓库。
RudderStack - 基于 Go 语言编写的开源客户数据基础设施（segment、mParticle 替代方案）。
Zilla - 一个为事件驱动架构和流而构建的 API 网关，支持 HTTP、SSE、gRPC、MQTT 和原生 Kafka 协议等标准协议。

服务编程

Akka Toolkit - JVM 上用于分布式和容错事件驱动应用程序的运行时。
Apache Avro - 数据序列化系统。
Apache Curator - Apache ZooKeeper 的 Java 库。
Apache Karaf - 任何 OSGi 框架之上的 OSGi 运行时。
Apache Thrift - 构建二进制协议的框架。
Apache Zookeeper - 进程管理的集中式服务。
Google Chubby - 一种用于松散耦合分布式系统的锁服务。
Hydrosphere Mist - 一种服务，用于将 Apache Spark 分析作业和机器学习模型作为实时、批量或反应式 Web 服务公开。
Linkedin Norbert - 集群管理器。
Mara - 一种轻量级的、有主见的 ETL 框架，介于纯脚本和 Apache Airflow 之间。
OpenMPI - 消息传递框架。
Serf - 服务发现和编排的去中心化解决方案。
Spotify Luigi - 用于构建复杂批处理作业管道的 Python 包。它处理依赖关系解析、工作流管理、可视化、处理失败、命令行集成等更多功能。
Spring XD - 用于数据摄取、实时分析、批处理和数据导出的分布式和可扩展系统。
Twitter Elephant Bird - 用于处理 LZOP 压缩数据的库。
Twitter Finagle - JVM 的异步网络栈。

调度

Apache Airflow - 一个用于编程式编写、调度和监控工作流的平台。
Apache Aurora - 是在 Apache Mesos 之上运行的服务调度器。
Apache Falcon - 数据管理框架。
Apache Oozie - 工作流作业调度器。
Azure Data Factory - 用于本地、云和 HDInsight 的云端管道编排。
Chronos - 分布式和容错的调度器。
Cronicle - 分布式，易于安装，基于 NodeJS 的任务调度器
Dagster - 用于机器学习、分析和 ETL 的数据编排器。
Linkedin Azkaban - 批处理工作流作业调度器。
Schedoscope - 用于敏捷调度 Hadoop 作业的 Scala DSL。
Sparrow - 调度平台。

机器学习

Azure ML Studio - 基于云的 AzureML、R、Python 机器学习平台。
brain - JavaScript 中的神经网络。
Oryx - 基于 Apache Spark 的 Lambda 架构，使用 Apache Kafka 进行实时大规模机器学习。
Concurrent Pattern - Cascading 的机器学习库。
convnetjs - JavaScript 中的深度学习。在您的浏览器中训练卷积神经网络（或普通的神经网络）。
DataVec - 用于 Java 和 Scala 深度学习的向量化及数据预处理库。Deeplearning4j 生态系统的一部分。
Deeplearning4j - JVM（Java、Scala、Clojure）上的快速、开源深度学习。一个由 C++库支持的神经网络配置层。使用 Spark 和 Hadoop 在多个 GPU 和 CPU 上训练网络。
Decider - Ruby 中的灵活且可扩展的机器学习。
ENCOG - 支持多种高级算法的机器学习框架，以及用于归一化和处理数据的支持类。
etcML - 基于机器学习的文本分类。
Etsy Conjecture - Scalding 中的可扩展机器学习。
Feast - 用于管理、发现和访问机器学习特征的特性存储。Feast 为模型训练和模型服务提供一致的特性数据视图。
GraphLab Create - 一个基于 Python 的机器学习平台，包含广泛的机器学习工具包、数据工程和部署工具。
H2O - 基于 Hadoop 的统计、机器学习和数学运行时。支持 R 和 Python。
Karate Club - 一个用于图结构数据的无监督机器学习库。Python
Keras - 一个受 Torch 启发的直观神经网络 API，运行在 Theano 和 Tensorflow 之上。
Lambdo - Lambdo 是一个工作流引擎，通过统一特征工程和机器学习操作，显著简化了分析过程。
Little Ball of Fur - 一个用于图结构数据的子采样库。Python
Mahout - Apache 支持的 Hadoop 机器学习库。
MLbase - BDAS 堆栈的分布式机器学习库。
MLPNeuralNet - 用于 iOS 和 Mac OS X 的快速多层感知器神经网络库。
ML Workspace - 专为机器学习和数据科学设计的全功能 Web IDE。
MOA - MOA 实时执行大数据流挖掘和大规模机器学习。
MonkeyLearn - 文本挖掘变得简单。从文本中提取和分类数据。
ND4J - JVM 的矩阵库。Java 的 Numpy。
nupic - Numenta 智能计算平台：一个受大脑启发的机器智能平台，以及基于皮质学习算法的生物精确神经网络。
PredictionIO - 基于 Hadoop、Mahout 和 Cascading 构建的机器学习服务器。
PyTorch Geometric Temporal - PyTorch Geometric 的时间扩展库。
RL4J - 用于 Java 和 Scala 的强化学习。包括深度 Q 学习和 A3C 算法，并与 Open AI 的 Gym 集成。运行在 Deeplearning4j 生态系统中。
SAMOA - 分布式流式机器学习框架。
scikit-learn - scikit-learn：Python 中的机器学习。
Shapley - 一个数据驱动的框架，用于量化机器学习集成中分类器的价值。
Spark MLlib - Spark 中一些常见机器学习（ML）功能的实现。
Sibyl - Google 的大规模机器学习系统。
TensorFlow - Google 的机器学习数据流图库。
Theano - 由蒙特利尔大学支持的 Python 机器学习库。
Torch - 由纽约大学和 Facebook 支持的具有 Lua API 的深度学习库。
Velox - 用于提供机器学习预测的系统。
Vowpal Wabbit - 由微软和雅虎赞助的学习系统。
WEKA - 一套机器学习软件。
BidMach - CPU 和 GPU 加速的机器学习库。

基准测试

Apache Hadoop Benchmarking - 用于测试 Hadoop 性能的微基准测试。
Berkeley SWIM Benchmark - 真实世界的大数据工作负载基准测试。
Estuary Benchmark Report - 可重复、供应商中立的数据仓库基准测试。
Intel HiBench - 一个 Hadoop 基准测试套件。
PUMA Benchmarking - MapReduce 应用程序的基准测试套件。
Yahoo Gridmix3 - 来自 Yahoo 工程师团队的 Hadoop 集群基准测试。
Deeplearning4j Benchmarks
UCSB - 扩展 Yahoo 云服务基准测试的 NoSQL 数据库。

安全性

Apache Ranger - Hadoop 的中央安全管理与细粒度授权
Apache Eagle - 实时监控解决方案
Apache Knox Gateway - Hadoop 集群的单点安全访问。
Apache Sentry - Hadoop 中存储数据的安全模块。
BDA - Hadoop 和 Spark 的漏洞检测器

系统部署

Apache Ambari - Hadoop 管理的操作框架。
Apache Bigtop - Hadoop 生态系统的系统部署框架。
Apache Helix - 集群管理框架。
Apache Mesos - 集群管理器。
Apache Slider - 是一个 YARN 应用程序，用于在 YARN 上部署现有的分布式应用程序。
Apache Whirr - 一套用于运行云服务的库。
Apache YARN - 集群管理器。
Brooklyn - 简化应用部署和管理的库。
Buildoop - 基于 Groovy 语言，类似于 Apache BigTop。
Cloudera HUE - 用于与 Hadoop 交互的 Web 应用。
Facebook Prism - 多数据中心复制系统。
Google Borg - 任务调度和监控系统。
Google Omega - 任务调度和监控系统。
Hortonworks HOYA - 可以在 YARN 上部署 HBase 集群的应用程序。
Kubernetes - 一种用于自动化部署、扩展和管理容器化应用程序的系统。
Marathon - Mesos 框架用于长运行服务。
Linkis - Linkis 帮助轻松连接到各种后端计算/存储引擎。

应用

411 - 一个用于管理由 Elasticsearch 计划搜索产生的警报的 Web 应用程序。
Adobe spindle - 基于 Scala、Spark 和 Parquet 的下一代网络分析处理。
Apache Metron - 集成多种开源大数据技术的平台，提供集中的安全监控和分析工具。
Apache Nutch - 开源网络爬虫。
Apache OODT - 用于 NASA 科学档案的数据捕获、处理和共享。
Apache Tika - 内容分析工具包。
Argus - 时间序列监控和告警平台。
AthenaX - 一个流式分析平台，使用结构化查询语言（SQL）让用户能够运行生产级的大规模流式分析。
Atlas - 一个用于管理维度时间序列数据的后端。
Countly - 开源移动和网页分析平台，基于 Node.js & MongoDB。
Comet - Comet 为 AI 开发者提供端到端的模型评估平台，拥有业界领先的 LLM 评估、实验跟踪和生产监控功能。
Domino - 无需任何基础设施即可运行、扩展、共享和部署模型。
Eclipse BIRT - 基于 Eclipse 的报表系统。
ElastAert - ElastAlert 是一个用于从 ElasticSearch 中的数据中检测异常、峰值或其他感兴趣模式的简单框架。
Eventhub - 开源事件分析平台。
HASH - 开源模拟和可视化平台。
Hermes - 基于 Kafka 构建的无状态消息代理。
Hunk - Splunk Hadoop 分析工具。
Imhotep - indeed 公司的大型分析平台。
Indicative - 支持 Web 和移动设备的分析工具，具有数据仓库（AWS、BigQuery）集成功能。
Jupyter - 跨所有编程语言的交互式数据科学和科学计算笔记本及项目应用。
MADlib - RDBMS 数据处理库，用于数据分析。
Kapacitor - 用于处理、监控和警报时间序列数据的开源框架。
Kylin - 来自 eBay 的开源分布式分析引擎。
PivotalR - 在 Pivotal HD / HAWQ 和 PostgreSQL 上的 R。
Opik - 使用全面的跟踪、自动评估和生产就绪的仪表板来调试、评估和监控您的 LLM 应用、RAG 系统和代理工作流。
Rakam - 由 Postgresql、Kinesis 和 PrestoDB 支持的开源实时自定义分析平台。
Qubole - 自动扩展的 Hadoop 集群，内置数据连接器。
SnappyData - 用于实时运营分析的分内存数据存储，在单个集成集群上提供流分析、OLTP（在线事务处理）和 OLAP（在线分析处理），基于 Spark 构建。
Snowplow - 企业级网络和事件分析，由 Hadoop、Kinesis、Redshift 和 Postgres 支持。
SparkR - Spark 的 R 前端。
Splunk - 机器生成数据的分析器。
Sumo Logic - 基于云的机器生成数据分析器。
Substation - Substation 是一款用 Go 编写的云原生数据管道和转换工具包。
Talend - 统一的开放源码环境，支持 YARN、Hadoop、HBASE、Hive、HCatalog & Pig。

搜索引擎和框架

Apache Lucene - 搜索引擎库。
Apache Solr - Apache Lucene 的搜索平台。
Elassandra - 是 Elasticsearch 的分支，修改后在 Apache Cassandra 上的可扩展和弹性点对点架构上运行。
ElasticSearch - 基于 Apache Lucene 的搜索和分析引擎。
Enigma.io – 免费增值的强大网络应用程序，用于探索、过滤、分析、搜索和导出从整个网络抓取的大量数据集。
Google Caffeine - 持续索引系统。
Google Percolator - 持续索引系统。
HBase Coprocessor - Percolator 的实现，HBase 的一部分。
Lily HBase Indexer - 快速轻松地搜索存储在 HBase 中的任何内容。
LinkedIn Bobo - 是一个用纯 Java 编写的面向方面搜索实现，是 Apache Lucene 的扩展。
LinkedIn Cleo - 是一个灵活的软件库，用于快速开发部分、乱序和实时类型前搜索。
LinkedIn Galene - LinkedIn 的搜索架构。
LinkedIn Zoie - 是一个用 Java 编写的实时搜索/索引系统。
MG4J - MG4J（Java 管理大型数据集）是一个用 Java 编写的全文搜索引擎。它高度可定制，高性能，并提供最先进的特性和新的研究算法。
Sphinx Search Server - 全文搜索引擎。
Vespa - 是一个用于低延迟计算大型数据集的引擎。它存储和索引您的数据，以便在服务时间执行对数据的查询、选择和处理。
Facebook Faiss - 是一个用于高效相似性搜索和密集向量聚类的库。它包含在任意大小的向量集中进行搜索的算法，甚至可能不适合 RAM 的算法。它还包含用于评估和参数调整的辅助代码。Faiss 是用 C++编写的，并带有完整的 Python/numpy 包装器。
Annoy - 是一个具有 Python 绑定的 C++ 库，用于搜索空间中与给定查询点接近的点。它还创建基于文件的大型只读数据结构，这些数据结构被映射到内存中，以便多个进程可以共享相同的数据。
Weaviate - Weaviate 是一个基于 GraphQL 的语义搜索引擎，内置（词）嵌入。

MySQL 分叉和演进

Amazon RDS - 亚马逊云中的 MySQL 数据库。
Drizzle - MySQL 6.0 的演进版本。
Google Cloud SQL - Google 云端的 MySQL 数据库。
MariaDB - MySQL 的增强版，可即插即用的替代品。
MySQL Cluster - 使用 NDB Cluster 存储引擎的 MySQL 实现。
Percona Server - MySQL 的增强型、即插即用的替代品。
ProxySQL - MySQL 的高性能代理。
TokuDB - TokuDB 是 MySQL 和 MariaDB 的存储引擎。
WebScaleSQL - 是由多家面临类似 MySQL 大规模运行挑战的工程师合作的项目。

PostgreSQL 分叉和演进

HadoopDB - MapReduce 和 DBMS 的混合。
IBM Netezza - 高性能数据仓库设备。
Postgres-XL - 可扩展的开源 PostgreSQL 基于数据库集群。
RecDB - 完全构建在 PostgreSQL 内部的开源推荐引擎。
Stado - 专门针对数据仓库和数据集市应用的开源 MPP 数据库系统。
Yahoo Everest - 基于 PostgreSQL 的多 petabyte 数据库 / MPP。
TimescaleDB - 专为快速数据摄取和复杂查询优化的开源时序数据库。
PipelineDB - 流式 SQL 数据库。一个开源的关系型数据库，可以在数据流上持续运行 SQL 查询，并将结果增量存储在表中

Memcached 分支与演进

Facebook McDipper - 闪存存储的键/值缓存。
Facebook Memcached - Memcache 的分支。
Twemproxy - memcached 和 redis 的快速、轻量级代理。
Twitter Fatcache - 闪存存储的键值缓存。
Twitter Twemcache - Memcache 的分支。

嵌入式数据库

Actian PSQL - 由 Pervasive Software 开发的符合 ACID 的 DBMS，针对嵌入应用程序进行了优化。
BerkeleyDB - 提供高性能键值数据嵌入式数据库的软件库。
HanoiDB - Erlang LSM BTree 存储。
LevelDB - 由 Google 编写的高性能键值存储库，提供从字符串键到字符串值的有序映射。
LMDB - 由 Symas 开发的超快速、超紧凑的键值嵌入式数据存储。
RocksDB - 基于 LevelDB 的快速存储嵌入式持久键值存储。

商业智能

BIME Analytics - 云端商业智能平台。
Blazer - 让商业智能变得简单。
Chartio - 用于可视化和探索数据的精益商业智能平台。
Count - 基于笔记本的分析和可视化平台，支持 SQL 或拖放操作。
datapine - 云端自助式商业智能工具。
Dekart - 基于 Kepler.gl 的 Google BigQuery 大规模地理空间分析。
GoodData - 数据产品和嵌入式分析的平台。
Jaspersoft - 强大的商业智能套件。
Jedox Palo - 可定制的商业智能平台。
Jethrodata - 交互式大数据分析。
intermix.io - 亚马逊 Redshift 性能监控
Lightdash - 基于 dbt 构建的开源 Looker 替代方案
Metabase - 让公司里的每个人都能最简单、最快地获取商业智能和分析。
Microsoft - 商业智能软件和平台。
Microstrategy - 用于商业智能、移动智能和网络应用的软件平台。
Numeracy - 快速、简洁的 SQL 客户端和商业智能。
Pentaho - 商业智能平台。
Qlik - 商业智能和分析平台。
Redash - 开源商业智能平台，支持多种数据源和计划查询。
Saiku Analytics - 开源分析平台。
Knowage - 开源商业智能平台。（前身为 SpagoBi）
SparklineData SNAP - 由 Apache Spark 驱动的现代 B.I 平台。
Tableau - 商业智能平台。
Zoomdata - 大数据分析。

数据可视化

Airpal - PrestoDB 的 Web UI。
AnyChart - 快速、简单且灵活的 JavaScript（HTML5）图表库，具有纯 JavaScript API。
Arbor - 使用 Web Workers 和 jQuery 的图形可视化库。
Banana - 可视化存储在 Solr 中的日志和时间戳数据。Kibana 的移植版本。
Bloomery - Impala 的 Web UI。
Bokeh - 一个强大的 Python 交互式可视化库，旨在为现代网络浏览器呈现，目标是提供类似 D3.js 风格的优雅、简洁的新图形构建方式，同时也能在非常大的或流式数据集上以高性能交互性交付此功能。
C3 - 基于 D3 的可重用图表库
CartoDB - 开源或付费订阅的地理空间数据库托管服务，具有强大的前端编辑功能和稳健的 API。
chartd - 响应式、支持视网膜显示的图表，只需一个 img 标签。
Chart.js - 开源 HTML5 图表可视化。
Chartist.js - 另一个开源 HTML5 图表可视化。
Crossfilter - 用于在浏览器中探索大型多元数据集的 JavaScript 库。与 dc.js 和 d3.js 兼容。
Cubism - 用于时间序列可视化的 JavaScript 库。
Cytoscape - 用于可视化复杂网络的 JavaScript 库。
DC.js - 为 crossfilter 原生渲染而构建的维度图表库，使用 d3.js 构建。非常适合将图表/附加元数据连接到 D3 的悬停事件。
D3 - 用于操作文档的 JavaScript 库。
D3.compose - 从可重用的图表和组件中组合复杂的、数据驱动的可视化。
D3Plus - d3.js 的一套相当强大的可重用图表和样式。
Dash - 用于 Python、R、Julia 和 Jupyter 的分析型 Web 应用。基于 plotly 构建，无需 JS
Dekart - 基于 Kepler.gl 的 Google BigQuery 大规模地理空间分析。
DevExtreme React Chart - 基于插件的、高性能的 React 图表，适用于 Bootstrap 和 Material Design。
Echarts - 百度的企业级图表。
Envisionjs - 动态 HTML5 可视化。
FnordMetric - 编写 SQL 查询以返回 SVG 图表而不是表格。
Frappe Charts - GitHub 风格的简单现代 SVG 图表，适用于网络，零依赖。
Freeboard - 开源实时仪表板构建器，适用于 IOT 和其他网络混合应用。
Gephi - 一款获奖的开源平台，用于可视化和操作大型图和网络连接。它就像 Photoshop，但用于图表。支持 Windows 和 Mac OS X。
Google Charts - 简单的图表 API。
Grafana - graphite 仪表盘前端、编辑器和图形组合器。
Graphite - 可扩展的实时图形。
Highcharts - 简单且灵活的图表 API。
IPython - 提供丰富的交互式计算架构。
Kibana - 可视化日志和时间戳数据
Lumify - 开源大数据分析和可视化平台
Matplotlib - 使用 Python 进行绘图。
Metricsgraphic.js - 基于 D3 构建的库，针对时间序列数据进行了优化
NVD3 - d3.js 的图表组件。
Peity - 逐步生成的 SVG 条形图、折线图和饼图。
Plot.ly - 一个易于使用的网络服务，允许快速创建复杂图表，从热图到直方图。上传数据以使用 Plotly 的在线电子表格创建和样式化图表。可以复制他人的图表。
Plotly.js - 驱动 Plotly 的开源 JavaScript 图形库。
Recline - 简单但功能强大的库，用于使用纯 JavaScript 和 HTML 构建数据应用程序。
Redash - 开源平台，用于查询和可视化数据。
ReCharts - 基于 React 组件的可组合图表库。
Shiny - R 语言的 Web 应用程序框架。
Sigma.js - 用于图形绘制的 JavaScript 库。
Superset - 一个可视化、直观且交互式的数据探索平台，易于切片、切块和可视化数据，并快速进行数据分析。
Vega - 一种可视化语法。
Zeppelin - 一种笔记本式的协作数据分析工具。
Zing Charts - 用于大数据的 JavaScript 图表库。
DataSphere Studio - 一站式数据应用开发管理门户。

物联网和传感器数据

Apache Edgent (Incubating) - 一种编程模型和微内核风格的运行时，可以嵌入网关和小型边缘设备中，实现边缘设备的本地实时分析。
Azure IoT Hub - 基于云的双向监控和消息中心
TempoIQ - 基于云的传感器分析。
2lemetry - 物联网平台。
Pubnub - 数据流网络
ThingWorx - 快速开发和连接智能系统
IFTTT - If this then that
Evrything - 使产品智能化
NetLytics - 在 Spark 上处理网络数据的分析平台
Ably - 用于物联网的发布/订阅消息平台

有趣的阅读

Big Data Benchmark - Redshift、Hive、Shark、Impala 和 Stiger/Tez 的基准测试。
NoSQL Comparison - Cassandra 与 MongoDB、CouchDB、Redis、Riak、HBase、Couchbase、Neo4j、Hypertable、ElasticSearch、Accumulo、VoltDB 和 Scalaris 的比较。
监控 Kafka 性能 - 监控 Apache Kafka 的指南，包括指标收集的原生方法。
监控 Hadoop 性能 - 监控 Hadoop 的指南，概述 Hadoop 架构，以及指标收集的原生方法。
监控 Cassandra 性能 - 监控 Cassandra 的指南，包括指标收集的原生方法。

有趣的论文

2015 - 2016

2015 - Facebook - One Trillion Edges: Facebook 规模图处理.

2013 - 2014

2014 - Stanford - 大数据挖掘.
2013 - AMPLab - Presto: 基于稀疏矩阵的分布式机器学习与图处理.
2013 - AMPLab - MLbase: 一个分布式机器学习系统.
2013 - AMPLab - Shark: 大规模 SQL 和丰富分析。
2013 - AMPLab - GraphX: 基于 Spark 的弹性分布式图系统。
2013 - Google - HyperLogLog 在实践中：最先进基数估计算法的算法工程。
2013 - Microsoft - 云中大数据的可扩展渐进式分析。
2013 - Metamarkets - Druid: 一个实时分析数据存储。
2013 - Google - F1: F1 中的在线、异步模式更改。
2013 - Google - F1: 一个可扩展的分布式 SQL 数据库。
2013 - Google - MillWheel: 互联网规模的容错流处理。
2013 - Facebook - Scuba: Facebook 中的数据探索。
2013 - Facebook - Unicorn: 社交图谱搜索系统。
2013 - Facebook - Facebook 中的 Memcache 扩展。

2011 - 2012

2012 - Twitter - 统一日志基础设施。

为推特的数据分析工作。

2012 - AMPLab - Blink and It’s Done: 大数据上的交互式查询。
2012 - AMPLab - 使用 Spark 在大数据上进行快速和交互式分析。
2012 - AMPLab - Shark：使用粗粒度分布式内存进行快速数据分析。
2012 - Microsoft - 以 Paxos 复制状态机为基础的高性能数据存储。
2012 - Microsoft - 使 Paxos 并行化。
2012 - AMPLab - BlinkDB：在超大数据上进行有界错误和有界响应时间的查询。
2012 - Google - 每次鼠标点击处理万亿个单元格。
2012 - Google - Spanner: Google 的全球分布式数据库。
2011 - AMPLab - Scarlett: 应对 MapReduce 集群中倾斜流行度内容的解决方案。
2011 - AMPLab - Mesos: 数据中心细粒度资源共享的平台。
2011 - Google - Megastore: 为交互式服务提供可扩展、高可用的存储。

2001 - 2010

2010 - Facebook - 在干草堆中找针：Facebook 的照片存储。
2010 - AMPLab - Spark：使用工作集的集群计算。
2010 - Google - Pregel：一个大规模图处理系统。
2010 - Google - 使用分布式事务和 Percolator 及 Caffeine 的通知基础进行大规模增量处理。
2010 - Google - Dremel: Web 规模数据集的交互式分析。
2010 - Yahoo - S4: 分布式流计算平台。
2009 - HadoopDB: 针对分析工作负载的 MapReduce 和 DBMS 技术架构混合。
2008 - AMPLab - Chukwa: 大规模监控系统。
2007 - Amazon - Dynamo: Amazon 的极高可用性键值存储。
2006 - Google - The Chubby 锁服务用于松散耦合的分布式系统。
2006 - Google - Bigtable: 一种用于结构化数据的分布式存储系统。
2004 - Google - MapReduce: 在大型集群上进行简化的数据处理。
2003 - Google - Google 文件系统。

视频

Spark in Motion - Spark in Motion 教你如何使用 Spark 进行批处理和流式数据分析。
Machine Learning, Data Science and Deep Learning with Python - LiveVideo 教程，涵盖机器学习、Tensorflow、人工智能和神经网络。
数据仓库模式设计 - 维度建模和星型模式 - 使用星型模式方法介绍数据仓库的模式设计。
Elasticsearch 7 和 Elastic Stack - LiveVideo 教程，涵盖在 Elasticsearch、Logstash、Beats、Kibana 等集群上搜索、分析和可视化大数据。

书籍

流式

使用 Python 和 Dask 进行大规模数据科学 - 使用 Python 和 Dask 进行大规模数据科学教你如何构建可以处理海量数据的分布式数据项目。
流数据 - 流数据介绍了流式和实时数据系统的概念和要求。
Storm 应用 - Storm 应用是一本实用指南，介绍了如何使用 Apache Storm 进行实时数据流处理和分析的现实任务。
流处理基础：应用设计、系统和分析 - 这本综合性的实践指南结合了流处理的基本构建模块和新兴研究，非常适合应用设计师、系统构建者、分析开发者，以及该领域的学生和研究人员。
流数据处理：服务质量视角 - 提出了一种适用于流和复杂事件处理的新范式。
统一日志处理 - 统一日志处理是一本实用指南，教你如何在业务中实现事件流（Kafka 或 Kinesis）的统一日志。
Kafka Streams in Action - Kafka Streams in Action 教你如何实现流处理，让你能够专注于从数据中获取更多价值，而无需牺牲时间或精力。
大数据 - 大数据教你如何使用一个能够利用集群硬件以及专门设计用于捕获和分析 Web 规模数据的新工具来构建大数据系统。
Spark in Action & Spark in Action 2nd Ed. - Spark in Action 教你有效处理批处理和流式数据所需的 Spark 理论和技能。完全更新至 Spark 2.0 版本。
Kafka in Action - Kafka in Action 是一本快速介绍你需要掌握的 Kafka 所有方面的书籍，以真正从中获益。
Fusion in Action - Fusion in Action 教你构建一个功能齐全的数据分析管道，包括文档和数据搜索以及分布式数据聚类。
Reactive Data Handling - Reactive Data Handling 是由 Manuel Bernhardt 精心挑选的五章内容合集，向你介绍如何构建能够处理实时处理和大数据负载的响应式应用程序——免费电子书！
Azure Data Engineering - 一本关于数据工程的一般知识和 Azure 平台的书籍
Grokking Streaming Systems - Grokking Streaming Systems 帮助你理解流式系统是什么，它们如何工作，以及它们是否适合你的业务。本书旨在工具无关，无论你选择哪个框架，你都能应用所学知识。

分布式系统

Distributed Systems for fun and profit – 分布式系统理论。包括关于时间与顺序、复制和不可能结果的部分。

基于图的方法

图驱动的机器学习 - Alessandro Negro。结合图论和模型来改进机器学习项目

数据可视化

回复点赞举报

精选大数据框架资源宝典

关系数据库管理系统

框架

分布式编程

分布式文件系统

分布式索引

文档数据模型

关键映射数据模型

键值数据模型

图数据模型

列式数据库

NewSQL 数据库

时间序列数据库

类 SQL 处理

数据摄取

服务编程

调度

机器学习

基准测试

安全性

系统部署

应用

搜索引擎和框架

MySQL 分叉和演进

PostgreSQL 分叉和演进

Memcached 分支与演进

嵌入式数据库

商业智能

数据可视化

物联网和传感器数据

有趣的阅读

有趣的论文

2015 - 2016

2013 - 2014

2011 - 2012

2001 - 2010

视频

书籍

流式

分布式系统

基于图的方法

数据可视化