传统大数据存储的架构有哪些?他们有什么特点?
数据源:所有的大数据架构都是从源代码开始的。这可以包括来自数据库的数据、来自实时源(如物联网设备)的数据以及从应用程序生成的静态文件(如Windows日志)。
实时消息接收:如果有实时源,需要在架构中构建一种机制来接收数据。
数据存储:公司需要存储将通过大数据架构处理的数据。一般来说,数据会存储在一个数据湖中,这是一个大型的非结构化数据库,可以很容易地扩展。
批处理和实时处理相结合:公司需要同时处理实时数据和静态数据,因此应该将批处理和实时处理相结合构建到大数据架构中。这是因为批处理可以用来有效处理大量数据,而实时数据需要立即处理才能带来价值。批处理涉及长时间运行的作业,用于筛选、聚合和准备数据以供分析。
分析数据存储:待分析的数据准备好后,需要放在一个地方,方便整个数据集的分析。分析数据存储的必要性是公司的所有数据都聚集在一个地方,所以它的分析会是全面的,优化的是分析而不是交易。
根据公司的需要,这可能采取基于云计算的数据仓库或关系数据库的形式。
分析或报告工具:在接收和处理各种数据源之后,公司需要包含一个用于分析数据的工具。一般来说,公司会使用BI(商业智能)工具来完成这项工作,可能需要数据科学家来探索数据。
“大数据”通常指那些难以收集、处理和分析的庞大数据集,也指那些长期保存在传统基础设施中的数据。大数据存储就是把这些数据集持久化到计算机上。