常用大数据术语(中英对照精简版 --个人整理)
一、大数据
英文: big data , mega data
大数据, 或称巨量资料, 指的是需要新处理模式才能具有更强的决策力、 洞察发现力和流程
优化能力的海量、高增长率和多样化的信息资产。
二、大数据的 4V :
Volume (大量)、Velocity (高速)、Variety (多样)、Value (价值)
三、当前用于分析大数据的工具主要有开源与商用两个生态圈
开源大数据生态圈:
1、Hadoop HDFS、HadoopMapReduce, Hba
se、Hive 渐次诞生,早期 Hadoop 生态圈逐步形
成。
2 、. Hypertable 是另类。它存在于 Hadoop 生态圈之外,但也曾经有一些用户。
3 、NoSQL,memba
se 、Mo
ngoDb
商用大数据生态圈:
1、一体机数据库 / 数据仓库: IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2 、数据仓库: TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3 、数据集市: QlikView 、 Tableau 、 以及国内的 Yo
nghong Data Mart 。
四、 Hadoop
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下, 开发分布式程序。 充分利用集群的威力进行高
速运算和存储。
Hadoop 实现了一个分布式文件系统( Hadoop Distributed File System ),简称 HDFS。HDFS有
高容错性的特点, 并且设计用来部署在低廉的 (low-cost )硬件上; 而且它提供高吞吐量 (high
throughput )来访问应用程序的数据,适合那些有着超大数据集( large data set )的应用程
序。 HDFS放宽了( relax )POSIX的要求,可以以流的形式访问( streaming access )文件系统
中的数据。
Hadoop 的框架最核心的设计就是: HDFS和 MapReduce 。HDFS为海量的数据提供了存储,
则 MapReduce 为海量的数据提供了计算。
五、 Apache 基金会
Apache 软件基金会(也就是 Apache Software Foundation ,简称为 ASF),是专门为支持开源
软件项目而办的一个非盈利性组织。在它所支持的 Apache 项目与子项目中,所发行的软件
产品都遵循 Apache 许可证( Apache License)。
六、 MapReduce
MapReduce 是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。概念” Map (映
射)”和” Reduce (归约)”,和它们的主要思想,都是从函数式编程语言里借来的,还有从
矢量编程语言里借来的特性。 它极大地方便了编程人员在不会分布式并行编程的情况下, 将
自己的程序运行在分布式系统上。 当前的软件实现是指定一个 Map (映射)函数,用来把
一组键值对映射成一组新的键值对,指定并发的 Reduce (归约)函数,用来保证所有映射
的键值对中的每一个共享相同的键组。
七、 BI
商业智能( BI,Business Intelligence )。
BI (Business Intelligence )即商务智能,它是一套完整的解决方案,用来将企业中现有的数
据进行有效的整合, 快速准确的提供报表并提出决策依据, 帮助企业做出明智的业务经营决
策。
八、 CRM