大数据涉及的关键技术是什么 这些领域你了解多少

|2018-03-21 14:09:35

  相对于动辄TB级别的数据,计算程序一般在KB – MB量级,这种移动计算不移动数据的设计节约了大量网络带宽和时间,并使得运算过程可充分并行化。
 


 

  在其诞生后的近10年里,Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。

 

  Storm

 

  Hadoop虽好,却有其“死穴”.其一:它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。

 

  因此,Twitter推出了他们自己的基于流的运算框架——Storm。不同于Hadoop一次性处理所有数据并得出统一结果的作业(job),Storm对源源导入的数据流进行持续不断的处理,随时得出增量结果。

 

  Hadoop的另一个致命弱点是:它的所有中间结果都需要进行硬盘存储,I/O消耗巨大,这就使得它很不适合多次迭代的运算。而大多数机器学习算法,恰恰要求大量迭代运算。

来源:秀目号