某网作为某电视台在互联网上的大型门户入口,某一年成为某奥运会中国大陆地区的特权转播 商,独家全程直播了某奥运会全部的赛事,积累了庞大稳定的用户群,这些用户在使用各类服 务过程中产生了大量数据,对这些海量数据进行分析与挖掘,将会对节目的传播及商业模式变 现起到重要的作用。
该奥运会期间需要对增量数据在当日概览和赛事回顾两个层面上进行分析。
其中,当日概览模块需要秒级刷新直播在线人数、网站的综合浏览量、页面停留时间、视频的 播放次数和平均播放时间等千万级数据量的实时信息,而传统的分布式架构采用重新计算的方 式分析实时数据,在不扩充以往集群规模的情况下,无法在几秒内分析出重要的信息。
赛事回顾模块需要展现自定义时间段内的历史最高在线人数、逐日播放走势、直播最高在线人 数和点播视频排行等海量数据的统计信息,由于该奥运会期间产生的数据通常不需要被经常索 引、更新,因此要求采用不可变方式存储所有的历史数据,以保证历史数据的准确性。
问题内容:
【问题1】 ( 1 1 分 )
下图1给出了某网奥运会的大数据架构图,请根据下面的 (a)~(h) 的相关技术;判断这些 技术属于架构图的哪个部分,补充完善下图1的(1)- (11)的空白处。
(a)Nginx; (b)Hbase; (c)Spark Streaming; (d)Spark; (e)M-R; (f)ETL;(g)
MemSQL; (h)HDFS; (i)Sqoop; (j)Flume; (k)kafka
【问题2】 (5分)
大数据的架构包括了Lambda架构和 Kappa架构,Lambda 架构分解为三层:即批处理层、加 速层和服务层; Kappa架构不同于Lambda同时计算流计算和批计算并合并视图, Kappa只会 通过流计算一条的数据链路计算并产生视图。
请问该系统的大数据架构是基于哪种架构搭建的大数据平台处理奥运会大规模视频网络观看
数据。
【问题3】 (9分)
结合题干中对当日概览和赛事回顾的功能要求,请用300字以内的文字简要介绍为什么要选择 Lambda 架构或者 Kappa 架构来实现该大数据平台。