电力物联网的大数据平台

电力行业历来重视数据和信息技术,从上世纪80年代起,就采用实时数据库处理发电以及电网采集的各种数据。但随着电网规模的扩大,数据采集量的增加,传统的实时数据库和IT架构已经无法满足海量数据的处理需求。最近几年,电力行业开始采用大数据平台技术,最典型的就是将Kafka、Hadoop、HBase、Spark、Redis等技术集成在一起处理海量数据。比如智能电表的用电信息采集系统、电费的计算等,都采用这类方案。

推进电力物联网建设,需要全方位对电网运行状态、客户用电等信息实时监测、预警、分析,数据采集点和采集频次会大幅增加,数据量将在原来的基础上大幅择增加。

以智能电表为例,现在客户的智能电表是一天发送一条记录。如果改为与商业智能电表一样,15分钟发送一条记录到云端,数据量将至少增加96倍,数据插入请求数也相应增加96倍以上。以全网智能电表5亿台来统计,一天产生的数据条数多达480亿条。

从配网的情况来看,即使采集点和采集频率不显著增加,但以D5000、CC2000为代表的主流产品,受限于历史数据处理能力,依然只能围绕实时采集数据、历史数据构建应用,拓扑分析技术无法在时间维度纵向扩展。

电网数据采集及监控系统(SCADA)作为物联网的一部分,不但要看实时数据,还需要看历史数据,不单需要实时监控,更需要故障预警、趋势分析、运营指标分析、效率分析等。通过快速存取、分析高频采集数据,将为电网的安全高效运行提供更精准的数据决策支撑。

另一方面,电力物联网与通用的物联网一样,不仅会存在云端的数据中心,也会存在边缘节点。这些边缘节点具备一定的计算和存储能力,能进行数据的预处理和缓存,大幅缓解数据中心平台的压力,而且能更好地保证边缘节点覆盖的区域有更好的数据实时响应能力,更好地支撑本地业务实时智能决策与执行。但是边缘计算与云计算需要通过紧密协同才能更好地满足各种需求场景的匹配,从而最大化边缘计算和云计算的应用价值。

采集点的增加和采集频次提高,能带来什么样的效益呢?以智能电表为例,如果将所有电表的数据采集频次提高到1次/15分钟,电网将实现对每个台区线损的实时监测,而不是现在的T-1模式,从而对异常线损实时处理。同时,对输电线路故障实时监测,再也无需客户上报,大大提升运维效率和服务质量。

以Hadoop体系为代表的互联网大数据解决方案,主要处理的是互联网领域的非结构化数据,比如爬虫数据、微博与微信数据等。但是,泛在电力物联网的数据与互联网数据有显著不同的特点,表现在几个方面:数据都是时序的,由传感器和设备不断产生,形成一个数据流;除视频、图像外,都是结构化的数据;数据是机器日志类型的,不会有删除或更新的动作;数据是有保留时长的,到期删除;数据流量是平稳可预测,知道测点数、采集频率,能较为准确估算流量大小;数据需要进行实时计算、分析;数据的分析、计算一般都是基于某一个时间段和地域进行;数据量巨大,一天产生几百亿条记录。

除数据特征不一样之外,在数据处理上,电力物联网与典型的互联网相比,还有不一样的需求。比如插值计算、数学函数计算以及某个具体时间点的断面数据等。而且这些数据的处理往往与采集设备的管理直接挂钩,需要依据采集设备的归属、地域以及其他属性进行各种分类统计。

随着泛在电力物联网的加快建设,现有的互联网大数据技术平台将遇到巨大的挑战,因为电力数据规模将增加几个数量级,数据分析的量也更多,实时性要求也更高。因此,需要进一步加大信息技术的创新力度,构建和完善适应电力物联网建设需求的大数据平台。

新一代的大数据平台,要有以下几个特点:充分利用电力物联网的数据特点,在技术上做各种优化,大幅度提高数据插入、查询的性能,降低电网运营成本;必须能实时处理各种数据插入、查询请求,提升电网运行效率;必须是水平扩展的,随着数据量的增加,只需要增加服务器扩容即可;支持边缘计算与云计算的边缘协同;必须是易于维护的,降低对运维人员的要求;必须是开放的,有业界流行的标准SQL接口,便于各种应用集成;必须通过Python、R或其他接口来方便集成各种机器学习、人工智能算法。

当前,国内外诸多互联网企业已经注意到物联网兴起后,传统的大数据技术正面临新的考验和挑战,并开始着手研发新一代大数据平台。相信随着泛在电力物联网建设不断加快,必将构建新一代的能源电力大数据平台,从而进一步挖掘和利用好电网的数据资源,提升电网运营的效率和效益,保障电网安全稳定运行,为社会提供新的应用和服务。