一种光伏发电影响因素评价模型、构建方法及应用

一种光伏发电影响因素评价模型、构建方法及应用(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111260206A(43)申请公布日2020.06.09(21)申请号202010035167.7G06N3/08(2006.01)(22)申请日2020.01.14G06F16/27(2019.01)(71)申请人中国计量大学地址310018浙江省杭州市下沙高教园区学源街258号(72)发明人周杭霞　周郅皓　杨凌帆　刘倩　胡强　(74)专利代理机构重庆市信立达专利代理事务所(普通合伙)50230代理人陈炳萍(51)Int.Cl.G06...

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111260206A(43)申请公布日2020.06.09(21)申请号202010035167.7G06N3/08(2006.01)(22)申请日2020.01.14G06F16/27(2019.01)(71)申请人中国计量大学地址310018浙江省杭州市下沙高教园区学源街258号(72)发明人周杭霞　周郅皓　杨凌帆　刘倩　胡强　(74)专利代理机构重庆市信立达专利代理事务所(普通合伙)50230代理人陈炳萍(51)Int.Cl.G06Q10/06(2012.01)G06Q10/04(2012.01)G06Q50/06(2012.01)G06N3/04(2006.01)权利要求书2页说明书11页附图4页(54)发明名称一种光伏发电影响因素评价模型、构建方法及应用(57)摘要本发明属于光伏发电量预测技术领域，公开了一种光伏发电影响因素评价模型、构建方法及应用。构建弹性的Spark on YARN计算集群，通过YARN对集群的资源进行管理和分配；长短期记忆神经网络算法LSTM通过建立深层的时间序列网络模型，对光伏发电影响因子数据从底层到高层逐层提取特征，实现底层信息到高层的抽象；LSTM对光伏系统发电量进行建模和预测，根据初始结果不断调整模型参数和影响因子优化模型，得出关于影响因子评价模型。本发明实现了快速低成本的光伏大数据处理平台、弹性高效的云计算集群、高准确性的光伏发电量预测模型以及对光伏发电影响因素的大数据分析，为建设新光伏电站和改进旧电站提供了智能化的参考。CN111260206ACN111260206A权　利　要　求　书1/2页1.一种光伏发电影响因素评价模型，其特征在于，采用Spearman相关系数分析各个相关因素与光伏发电功率之间的相关性，并且找出相关性最高的几个因素，Spearman相关系数计算：其中，Y为与各个因素之间的相关性，di 表示两个变量分别排序之后的变量位置差，N为变量个数，变量包括日期、温度、天气；当相关系数Y越接近1时，表明两个变量的相关性越大，预测时的参考价值越高；越接近0时，表示预测时的参考价值越低；所述光伏发电影响因素评价模型将光伏电站的历史数据处理之后分成训练集和验证集，在训练集上对以LSTM为基础的网络算法进行训练，采用平均绝对百分误差MAPE在验证集上对训练后的两种网络模型进行评价，根据结果优化网络参数和调整主要因子，得出最优模型，并得到对光伏发电影响最大的影子，MAPE公式：式中observedt为t时刻的真实值，predictedt为t时刻预测值。2.一种如权利要求1所述光伏发电影响因素评价模型的构建方法，其特征在于，所述光伏发电影响因素评价模型的构建方法基于Scala语言和Spark RDD实现深度学习网络算法，借助Scala语言和Spark RDD的分布式算子对传统LSTM进行重新编码和改进，通过建立深层的时间序列神经网络模型，对日期、温度、天气的数据从底层到高层逐层提取特征，实现底层信息到高层的抽象；使用GB级别的光伏系统数据集对LSTM在Spark集群上和单一主机下运行的效率和结果进行比较。3.一种使用权利要求1所述光伏发电影响因素评价模型的Spark平台下的光伏发电量预测和发电效率评价系统，其特征在于，所述Spark平台下的光伏发电量预测和发电效率评价系统包括：数据源层，用于实现光伏发电系统的历史数据和每天产生的记录数据存储在MySQL、Oracle关系型数据库构成数据源层；数据传输层，用于实现数据在关系型数据库和HDFS之间的传输；数据存储层，用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据；数据处理层，用于为上层数据分析提供计算支持；数据分析层，用于利用大量的历史数据对光伏发电量建立模型；根据当前光伏发电的各种影响因素，通过光伏发电量模型来对发电量做出预测；预测的结果通过数据可视化技术呈现给管理者，管理者对电网进行调度。4.一种运行权利要求3所述的光伏发电量预测和发电效率评价系统的光伏发电量预测和发电效率评价方法，其特征在于，所述的光伏发电量预测和发电效率评价方法包括以下步骤：步骤一，在公有云平台上构建弹性的Spark on YARN计算集群，通过YARN对集群的资源进行管理和分配；步骤二，使用分布式文件系统HDFS存储光伏系统的海量数据，通过Sqoop实现关系型数2CN111260206A权　利　要　求　书2/2页据库和HDFS之间数据的传输；步骤三，利用Hbase快速随机访问数据的能力和HDFS存储大规模数据的能力，为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动；步骤四，在Spark平台下基于Scala语言和Spark RDD实现以LSTM为基础的深度学习网络算法，通过建立深层的神经网络模型，对日期、温度、天气等数据从底层到高层逐层提取特征；步骤五，通过步骤四建立的模型对光伏系统发电量进行建模和预测，评价算法的预测可靠性，在GB级的光伏系统数据集上与传统单机模式下运行该算法进行对比分析，通过数据可视化技术将发电量预测值实时呈现给管理者；步骤六，在海量数据集上分析影响光伏系统发电效率的各种因素，产生各种因素对发电量影响程度的报表，实现对光伏发电系统的效率评价及结果呈现。5.如权利要求4所述的光伏发电量预测和发电效率评价方法，其特征在于，所述步骤二中数据存储的方法包括：采用Spark on YARN集群模式，在公有云上搭建多个节点的集群，利用HDFS存储大规模数据，通过Sqoop将存储在关系型数据库中的光伏系统数据导入HDFS；为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动；在Spark平台下编写算法对光伏系统大规模数据进行分析挖掘，建立光伏系统发电量模型，将预测的光伏系统发电量，通过数据可视化技术实时呈献给光伏电站的管理者。6.如权利要求4所述的光伏发电量预测和发电效率评价方法，其特征在于，所述步骤六中光伏发电系统的效率评价及结果呈现的方法为：通过对日期、温度、地理位置光伏发电相关因素的分析，对光伏系统发电量效率进行评价；分析各个因素对发电量的影响程度，并通过图表和数据可视化技术呈现给管理者。3CN111260206A说　明　书1/11页一种光伏发电影响因素评价模型、构建方法及应用技术领域[0001]本发明属于光伏发电量预测技术领域，尤其涉及一种光伏发电影响因素评价模型、构建方法及应用。背景技术[0002]目前，最接近的现有技术：据国际能源署估计，全球2030年一次能源需求将达到177亿吨油当量，能源需求量如此巨大，而化石能源(煤、石油、天然气等不可再生资源)的日益枯竭以及对全球气候环境的影响，使得在世界范围内，优先大力发展可再生能源的能源革命被掀起。随着各国对太阳能光伏发电技术的投入，目前光伏发电已经实现了产业化，太阳能光伏发电逐步成为了电力能源的重要组成部分。光伏发电属于波动性和间歇性电源，当大规模光伏发电接入电网后，就会产生随机发电与随机用电两组互不相关变量的实时平衡问题，这就使得对光伏发电预测模型和效率评价指标的研究成为了必须。光伏发电预测模型就是对运行中的光伏发电诸多气候等因素进行分析，预先评估发电量的变化情况、用来合理调度发电容量、充分利用资源，达到提高光伏并网后电网的安全性和稳定性的目的。Spark平台是专为大规模数据处理而设计的快速通用的计算引擎，植入于该平台下的深度学习结构可用于对数据模型权值的优化。如果对光伏电场进行等效建模、功率预测和能量管理，那么这些功能的实现都需要海量的历史数据作为基础。发明中提出将基于深度学习的Spark云计算与大数据处理技术应用于间歇性能源领域，无论是对于目前间歇性能源的发展研究还是未来国家的可持续发展，都具有非常重要的战略价值与意义。[0003]目前国外学术界和产业界已有不少对光伏预测系统的研究。美国National Renewable Energy Laboratory早在95年就开始对两座6KW并网型光伏电站进行为期一年的数据采集和分析，得出电气参数与气候条件之间的关系，并由气候条件算出的理论值和实际值进行比较分析其可能的原因及评价各器件的效率问题。文献《A fuzzy logic controller for stand alone PV systems》中，Moreno和 Julve提出了基于模糊控制的算法，使用加权电力不足概率(WLLP)来对单个负载的电力不足进行加权，控制一个独立的光伏发电系统。文献《Neural network based estimation of maximum power generation from PV module using environmental information》中，Hiyama和Kitabayashi使用神经网络根据气象局的天气预报资料预测第二天光伏发电系统的最大功率。除此之外，专家系统 (ESs)、遗传算法(Gas)、非线性推理(NMR)、可编程逻辑门阵列(FPGA) 等人工智能方法的研究在国外光伏发电预测中也均有涉及。相比于国外，国内对光伏发电预测模型的研究尚处于初步探索阶段，且多针对光伏发电短期的预测应用。光伏发电预测方法虽然众多，如回归法、指数平滑法、时间序列法等，但由于它们基于统计模型的预测，预测精度比较低。随着人工智能技术的发展，逐渐出现了进化算法、专家系统、人工神经网络、模糊集理论、灰色系统等多种不同的新预测方法。文献《Key technologies and the implementation ofwind,PV and storage co-generation monitoring system》以气温、湿度代替太阳辐射强度作为输入量，采用自组织特征映射对天气类型聚类识别，分季节建4CN111260206A说　明　书2/11页立基于BP 神经网络的无辐照度短期功率预测模型，但算法容易陷入局部最小问题。文献《基于灰色神经网络组合模型的光伏短期出力预测》将直接方法和间接方法结合，建立基于灰色神经网络组合模型的方法，较单一灰色模型和神经网络模型更准确，但该方法只对晴天进行预测，非晴天天气效果未知。总体来说，光伏发电对人类的意义至关重大，而光伏发电并网导致的波动性问题必然会推进未来对大数据处理的云平台构架预测系统的研究和推广。随着太阳能光伏发电在电力能源中比重的增加，光伏发电预测模型的研究不仅可以用于实现光伏发电系统的发电量预测和管理，而且对海量数据的存储和大数据的并行计算问题，以及在加快新能源和清洁能源领域的良性发展方面发挥着重大作用。[0004]传统的单/多线程结构化平台，难以实现对光伏发电系统产生的海量数据的存储、计算和分析，且软硬件成本高昂。用于大数据处理的云平台构架通过虚拟化、海量分布式数据存储、并行编程模型等技术，具有数据处理能力强、资源利用率高、应用成本低的优点。应用这种架构来对光伏发电系统进行发电量的预测和管理，将有助于解决海量数据的存储和大数据的并行计算问题。[0005]综上所述，现有技术存在的问题是：[0006](1)采用传统的单/多线程结构化平台难以实现对光伏发电系统海量数据的存储、计算和分析，且软硬件和维护成本较高。[0007](2)光伏系统大规模并网后，由于其发电存在间歇性、波动性的特点，对电网稳定性产生影响。[0008]解决上述技术问题的难度：[0009]对于问题(1)，目前大数据技术在光伏行业的应用处于起步阶段，许多技术和算法相对不成熟，存在计算资源浪费量大、数据处理效率低下等问题，若直接修改整体框架不但难度和成本大幅增加，也会造成计算架构泛化性降低。[0010]对于问题(2)，由于产生光伏系统发电间歇性和波动性的原因很多，不同的气候环境、发电系统的内部原因(如逆变器温度、系统故障等)均会有影响，在解决对电网稳定性的问题上，主要的手段一般是后期对光伏系统的及时运维，但是传统的时间序列算法对光伏发电数据的预测精度较低，无法满足运维的及时性，对于光伏发电功率的主要影响因子的不了解，增加了运维时的盲目性，缺乏有针对性的效率评价模型也导致了发电效率低下的电站并入电网，进一步增加了对电网稳定性的影响。[0011]解决上述技术问题的意义：[0012]对于问题(1)的解决，可以在提高光伏数据处理速度的同时，合理配置加算所需的资源，节约了成本开支，提高了数据处理的效率。[0013]对于问题(2)的解决，可以对光伏发电站的未来发电量和其相关因素进行精确的预测，以此建立光伏发电影响因素评价模型对光伏电站进行效率评估可以使电站的管理者对未来电站的运维、扩建和新电站的选址有重要参考。发明内容[0014]针对现有技术存在的问题，本发明提供了一种光伏发电影响因素评价模型、构建方法及应用。[0015]本发明是这样实现的，一种光伏发电影响因素评价模型，采用Spearman相关系数5CN111260206A说　明　书3/11页分析各个相关因素与光伏发电功率之间的相关性，并且找出相关性最高的几个因素。Spearman相关系数计算如下[0016][0017]其中，Y为与各个因素之间的相关性，di表示两个变量分别排序之后的变量位置差，N为变量个数，变量包括但不仅限于日期、温度、天气；[0018]当相关系数Y越接近1时，表明变量对光伏发电功率的相关性越大，预测时的参考价值越高；越接近0时，表示预测时的参考价值越低。所述光伏发电影响因素评价模型将光伏电站的历史数据处理之后分成训练集和验证集，在训练集上对LSTM训练，采用平均绝对百分误差(MAPE)在验证集上对训练后的各种网络模型进行评价，得出最优模型，MAPE公式如下所示：[0019][0020]式中observedt为t时刻的真实值，predictedt为t时刻预测值。[0021]将得出的最优模型中的影响因素作为评价指标，对光伏发电系统进行效率评价。[0022]本发明的另一目的在于提供一种所述光伏发电影响因素评价模型的构建方法，所述光伏发电影响因素评价模型的构建方法基于Scala语言和Spark RDD实现深度学习网络算法，借助Scala语言和SparkRDD的分布式算子对传统LSTM进行重新编码和改进；通过建立深层的神经网络模型，对日期、温度、天气的数据从底层到高层逐层提取特征，实现底层信息到高层的抽象；将光伏系统的历史数据分为训练集和验证集，用训练集对LSTM进行训练，在验证集上评价算法预测的可靠性，不断优化参数和影响因子调整，择优选取；使用GB 级别的光伏系统数据集对LSTM在Spark集群上和单一主机下运行的效率和结果进行比较。[0023]本发明的另一目的在于提供一种使用所述光伏发电影响因素评价模型的 Spark平台下的光伏发电量预测和发电效率评价系统，所述Spark平台下的光伏发电量预测和发电效率评价系统包括：[0024]数据源层，用于实现光伏发电系统的历史数据和每天产生的记录数据存储在MySQL、Oracle关系型数据库构成数据源层；[0025]数据传输层，用于实现数据在关系型数据库和HDFS之间的传输；[0026]数据存储层，用于存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据；[0027]数据处理层，用于为上层数据分析提供计算支持；[0028]数据分析层，用于利用大量的历史数据对光伏发电量建立模型；根据当前光伏发电的各种影响因素，通过光伏发电量模型来对发电量做出预测；预测的结果通过数据可视化技术呈现给管理者，管理者对电网进行调度。[0029]本发明的另一目的在于提供一种运行所述的光伏发电量预测和发电效率评价系统的光伏发电量预测和发电效率评价方法，所述的光伏发电量预测和发电效率评价方法包括以下步骤：[0030]步骤一，在公有云平台上构建弹性的Spark on YARN计算集群，通过 YARN对集群6CN111260206A说　明　书4/11页的资源进行管理和分配；[0031]步骤二，使用分布式文件系统HDFS存储光伏系统的海量数据，通过Sqoop 实现关系型数据库和HDFS之间数据的传输；[0032]步骤三，利用Hbase快速随机访问数据的能力和HDFS存储大规模数据的能力，为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动；[0033]步骤四，在Spark平台下基于Scala语言和Spark RDD实现以LSTM为基础的神经网络算法，通过建立深层的神经网络模型，对日期、温度、天气的数据从底层到高层逐层提取特征；[0034]步骤五，通过步骤四建立的模型对光伏系统发电量进行建模和预测，评价算法的预测可靠性，在GB级的光伏系统数据集上与传统单机模式下运行该算法进行对比分析，通过数据可视化技术将发电量预测值实时呈现给管理者；[0035]步骤六，在海量数据集上分析影响光伏系统发电效率的各种因素，产生各种因素对发电量影响程度的报表，实现对光伏发电系统的效率评价及结果呈现。[0036]进一步，所述步骤二中数据存储的方法包括：采用Spark onYARN集群模式，在公有云上搭建多个节点的集群，利用HDFS存储大规模数据，通过Sqoop 将存储在关系型数据库中的光伏系统数据导入HDFS；为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动；在Spark平台下编写算法对光伏系统大规模数据进行分析挖掘，建立光伏系统发电量模型，将预测的光伏系统发电量，通过数据可视化技术实时呈献给光伏电站的管理者。[0037]进一步，所述步骤六中光伏发电系统的效率评价及结果呈现的方法为：通过对日期、温度、地理位置等因素的分析，对光伏系统发电量效率进行评价；分析各个因素对发电量的影响程度，并通过图表和数据可视化技术呈现给管理者。[0038]综上所述，本发明的优点及积极效果为：本发明提供的Spark平台下的光伏发电量预测和发电效率评价系统，利用公有云进行计算集群的构建，能根据需求弹性的扩展集群，节省购买硬件和维护的成本。Spark适合完成对实时性要求较高的批处理任务，与Hadoop配合使用，形成优势互补。本预测模型将分布式架构与大数据处理的云平台构架相结合，是一种新型的预测模型理念。Hadoop 是典型的、具有代表性的大数据批处理系统，其HDFS文件系统中提供了高可靠性和可方便横向扩展的存储能力，适合海量历史数据的可靠存储；Hadoop提供的Spark并行技术适合对存储在HDFS上的历史数据进行批量分析。在 Spark平台下实现以LSTM为基础的深度学习网络算法，对光伏系统发电量进行建模预测，方便电网管理者对电网的调度，以此减轻光伏系统间歇性和波动性对电网稳定性带来的影响。[0039]本发明实现了在Spark平台下对光伏系统发电量的建模预测和效率评价，在公有云平台上构建弹性的Spark onYARN计算集群，通过YARN来对集群的资源进行管理和分配。使用分布式文件系统HDFS来存储光伏系统的海量数据，通过Sqoop实现关系型数据库和HDFS之间数据的传输。利用Hbase快速随机访问数据的能力和HDFS存储大规模数据的能力，为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动。在Spark 平台下基于Scala语言和Spark RDD实现以LSTM为基础的深度学习网络算法，通过建立深层的神经网络模型，对日期、温度、天气等数据从底层到高层逐层提取特征，实7CN111260206A说　明　书5/11页现底层信息到高层的抽象。通过该算法训练出的模型对光伏系统发电量进行建模和预测，评价该模型的预测可靠性，在GB级的光伏系统数据集上与传统单机模式下运行该算法进行对比分析，通过数据可视化技术将发电量预测值实时呈现给管理者。在海量数据集上分析影响光伏系统发电效率的各种因素，产生各种因素对发电量影响程度的报表，为建设新光伏电站和改进旧电站提供了智能化的参考。[0040]本发明采用基于Spark计算框架的深度学习算法来建立发电量预测模型，将光伏系统的历史数据分为训练集和验证集，用训练集对以LSTM为基础的神经网络算法进行训练，在验证集上评价该算法预测的可靠性。训练网络采用将光伏发电功率历史数据和其相关因素分开训练再结合的方式进行训练，根据再根据MAPE评估不同影响因素情况下的光伏发电功率准确率的高低，确定最后的主要影响因素。[0041]本发明提出的基于深度学习的Spark光伏发电预测模型，将分布式架构与大数据处理的云平台构架相结合，构建了一种新型的预测模型结构，该模型可以实现的主要目标：[0042](1)分布式平台系统架构[0043]基于深度学习的Spark预测系统模型为系统开发提供了多层次的支撑，其 Hbase非关系型数据库，适合存储结构化、半结构化以及非结构化数据，并提供在线查询的低延迟性能，非常适合光伏发电预测模型的监测。[0044](2)低成本大数据计算平台[0045]本预测模型中采用公有云的大数据处理服务，可以弥补自建平台在扩展性方面的不足，具有存储容量大(可达PB级)、可弹性伸缩、算法执行时间平稳等特点，使用户可不必关心分布式计算细节，从而达到分析大数据的目的。[0046](3)智能化预测系统模型[0047]本发明开发的Spark平台下基于深度学习的光伏发电预测模型，可通过对未来某一时间段内光伏发电系统的地理位置、日期、天气、温度等参数的预测值进行高速率地运算和分析，并把预测发电量信息通过数据可视化技术呈现给管理者，以供电网系统进行输电、用电的控制及实施调度，来减小光伏发电的间歇性和随机波动性给电力系统的平稳运行所造成的影响。本发明利用Spark 平台来解决传统单机系统处理光伏系统大数据效率低下、成本高的问题，Spark 集群建立在公有云上，可开放给多个用户使用。建立光伏发电量模型来预测发电量，方便管理者对电网的调度，以此减少大规模光伏系统并网所带来的不稳定性。光伏电站的建设者和管理者可根据各因素影响程度报表，来建设新电站和改进旧电站。[0048]本发明的创新之处在于：(1)快速低成本的光伏大数据处理平台，本发明将主流的大数据处理平台与光伏发电系统发电量预测的需求相结合，提出了 Spark平台下的光伏发电量的预测系统。该系统能够存储和处理光伏发电系统的海量数据，对数据保存多个副本，数据副本丢失或宕机能够自动恢复数据，具有高安全性、高容错性，非常适合部署在廉价的机器上，节省了购买高性能机器的成本。Spark平台并行计算的框架适合大规模数据的处理，其在内存计算模式下比Mapreduce快100倍。将Spark平台应用到光伏发电大数据挖掘分析领域是本发明的一个创新。[0049](2)弹性高效的云计算集群，本发明应用公有云平台，安全、高效、灵活，可随时根8CN111260206A说　明　书6/11页据自己的需求扩展或缩小使用的资源量，能灵活的控制Spark集群的规模，节省了购买和维护设备的财力、人力成本，同时，Spark集群建立在云平台上，可方便多用户的远程使用。[0050](3)高准确性的光伏发电量预测模型，本发明在Spark平台下利用深度学习对光伏系统发电量进行建模预测。深度学习具有灵活性，可根据实际数据量对隐层进行调整。深度学习具备优秀的预测能力，尤其是对大中型数据集的预测，这些特性能够提高发电量预测的准确性。本发明结合光伏发电系统数据的特性，在Spark平台上实现并改进LSTM算法，将其应用在发电量的预测上，这是本发明的另一个创新。[0051](4)光伏发电影响因素的大数据分析，利用Spark对大量历史数据进行快速分析，分析各个因素对光伏发电效率的影响程度，这种基于大规模数据的因素分析相较于传统基于部分数据的因素分析，更具有科学性，可作为后期新建光伏电站和优化改进旧光伏电站的参考。[0052]本发明中采用的基于深度学习的Spark大数据处理平台，可以利用低成本的设备及公有云搭建大型的数据处理模型，通过比较容易实现的My SQL、 Oracle等关系型数据库构成数据源层；使用Sqoop作为数据传输层将大数据集进行分割并批量转移至由高容错性的HDFS和高性能、高可用性的Hbase组成的数据存储层；基于LSTM模型的Spark处理平台从数据存储层读取数据并在内存中进行高速率地运算和分析；最终预测结果将通过数据可视化技术呈现给管理者，给管理者对电网的调度提供了一种智能化的参考依据。Spark因其具有的高可靠性、高扩展性、高效性和高容错性等优势，已经应用于军事医疗、水质监测、机械工业、环境监测等各个领域。本发明中提出将云计算与基于深度学习的Spark大数据处理技术应用于间歇性能源领域，具有非常重要的研究意义。附图说明[0053]图1是本发明实施例提供的Spark平台下的光伏发电量预测和发电效率评价方法流程图。[0054]图2是本发明实施例提供的Spark平台下的光伏发电量预测和发电效率评价系统结构示意图。[0055]图3是本发明实施例提供的数据处理流程框架示意图。[0056]图4是本发明实施例提供的以LSTM为基础的网络结构模型图。具体实施方式[0057]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。[0058]针对现有技术存在的问题，本发明提供了一种光伏发电影响因素评价模型、构建方法及应用，下面结合附图对本发明作详细的描述。[0059]如图1所示，本发明实施例提供的Spark平台下的光伏发电量预测和发电效率评价方法包括以下步骤：[0060]S101，在公有云平台上构建弹性的Spark onYARN计算集群，通过YARN 来对集群的资源进行管理和分配。9CN111260206A说　明　书7/11页[0061]S102，使用分布式文件系统HDFS来存储光伏系统的海量数据，通过 Sqoop实现关系型数据库和HDFS之间数据的传输。[0062]S103，利用Hbase快速随机访问数据的能力和HDFS存储大规模数据的能力，为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动。[0063]S104，在Spark平台下基于Scala语言和Spark RDD实现以LSTM为基础的时间序列网络算法，通过建立深层的神经网络模型，对日期、温度、天气等数据从底层到高层逐层提取特征。[0064]S105，通过以LSTM为基础的时间序列网络算法对光伏系统发电量进行建模和预测，评价算法的预测可靠性，在GB级的光伏系统数据集上与传统单机模式下运行该算法进行对比分析，通过数据可视化技术将发电量预测值实时呈现给管理者。[0065]S106，在海量数据集上分析影响光伏系统发电效率的各种因素，产生各种因素对发电量影响程度的报表，实现对光伏发电系统的效率评价及结果呈现。[0066]如图2所示，本发明实施例提供的Spark平台下的光伏发电量预测和发电效率评价系统分为数据源层、数据传输层、数据存储层、数据处理层和数据分析层。[0067](1)数据源层：是整个系统的数据来源。目前间歇性能源的监控系统多采用传统的关系型数据库来实现，光伏发电系统的大量历史数据和每天产生的记录数据存储在MySQL、Oracle等关系型数据库中。由这些关系型数据库来构成数据源层。[0068](2)数据传输层：实现数据在关系型数据库和HDFS之间的传输。Sqoop 是用来将HDFS和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中的数据导进到HDFS中，也可以将HDFS的数据导入到关系型数据库中。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。[0069](3)数据存储层：用来存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据。Hadoop分布式文件系统HDFS是一种高容错的系统，对数据保存多个副本，副本丢失或宕机能自动恢复数据，适合部署在廉价的机器上。Hbase是一个分布式的、本地化的、面向列的、多维度的存储系统，在设计上具备高性能和高可用性。ZooKeeper是一个开源的分布式应用程序协调服务，是Hadoop和Hbase的重要组件，为分布式应用提供一致性服务。[0070]HDFS采用顺序读取访问数据，能提供高吞吐量的数据访问，并具有海量数据的存储能力，非常适合大规模数据集上的应用。HDFS为HBase提供了高可靠性的底层存储支持。Hbae则具有数据的快速随机访问的能力，Spark为 HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和 failover机制。[0071](4)数据处理层：为上层数据分析提供计算支持。Spark是专为大规模数据处理而设计的快速通用的计算引擎，可以建立在Hadoop YARN之上。在内存计算方面，Spark的处理速度比Mapreduce快100倍。Spark支持交互式计算和复杂算法，可用于实现多种运算，包括SQL查询、机器学习等。[0072](5)数据分析层：光伏发电量受到日期、地理位置、即时功率、天气、温度等因素的影响，目前已经记录了大量相关因素的数据。可以利用大量的历史数据对光伏发电量建立模型。根据当前光伏发电的各种影响因素，通过光伏发电量模型来对发电量做出预测。预测的结果通过数据可视化技术呈现给管理者，方便管理者对电网的调度。10CN111260206A说　明　书8/11页[0073]下面结合实施例对本发明作进一步描述。[0074]1、发明目标[0075]1.1发明目标[0076]光伏系统大规模并网后，由于其发电存在间歇性、波动性的特点，会对电网稳定性产生影响，因此需要对光伏系统发电量进行建模预测。采用传统的单/ 多线程结构化平台难以实现对光伏发电系统海量数据的存储、计算和分析，且软硬件和维护成本较高。为了解决传统光伏发电预测系统难以对海量数据存储、计算、分析和软硬件成本较为高昂等问题，本发明中提出的基于深度学习的 Spark光伏发电预测模型，将分布式架构与大数据处理的云平台构架相结合，构建了一种新型的预测模型结构，该模型可以实现的主要目标：[0077](1)分布式平台系统架构[0078]基于深度学习的Spark预测系统模型为系统开发提供了多层次的支撑，其 Hbase非关系型数据库，适合存储结构化、半结构化以及非结构化数据，并提供在线查询的低延迟性能，非常适合光伏发电预测模型的监测。[0079](2)低成本大数据计算平台[0080]本预测模型中采用公有云的大数据处理服务，可以弥补自建平台在扩展性方面的不足，具有存储容量大(可达PB级)、可弹性伸缩、算法执行时间平稳等特点，使用户可不必关心分布式计算细节，从而达到分析大数据的目的。[0081](3)智能化预测系统模型[0082]本发明开发的Spark平台下基于深度学习的光伏发电预测模型，可通过对未来某一时间段内光伏发电系统的地理位置、日期、天气、温度等参数的预测值进行高速率地运算和分析，并把预测发电量信息通过数据可视化技术呈现给管理者，以供电网系统进行输电、用电的控制及实施调度，来减小光伏发电的间歇性和随机波动性给电力系统的平稳运行所造成的影响。[0083]1.2发明与申请者研究工作长期目标的关系[0084]近几年来随着国家对光伏发电的大力倡导和支持，结合计算机大数据云计算的平台，我们开始在太阳能光伏发电预测与效率评价方面开展一系列的科研工作,并与省内多家企业单位建立了长期的科研协作关系。该发明研究工作的开展,是以往工作经验的运用和发挥,有助于实现基于深度学习的Spark平台下的光伏发电预测模型和效率评价系统的构建。今后我们将应用这种架构来对光伏发电系统进行发电量预测和管理，继续致力于解决海量数据的存储和大数据的并行计算问题的研究，加快新能源和清洁能源领域的良性快速发展，确保其达到新的科技高度，这些是我们发明团队的长期目标。[0085]2、发明内容、发明方案[0086]2.1发明内容[0087]本发明对基于深度学习的Spark平台下的光伏发电预测模型和效率评价进行研究。在Linux系统上搭建Spark onYARN集群生产环境，并基于Scala、Java语言和Spark框架，进行深度学习算法在分布式集群上的大规模数据处理，实现深度学习网络算法，并用MAPE对算法预测的可靠性进行评估；在GB级别的光伏数据集下，将此算法与单机的算法进行比较，以此对该以LSTM为基础的深度学习网络算法在大数据处理方面的性能进行评估。11CN111260206A说　明　书9/11页[0088](1)Spark[0089]本发明采用Spark onYARN集群模式，其框架如图3所示。Spark onYARN 模式可与其他计算框架共享集群资源，Spark应用由客户端提交后，由YARN负责资源的管理和调度，弹性的资源分配，利于提高集群资源利用率。[0090]本发明在公有云上搭建多个节点的集群，利用HDFS来存储大规模数据，通过Sqoop将存储在关系型数据库中的光伏系统数据导入HDFS。利用Hbase 快速随机访问数据的能力和HDFS存储大规模数据的能力，为上层的Spark快速数据处理提供支持，通过Zookeeper协调多个分布式进程之间的活动。在 Spark平台下编写算法对光伏系统大规模数据进行分析挖掘，建立光伏系统发电量模型，将预测的光伏系统发电量，通过数据可视化技术实时呈献给光伏电站的管理者。[0091](2)以LSTM为基础的时间序列网络算法对光伏系统发电量建模的实现[0092]本发明基于Scala语言和Spark RDD实现LSTM算法。借助Scala语言和Spark RDD的分布式算子对以LSTM为基础的时间序列神经网络算法进行重新编码和改进，使其能够在分布式集群上运行。通过建立深层的神经网络模型，对日期、温度、天气等数据从底层到高层逐层提取特征，实现底层信息到高层的抽象。将光伏系统的历史数据分为训练集和验证集，用训练集对LSTM 算法进行训练，在验证集上评价该算法预测的可靠性。使用GB级别的光伏系统数据集对以LSTM为基础的时间序列神经网络算法在Spark集群上和单一主机下运行的效率和结果进行比较。[0093](3)对光伏发电系统的效率评价及结果呈现[0094]本发明通过对日期、温度、地理位置等因素的分析，对光伏系统发电量效率进行评价。分析各个因素对发电量的影响程度，并通过图表和数据可视化技术呈现给管理者，供其对光伏发电系统进行优化改进。[0095]2.2研究方案[0096]Spark平台下的光伏发电量预测和发电效率评价系统分为数据源层、数据传输层、数据存储层、数据处理层和数据分析层，如图2所示。[0097](1)数据源层：是整个系统的数据来源。目前间歇性能源的监控系统多采用传统的关系型数据库来实现，光伏发电系统的大量历史数据和每天产生的记录数据存储在MySQL、Oracle等关系型数据库中。由这些关系型数据库来构成数据源层。[0098](2)数据传输层：实现数据在关系型数据库和HDFS之间的传输。Sqoop 是用来将HDFS和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中的数据导进到HDFS中，也可以将HDFS的数据导入到关系型数据库中。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。[0099](3)数据存储层：用来存储光伏发电系统大量的历史数据、每日新增的数据和数据计算分析产生的大量中间数据。Hadoop分布式文件系统HDFS是一种高容错的系统，对数据保存多个副本，副本丢失或宕机能自动恢复数据，适合部署在廉价的机器上。Hbase是一个分布式的、本地化的、面向列的、多维度的存储系统，在设计上具备高性能和高可用性。ZooKeeper是一个开源的分布式应用程序协调服务，是Hadoop和Hbase的重要组件，为分布式应用提供一致性服务。[0100]HDFS采用顺序读取访问数据，能提供高吞吐量的数据访问，并具有海量数据的存12CN111260206A说　明　书10/11页储能力，非常适合大规模数据集上的应用。HDFS为HBase提供了高可靠性的底层存储支持。Hbae则具有数据的快速随机访问的能力，Spark为 HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和 failover机制。[0101](4)数据处理层：为上层数据分析提供计算支持。Spark是专为大规模数据处理而设计的快速通用的计算引擎，可以建立在Hadoop YARN之上。在内存计算方面，Spark的处理速度比Mapreduce快100倍。Spark支持交互式计算和复杂算法，可用于实现多种运算，包括SQL查询、机器学习等。[0102](5)数据分析层：光伏发电量受到日期、地理位置、即时功率、天气、温度等因素的影响，目前已经记录了大量相关因素的数据。可以利用大量的历史数据对光伏发电量建立模型。根据当前光伏发电的各种影响因素，通过光伏发电量模型来对发电量做出预测。预测的结果通过数据可视化技术呈现给管理者，方便管理者对电网的调度。[0103]本发明采用基于Spark计算框架的深度学习算法来建立发电量预测模型。深度学习通过学习一种深层非线性网络结构，只需简单的网络结构即可实现复杂函数的逼近。深度学习能够更好地表示数据的特征，同时由于模型的层次深、表达能力强，因此具有表示大规模数据的能力。长短期记忆网络(LSTM)作为深度学习领域的一种典型的模型结构，得到了广泛的研究和应用，其结构如图4 中的LSTM层所示。它通常是由多个cell组成，每一个cell相当于一个计算单元，其中每一个单元的输入为上一个单元时刻状态输出和当前时刻的输入，其输出为当前单元时刻的状态输出与当前时刻的输出。[0104]采用Spearman相关性分析来寻找对光伏发电功率的主要影响因子，由于 Spearman相关系数与相关变量之间的值大小无关，仅与变量之间的距离有关，所以可以寻求变量之间的非线性关系。[0105]采用MAPE作为检验预测模型的优劣的指标，根据每一次的预测结果的评价来不断优化网络模型的参数，放置不同的影响因子训练，比较结果，选取最优结果。[0106]分析日期、温度、天气、地理位置等各种因素对发电量的影响，结合常规效率评价指标，如性能比、标准发电等价时等进行效率分析，并产生各因素影响程度的报表，那些影响较大的因素，将作为以后新建或改进光伏电厂重点关注的对象。[0107]3、发明创新之处[0108](1)快速低成本的光伏大数据处理平台[0109]本发明将主流的大数据处理平台与光伏发电系统发电量预测的需求相结合，提出了Spark平台下的光伏发电量的预测系统。该系统能够存储和处理光伏发电系统的海量数据，对数据保存多个副本，数据副本丢失或宕机能够自动恢复数据，具有高安全性、高容错性，非常适合部署在廉价的机器上，节省了购买高性能机器的成本。Spark平台并行计算的框架适合大规模数据的处理，其在内存计算模式下比Mapreduce快100倍。将Spark平台应用到光伏发电大数据挖掘分析领域是本发明的一个创新。[0110](2)弹性高效的云计算集群[0111]本发明应用公有云平台，安全、高效、灵活，可随时根据自己的需求扩展或缩小使用的资源量，能灵活的控制Spark集群的规模，节省了购买和维护设备的财力、人力成本，同时，Spark集群建立在云平台上，可方便多用户的远程使用。[0112](3)高准确性的光伏发电量预测模型13CN111260206A说　明　书11/11页[0113]本发明在Spark平台下利用深度学习对光伏系统发电量进行建模预测。深度学习具有灵活性，可根据实际数据量对隐层进行调整。深度学习具备优秀的预测能力，尤其是对大中型数据集的预测，这些特性能够提高发电量预测的准确性。本发明结合光伏发电系统数据的特性，在Spark平台上实现并改进以 LSTM为基础的时间序列网络算法，将其应用在发电量的预测上，这是本发明的另一个创新。[0114](4)光伏发电影响因素的大数据分析[0115]利用Spark对大量历史数据进行快速分析，分析各个因素对光伏发电效率的影响程度，这种基于大规模数据的因素分析相较于传统基于部分数据的因素分析，更具有科学性，可作为后期新建光伏电站和优化改进旧光伏电站的参考。[0116]化石能源逐渐走向枯竭，新能源越来越受到人们的关注，今后应用光能、风能、潮汐能等能源来发电会更为普遍，这些能源中有一部分像光能一样，具有间歇性、波动性，当它们大规模并网后同样会对电网的稳定性带来影响。可以将应用在光伏系统中的思路应用到其他能源中，对其他能源的发电量建立预测模型，并对影响这些能源发电效率的因素进行分析，方便电站的建设者和管理者对电站的运营。[0117]本发明的数据处理具体实施例如图3所示：[0118]图中‘数据分类’是将光伏发电历史数据集分为12个类，每一年的同一个月份数据作为一个类。[0119]图中‘数据预处理’是将分类好后的所有数据进行数据预处理，预处理包含了异常值处理、数据归一化以及关于光伏发电功率的Spearman相关性分析，将光伏发电功率与相关性高于85％因素一对一或一对多组合，形成新的数据集并分为训练集和验证集。[0120]图中‘预测模型建立和预测’是把‘数据预处理’中形成的新的训练集放入LSTM进行模型的建立，其网络结构如图4所示，经过主要因子和发电功率分离之后分别放入LSTM进行训练，呈现出不同的结果，然后用MAPE对比预测结果，根据结果进行模型优化(网络层数、cell数量等)和主要影响因子的调整，不断优化后选出MAPE较小的预测模型。[0121]图中‘电站评价及结果展示’是根据所得出的光伏发电预测模型后，结合传统效率指标如性能比，标准等价发电时，分析该模型中用到的光伏发电影响因素，做出综合评价并呈现给光伏发电系统的管理者。[0122]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。14CN111260206A说　明　书　附　图1/4页图115CN111260206A说　明　书　附　图2/4页图216CN111260206A说　明　书　附　图3/4页图317CN111260206A说　明　书　附　图4/4页图418

                    本文档为【一种光伏发电影响因素评价模型、构建方法及应用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.4 已有0 人下载

立即下载

一种光伏发电影响因素评价模型、构建方法及应用

你可能还喜欢