基于时序残差概率的风电场超短期风速混合预测模型

您所在的位置:网站首页 风速区间预测 基于时序残差概率的风电场超短期风速混合预测模型

基于时序残差概率的风电场超短期风速混合预测模型

2024-01-25 15:14| 来源: 网络整理| 查看: 265

0 引言

构建新型电力系统是实现碳达峰、碳中和的基本思路和主要举措[1]。风电作为一种清洁高效的能源形式,对于推进低碳排放和促进能源清洁转型具有深远意义。截至2020年,全球风电机组装机总容量达743GW,较去年增加14%[2]。对于风电场,准确的风速预测易于指导发电计划调整、优化风电场内及场群控制策略,以此降低旋转备用容量和实现系统安全稳定运行[3]。

风速受外界多因素影响而具有随机波动性[4-6],传统点预测方法,其精度无法满足风电并网及电网运行等方面需求。概率预测方法可提供风速不确定性信息[7],通常以分位数、不确定性区间和概率密度函数的形式表征[8],如Bootstrap分位数回归[9]、高斯过程回归(gaussian process regression,GPR)[10]、边界估计(lower upper bound estimation,LUBE)[11]以及贝叶斯神经网络等方法[12]。模型参数设置的复杂性和对样本数据的强烈依赖性导致上述模型应用场景存在局限。相反,非参数模型无需对风速样本分布做任何假设,如核密度估计方法,易推广至多元形式,构成条件核密度估计模型(conditional kernel density estimation,CKDE),直接对风速进行概率预测[13]。

针对风速序列的随机波动特性,大量研究结果表明,任何单一方法只能在某一特定场景下发挥其优势[14]。构建混合模型是提升预测模型性能的有效途径,主要分为:基于数据预处理方法的混合模型[15]和基于多预测模型组合的混合模型[16]。

基于数据预处理方法的混合模型将复杂时间序列分解为多个子序列,分别构建合适的预测模型,将各预测模型输出结果叠加,以提升预测模型的适应性[17]。如文献[18-19]提出了一种根据子序列中心频率变化和分解残差进行参数优选的改进变分模态分解(optimized variational mode decomposition,OVMD) 方法,并应用于风速预测场景中,以避免人为调参等问题。

基于多预测模型组合的混合模型具有多种形式,其核心思想在于多预测模型弥补单一模型的缺陷,但增加了模型复杂程度,导致其收敛性较差[20]。文献[21]通过多目标智能优化算法对多种模型预测结果权重进行寻优,实现对预测模型性能的较大提升。因此如何结合以上2类混合模型性能提升思路,以应对风速不确定性特征是有待解决的问题。

风速预测模型残差导致预测结果不确定性,理想状态下,残差应为不含有任何时序相关特征和动态规律的白噪声。然而,任何预测模型的构建均会涉及到一系列样本选取、特征筛选和参数设置等问题,此类问题不存在通解。对于点预测方法,预测模型不完备会导致残差存在大量未充分提取关键信息,因而有必要针对模型残差进一步建模;对于概率预测方法,模型残差描述了预测值与真实值的差异,研究其变化规律可有效反映风速不确定性。

因此,基于上述思想,本文提出了一种基于时序残差概率的超短期风速混合预测模型。从预测数据来源和预测模型残差2阶段提升预测精度,针对风速多分量预测残差概率无法直接累加的问题,提出了一种基于随机数生成的模拟方法。最后将预测结果与实际风电场数据进行对比,验证所提模型的有效性。

1 混合预测模型总体方案

为发挥混合模型在点预测和概率预测中的优势,提出了基于时序残差概率的超短期风速混合预测模型的总体方案,如图 1所示。首先以样本熵(sample entropy,SE)为风速序列复杂程度量化指标,对原始风速序列变分模态分解(variational mode decomposition,VMD)分解参数进行优选,分解得到K个风速分量。然后对于各分量建立对应的混合模型,实现分量的点预测和概率预测。

图 1 混合预测模型总体方案 Fig. 1 Overall scheme of hybrid forecasting model

对于风速点预测,通过自回归差分移动平均(auto regressive integrated moving average,ARIMA)对风速分量中线性成分进行建模,采用CKDE构建经ARIMA提取后残差成分的点预测和概率预测模型。将各分量混合模型点预测结果线性叠加得到下一时刻点预测值。

对于风速概率预测,设计了一种基于直接采样模拟的概率预测结果生成方法,通过随机数模拟原风速序列概率预测结果。

最后计算不同置信水平下风速误差置信区间与线性成分点预测结果构成风速概率预测结果,并通过误差指标与其他方法进行比较,分析模型的预测性能。

2 基于OVMD的风速时间序列分解

为降低风速预测模型残差的作用和预测结果的不确定性,需要对风速序列进行预处理。

2.1 VMD

VMD是一种自适应分解方法,可以有效地应对风速非平稳、非线性特征,通过迭代搜寻变分模型,将风速时间序列f(t)分解为不同的具有有限带宽的分量uk(t),对应的中心频率为ωk(t)。第k个分解后的风速分量uk(t)可表示为

$ {u_k}(t) = {A_k}(t)\cos [{\varphi _k}(t)] $ (1)

式中Ak(t)和φk(t)分别为第k个风速分量瞬时振幅和相位。

进一步对于各个风速分量uk(t),通过希尔伯特变换计算其单边频谱,将风速分量uk(t)的频谱调制到相应的基频带区域;通过对解调信号梯度的L2正则化进行高斯平滑估计,估计每个分量uk(t)的频段带宽。构造为以下问题:

$ \left\{ {\begin{array}{l} {\mathop {\min }\limits_{{u_k}, {w_k}} \{ \mathop \sum \limits_{k = 1}^K ||{\partial _t}[(\delta (t) + \frac{{\text{j}}}{{{\text{π }}t}}) * {u_k}(t)]{{\text{e}}^{ - {\text{j}}{\omega _k}t}}||_2^2\} } \\ {{\text{s}}{\text{.t}}.\mathop {{\text{ }}\sum }\limits_{k = 1}^K {u_k} = f(t)} \end{array}} \right. $ (2)

式中:δ(t)为Dirac分布函数;$ * $表示卷积运算;f(t)为原始风速数据的时间序列。

通过拉格朗日乘子λ和惩罚因子α将上述有约束极值问题转换为无约束问题进行求解,如式(3)所示:

$ \begin{array}{l} L(\{ {u_k}\} , \{ {\omega _k}\} , \lambda ) = \hfill \\ {\text{ }}\alpha \mathop \sum \limits_k ||{\partial _t}[(\delta (t) + \frac{{\text{j}}}{{{\text{π }}t}}) * {u_k}(t)]{{\text{e}}^{ - {\text{j}}{\omega _k}t}}||_2^2 + \hfill \\ {\text{ }}||f(t) - \sum\limits_{k = 1}^K {{u_k}(t)} ||_2^2 + < \lambda (t), f(t) - \mathop \sum \limits_k {u_k}(t) > \hfill \\ \end{array} $ (3)

采用交替方向乘子法(alternating direction method of multipliers,ADMM),通过迭代更新uk+1、ωk+1,最小值问题则转化为求解增广拉格朗日鞍点问题,其更新方法如下:

$ \left\{ {\begin{array}{l} {\hat u_k^{n + 1} = \frac{{\hat f(\omega ) - \sum\limits_{i \ne k} {{{\hat u}_i}(\omega )} + \frac{{\hat \lambda (\omega )}}{2}}}{{1 + 2\alpha {{(\omega - {\omega _k})}^2}}}} \\ {w_k^{n + 1} = \frac{{\mathop \smallint \nolimits_0^\infty \omega |\hat y_k^{n + 1}(\omega ){|^2}{\text{d}}\omega }}{{\mathop \smallint \nolimits_0^\infty |\hat y_k^{n + 1}(\omega ){|^2}{\text{d}}\omega }}} \end{array}} \right. $ (4)

式中:n为迭代次数;$ \hat f(\omega ) $、$ {\hat u_k}(\omega ) $和$ \hat \lambda (\omega ) $分别为原始风速f(t)、风速分量uk(t)和λ(t)的傅里叶变换。

由VMD分解过程可知,各模态分量带宽同样受限于分解层数K和惩罚因子α的选取。VMD可以预设层数K,以避免预测过程中模态分量数量的变化。K较小时本征模分量数量过少,无法将原始序列中全部模态独立分解;K较大时本征模函数数量过多,会造成同频分量二次分解生成重复模态分量和噪声分量。

惩罚因子α决定了风速分量分解的带宽,α较小时会导致各分量频率混叠;α较大时各分量带宽过窄,能量衰减严重。因而,分解层数和惩罚因子的不同设置对分解结果影响较大,其决定了预测模型的整体性能。

2.2 OVMD的参数选取

对非线性时间序列进行VMD需要选取合适的分解层数K和惩罚因子α以适应风速特征。在超短期风速预测过程中,尽可能期望各子分量的复杂程度最低,预测模型易于捕捉序列相关特征。而样本熵是统计理论中基于对近似熵改进的复杂性度量方法,样本熵越大的序列,其复杂程度越大,随着时间推移产生出的新模式越多,具体可见附录式(A1)—(A6)。

采用平均样本熵作为VMD参数K和α的优化目标,则所提出的OVMD模型可表示为

$ < {\alpha _{{\text{opt}}}}, {K_{{\text{opt}}}} > = \mathop {\arg \min }\limits_{(\alpha , K)} \{ \frac{1}{K}\sum\limits_{i = 1}^K {{S_E}(i)} \} $ (5)

式中SE(i)为第i个子序列的样本熵。

3 基于时序残差概率的预测模型

预测模型固有缺陷性和参数估计的有偏性等客观因素,导致超短期风速预测模型的残差成分存在特定变化规律无法完全提取,因此在序列分解的基础上,通过ARIMA提取模型残差,继而利用CKDE对时序残差概率建模。

3.1 CKDE

CKDE是统计学中的非参数估计方法,无需要假设解释变量和目标变量之间函数关系,具有较高的精确性和适用性[22]。

CKDE首先需要根据重构后的残差样本集构建描述变量间联合分布的多元核密度估计模型。在实际预测过程中,根据历史时刻风速分量残差采样值及其联合概率密度函数,即可计算下一时刻点残差的条件概率密度函数,对于重构得到m维的样本集,预测过程可表示为

$ \begin{array}{l} \hat f(\boldsymbol{y}|\boldsymbol{x}) = \frac{{{{\hat f}_{XY}}(\boldsymbol{x}, \boldsymbol{y})}}{{{{\hat f}_X}(\boldsymbol{x})}} = \hfill \\ \;\;\mathop \sum \limits_{i = 1}^N {w_i}(\boldsymbol{x})\frac{1}{{|{\boldsymbol{H}_Y}|}}{K_1}[\boldsymbol{H}_Y^{ - 1}(\boldsymbol{y} - {\boldsymbol{y}_i})] \hfill \\ \end{array} $ (6)

其中

$ {w_i}(\boldsymbol{x}) = \frac{{{K_{m - 1}}[\boldsymbol{H}_X^{ - 1}(\boldsymbol{x} - {\boldsymbol{x}_i})]}}{{\sum\limits_{i = 1}^N {{K_{m - 1}}[\boldsymbol{H}_X^{ - 1}(\boldsymbol{x} - {\boldsymbol{x}_i})]} }} $ (7)

式中:xy分别为多元核密度估计的输入和输出向量;xi和yi分别为样本集第i个输入和输出样本向量;Km−1(x)为m−1维多元核函数;N为重构后样本长度;HX和HY分别为残差预测模型输入和输出集的对角化带宽矩阵。

核函数的形式对于概率密度建模的精度影响不大,考虑计算过程的易用性,通常选择高斯函数作为核函数[13]。CKDE模型中带宽的选择会直接影响所建模型的精度和平滑性,带宽矩阵选取的主要思想是最小化平均积分误差(mean integrated square error,MISE)对带宽进行选取。为充分发挥条件核密度估计的非参数估计特性和高效的求解效率,采用Silverman估计法计算各维度核函数带宽[23],在每一轮预测中更新样本集和带宽矩阵。

3.2 时序残差概率建模方法

对于经过OVMD分解的风速第k个子序列所蕴含线性规律趋势成分和非线性成分,可通过ARIMA提取对应残差成分如式(6)所示,ARIMA可同时考虑子序列中周期性和趋势性的影响。

$ {e}_{t}^{k}={y}_{t}^{k}-{l}_{t}^{k}={y}_{t}^{k}-{c}_{0}^{k}-\sum _{i=1}^{{p}^{k}}{\phi }_{i}^{k}{y}_{t-i}^{k}-\sum _{j=1}^{{q}^{k}}{\theta }_{j}^{k}{e}_{t-j}^{k} $ (8)

式中:对于分量k,ytk为经过d阶差分运算的平稳序列;ltk表示t时刻ARIMA预测值;c0k为常数;pk与qk分别为自回归项与移动平均项的阶数;φik为第i个自回归项的系数;θjk为第j个移动平均项的系数。

将一维的残差序列根据多元核密度估计模型维度m进行重构,在应用过程中可将t−m+1~t−1时刻的残差值组成输入向量,通过式(7)计算t时刻的条件期望和条件概率密度函数,作为该残差分量的预测结果。

3.3 混合模型预测方法

在针对各风速分量时序残差概率建模的基础上,所提混合模型可以针对风速同时进行点预测和概率预测。

对于所提混合模型的风速点预测过程,在ARIMA针对各分量时间序列建模进行预测的基础上,计算残差分量CKDE估计结果的期望值,可实现分量残差值的预测,可通过Nadaraya-Watson核回归方法[13]进行表示,计算其期望值与ARIMA线性成分预测结果构成所提混合模型预测结果。具体可表示为

$ {\hat y_t} = \sum\limits_{k = 1}^K {(l_t^k + m_t^k)} = \sum\limits_{k = 1}^K {[l_t^k + \sum\limits_{i = 1}^N {w_i^k(\boldsymbol{x}_t^k)\boldsymbol{y}_i^k} ]} $ (9)

式中mtk为第k个残差分量CKDE预测结果。

对于所提混合模型的概率预测过程,以序列分解方法为基础,混合模型可以为预测精度带来显著的提升,但是无法直接与描述序列预测不确定性的概率预测方法相结合。

连续型随机变量的概率密度函数是一个描述该随机变量的输出值在某定值附近的可能性的函数。对于条件概率密度,其性质同概率密度函数一致,不具备直接可加性。因而,当概率预测与序列分解方法相结合时,如何将各分量的预测概率密度函数还原为原序列的预测概率函数是亟待解决的问题。

基于上述考虑,本文提出了一种面向超短期预测混合模型的直接采样模拟方法。考虑到随机变量X的分布函数在[0, 1]区间上服从均匀分布,具体证明过程可见附录A式(A7)。

通过随机数生成的方式模拟超短期风速概率预测结果,具体如下。

1)通过风速分量残差概率预测结果积分获取累积分布函数,并计算其反函数。

2)生成残差样本集,生成在[0, 1]区间上的M维均匀分布,根据风速分量残差累积分布的反函数生成各分量的残差样本,计算模拟生成的各分量残差样本之和Zp,如式(10)所示:

$ {Z_{\text{p}}} = \sum\limits_{i = 1}^K {F_i^{ - 1}({Z_i})} $ (10)

式中:Fi−1(·)表示第i个分量残差概率预测结果的反函数;Zi表示针对第i个分量的生成随机数样本。

3)通过一维核密度估计,根据样本集Zp拟合风速各分量残差之和的概率密度函数预测结果。

所提方法在M取值足够大的情况下,能够以较高的精度逼近原始概率分布,仅需要K次对一维概率密度函数直接采样即可生成残差预测样本集,因此具有较高的运算效率。

混合模型预测方法的流程如图 2所示,具体步骤如下。

图 2 混合模型概率预测流程 Fig. 2 Hybrid model probability prediction flowchart

1)针对OVMD分解得到的风速分量构建对应的ARIMA模型,进行模型定阶及参数估计。

2)根据ARIMA建模生成的风速残差序列,对分量残差建立多元核密度估计模型。

3)通过ARIMA和CKDE分别实现风速分量及其残差的点预测结果,根据式(9)计算得到下一时刻点的超短期风速点预测结果。

4)针对各风速分量残差概率预测结果,通过直接采样模拟生成风速序列残差预测样本集,并通过核密度估计实现残差的预测概率估计。

5)残差描述线性部分点预测结果的不确定性,计算残差预测概率对应不同置信水平下的最短置信区间,具体见附录A式(A8)(A9)。结合线性成分的点预测结果,叠加得到该时刻的风速预测区间,实现超短期风速的概率预测。

3.4 模型评价指标 3.4.1 点预测结果评价指标

为从多角度验证针对残差概率建模对点预测精度提升的作用,采用均方根误差(root mean squared error,RMSE)和相关系数ρ对模型性能进行评估,具体定义可见文献[14]。其中RMSE用于评估预测值与真实值的差异,ρ反映预测序列和真实序列之间的线性关系。

3.4.2 区间预测评价指标

对于概率预测结果一般针对置信区间从以下4个维度进行评估。

1)采用归一化平均区间宽度(prediction intervals normalized average width,PINAW)(记为PINAW)量化的预测区间宽泛程度[24],可表示为

$ {P_{{\text{INAW}}}}{\text{ = }}\frac{1}{{n{k_{\text{m}}}({M_{{\text{max}}}}_{\text{p}} - {M_{{\text{min}}}}_{\text{p}})}}\sum\limits_{i = 1}^n {(u_i^\tau - l_i^\tau )} $ (11)

式中:uiτ和liτ分别为τ置信水平下区间上下限;Mmaxp和Mminp分别为预测值的最大值和最小值;km为缩放系数,一般取1.5。在满足可靠性的同时,PINAW越小,越能够提供更为精确的预测信息,利于决策调度。

2)平均覆盖误差(average coverage error,ACE) (记为EACE),该指标反映区间可靠性[25],可表示为

$ {E}_{\text{ACE}}\text{=}\frac{1}{n}{\displaystyle \sum _{i=1}^{n}{I}_{\tau }-\tau }, \text{ }{I}_{\tau }=\left\{\begin{array}{l}1, \text{ }{l}_{i}^{\tau }\le {x}_{0}(i)\le {u}_{i}^{\tau }\text{ }\\ 0, \text{ }其他\text{ }\end{array}\right. $ (12)

式中x0(i)为真实值。EACE绝对值越小意味着覆盖越准确,概率预测的结果越可靠。EACE只能定量地针对超短期区间预测结果进行分析,无法准确直观地反映风速实际值与预测区间之间的偏离程度。

3)累积偏差(accumulated deviation index,ADI)(记为IADI),IADI可描述区间包络特性[26],具体如下:

$ {I_{{\rm{ADI}}}} = \sum\limits_{i = 1}^n {{d_i}} ,{\rm{ }}{d_i} = \left\{ {\begin{array}{l} {\frac{{{x_0}(i) - u_i^\tau }}{{{x_0}(i)}} \times 100\% ,}&{{x_0}(i) > u_i^\tau }\\ {0,}&{l_i^\tau \leqslant {x_0}(i) \leqslant u_i^\tau }\\ {\frac{{l_i^\tau - {x_0}(i)}}{{{x_0}(i)}} \times 100\% ,}&{{x_0}(i) < l_i^\tau } \end{array}} \right. $ (13)

IADI其数值越小,表明风速真实值与预测区间的偏离程度越小,预测结果越好。

4)综合性指标Winkler得分(Winkler score,WS)(记为SWS),其兼顾预测区间覆盖的可靠程度及宽度[25],可表示为

$ \begin{array}{l} {S_{{\text{WS}}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{S_i}} ,\\ {S_i} = \left\{ \begin{array}{l} {- 2(1 - \tau )(u_i^\tau - l_i^\tau ) - 4[{x_0}(i) - u_i^\tau ],}&{{x_0}(i) > u_i^\tau }\\ {- 2(1 - \tau )(u_i^\tau - l_i^\tau ), }&{l_i^\tau \leqslant {x_0}(i) \leqslant u_i^\tau} \\ {- 2(1 - \tau )(u_i^\tau - l_i^\tau ) - 4[l_i^\tau - {x_0}(i)],}&{{x_0}(i) < l_i^\tau} \end{array} \right. \\ \end{array} $ (14)

SWS反映当前置信水平下区间的包络特性和区间锐度,对真实值处于区间内部的场景,期望区间宽度尽可能狭窄;对于越界场景,对越界部分进行“惩罚”。因此,SWS绝对值越小说明预测模型在较低的区间范围内保证高覆盖率。

4 算例分析 4.1 数据来源

为验证上述模型的准确性和适用性,本文选取我国东北某风电场中实测风速数据进行算例分析,采样间隔为5min,样本数据时间跨度为2015年7月11日至7月15日,共计1440个风速采样点。进一步为研究风速序列特性,通过Rosentein方法计算样本集最大Lyapunov指数(maximal Lyapunov exponent,MLE)[27]为0.9786,说明风速序列在相空间中的几何特征呈发散变化,具有较强的混沌特征[28],单一预测模型会存在一定局限性。

4.2 预测结果及其分析 4.2.1 数据预处理及模型参数设置

针对原始序列具有非平稳、复杂的特性,对其进行OVMD分解得到不同中心频率的模态分量,为获取OVMD分解的最优参数,使用遗传算法对参数优选问题进行求解。迭代优化结果显示分量个数K=7,惩罚因子α=1961.4。经过OVMD分解后得到序列平均样本熵为1.3786,相较于原序列样本熵1.608降低了14.27%。

根据OVMD分解得到的各分量序列,通过ARIMA对其进行线性建模。ARIMA只能针对平稳时间序列进行建模,采用扩张的Dickey-Fuller检验(augmented Dickey-Fuller test,ADF)判断风速分量的平稳性,若拒绝原假设,即不存在单位根,说明序列平稳,其差分项d=0;反之,对该序列进行差分运算直至序列平稳。利用最小二乘法和贝叶斯信息准则(Bayesian information criterion,BIC)对ARIMA模型中的参数进行估计。所提方法以ARIMA为基础构建线性部分的预测,检验其有效性的途径主要通过检验分量信息是否被充分提取,理想情况下残差序列应该为白噪声序列。

数据分解方法与预测模型相结合时,应根据预测步长,在每一轮预测过程中重新对风速进行分解,更新各分量输入。通过ARIMA提取各分量残差,如附录A图A1所示,在每一轮迭代过程中,测试集部分各分量残差存在显著波动时变聚集效应,以标准差为指标研究测试集和训练集的统计特征,发现测试集波动变化趋势远超训练集部分。说明数据预处理方法虽然降低了序列复杂程度,但是引起了残差的时变特征。

由上述分析可知,在本文中,模型阶数的限制和数据分解方法可能将引起异方差效应,对分解后风速分量进行ARCH-LM检验,如附录A表A1所示,残差项有较强的时变聚集效应,说明残差序列存在高阶的异方差效应[29]。说明ARIMA模型无法对超短期风速子序列进行准确拟合,存在高阶的时序特征仍未被捕捉,因而可采用CKDE进一步对子序列残差进行建模,验证所提混合模型的合理性。

对于各残差分量建立对应的CKDE模型,由于各分量经提取后的残差时序特征不同,不同残差的CKDE模型输入集嵌入维度需要进行整定。本文在4.1节中已检验序列存在混沌性,通过C-C方法可确定风速子序列残差的嵌入维度,可参见文献[30]。

4.2.2 混合模型预测结果

为体现本文方法精度方面的优势性,分别在点预测和概率预测2个维度进行对比分析。点预测结果预测主要从不同预测模型和不同数据分解方法层面进行对比,不同预测模型对比主要通过与OVMD-ARIMA模型、OVMD-CKDE模型[31]、单一CKDE模型[13]、单一ARIMA模型以及误差统计模型进行比对,对比结果如图 3所示。

图 3 不同点预测方法对比 Fig. 3 Comparison of different prediction methods

由图 3可知,所提混合模型在风速向上和向下爬坡事件均能较好地跟踪风速变化,有效地克服预测模型中的时滞现象,传统预测方法受爬坡特性影响较大,拟合偏差较大。所提方法优于OVMD-ARIMA、OVMD-CKDE和CKDE模型单独作用结果。表 1给出了不同预测方法点预测结果误差性能比较,结果表明所提方法能充分发挥混合模型对序列隐含变化关系捕捉的优势,预测结果更为准确。

表 1(Table 1) 表 1 不同预测方法误差性能比较 Table 1 Comparison of error performance of different prediction methods 方法 均方根误差 ρ 本文方法 0.518 0.925 OVMD-ARIMA 0.530 0.921 OVMD-CKDE 0.581 0.905 CKDE 0.538 0.919 ARIMA 0.542 0.924 表 1 不同预测方法误差性能比较 Table 1 Comparison of error performance of different prediction methods

对于时间线性序列模型ARIMA,其经过数据处理算法后各项误差性能指标均存在显著的提升,由于原有复杂序列被分解为一系列低样本熵的分量,易于提取分量中的线性回归变化过程。非参数回归模型CKDE本质是一类核平滑方法[32],所提方法通过CKDE进一步回归建模,预测精度更高。

为突出所提混合模型概率预测方法的效用性,主要与2类典型的混合模型概率预测方法进行比对。一是基于LUBE理论,对各分量概率预测结果直接以区间形式表征,利用边界值可累加特性生成原序列的概率预测结果[33-34],以下简称方法1,具体可见附录式(A10);二是假设所有分量及原始序列预测误差严格服从高斯分布,利用多个高斯分布之间均值和方差的可加性质估计预测概率密度[31, 35],以下简称方法2,具体可见附录式(A11)—(A15)。

为提高电力系统调度运行的可靠性和稳定性,制定合理的决策和调度计划,需要在给定较高的置信水平来得到较高的期望预测覆盖率。本文选取99%、95%和90%典型置信水平进行测试。在原有点预测对比方法的基础上,重点关注不同组合模型预测概率生成方法之间的对比。图 4给出了单一时刻点各分量残差概率预测结果,可以看出本文所提方法保留了各残差预测概率密度函数存在厚尾性、有偏性和多峰性等关键分布特征,在概率预测函数的细节方面刻画得更加细致和灵敏。

图 4 分量概率预测结果示意图 Fig. 4 Schematic diagram of component probability forecasting results

对于概率预测结果,尽可能期望预测区间保持可靠性和对真实值包络的高灵敏度,图 5给出了所提方法的概率预测结果。为进一步说明所提方法的优越性,图 6给出了不同方法99%置信水平下的概率预测的对比结果。

图 5 本文方法预测结果 Fig. 5 Prediction results of the proposed method 图 6 不同方法99%置信水平概率预测结果 Fig. 6 Probability forecasting results of different methods with 99% confidence level

如图 5所示,所提方法在各时刻点上概率预测的结果保持区间宽度适宜,置信区间宽度能随风速波动趋势而变化,在风速波动显著区段,具有更宽泛的区间宽度,保证了模型的可靠性,对超短期风速的不确定性刻画更为细致。

方法1简单地通过分位数相加的策略生成不确定性区间,保证了区间的包络性,但是区间范围过于宽泛只能给出大体轮廓,不利于制定决策,因而方法1不适用与数据分解预处理方法结合。

方法2基于概率预测结果为高斯分布的假设,利用条件方差对不确定性区间建模,但是由图 4可知,部分残差预测结果显然不满足高斯分布的特征,导致部分真实值越界。超短期风速预测样本数据数量受限,因而预测误差会存在多峰和有偏特性,不满足预测误差区间对称分布的假设,相对可靠性最低。

综合上述分析可知,方法1对应的概率预测结果区间宽度最大,在3种对比方法中可靠性和鲁棒性最高,有利于系统决策和风险规避,但采用方法1进行决策会降低经济性。方法2区间宽度最小,相对可靠性较低,真实值越限风险较大。而所提方法,兼具了方法1和2的优势,可以实现可靠性和不确定性区间宽度之间的均衡,适应性更强。表 2给出了概率预测结果的性能比较。

表 2(Table 2) 表 2 不同概率预测方法性能比较 Table 2 Performance comparison of different probability forecasting methods 方法 置信水平/% PINAW EACE IADI 本文方法 99 0.296 −0.011 0.067 95 0.217 −0.061 0.398 90 0.180 −0.088 0.891 方法1 99 0.663 0.010 0.000 95 0.492 0.050 0.000 90 0.407 0.079 0.092 方法2 99 0.215 −0.108 0.746 95 0.164 −0.186 1.663 90 0.138 −0.226 2.295 OVMD-CKDE 99 0.465 −0.011 0.169 95 0.355 0.008 0.428 90 0.299 0.010 0.683 CKDE 99 0.683 0.010 0.000 95 0.539 0.050 0.000 90 0.453 0.100 0.000 统计方法 99 0.303 −0.011 0.208 95 0.200 −0.075 0.747 90 0.152 −0.129 1.474 表 2 不同概率预测方法性能比较 Table 2 Performance comparison of different probability forecasting methods

如表 2所示,所提方法在各个置信水平上均能保持相对优异性能。方法1和CKDE方法相较于所提方法具有较高的EACE,将所有的真实值完全包络,但是其PINAW基本高于0.4,不利于参考和指导调度。统计方法通过对模型残差统计获取概率分布,无法反映风速预测不确定区间的时变特性,IADI指标较大,说明可靠性较低。

表 2所列指标只能从单一维度对预测性能进行评估,而SWS可以兼顾预测模型的可靠性和区间宽泛程度,图 7给出了不同概率预测模型的SWS绝对值,在99%、95%和90%置信水平上所提方法SWS绝对值分别为0.057、0.226和0.413,远低于其他对比方法。

图 7 不同方法|SWS|值对比 Fig. 7 Comparison of |SWS| values of different methods

与未经过ARIMA建模的OVMD-CKDE和CKDE方法相比,本文方法先对风速序列中规律的线性部分进行建模,并针对仍存有未完全提取信息的残差部分进行概率预测,大幅降低了直接非参数回归的不确定性。综合表 2和图 7说明所提模型以较高概率接近真实值,概率密度曲线更为精细,有利于在更窄范围内做出可靠决策。

上述分析显示ARIMA和CKDE相结合的方式,充分发挥了CKDE在概率预测中具有良好的稳健性和广泛的适用性。

5 结论

针对单一概率预测模型无法应对风速超短期内的非平稳波动特性,提出了一种基于时序残差概率的超短期风速混合预测模型,主要结论如下:

1)所提OVMD模型能主动适应序列特征,有效降低子序列的复杂程度,且通过对数据分解算法会引起残差的异方差效应检验,侧面验证了混合模型的合理性。

2)通过数据预处理方法和残差概率建模两阶段过程,降低了残差对预测结果不确定性的影响,灵活地结合了参数模型和非参数模型机理上的优势,同时提升点预测和概率预测的精度,在各类指标体系下具有更好的性能。

3)所提直接采样模拟法可以极大程度地保留各个子序列残差概率预测结果的特征,不依赖任何假设,对电网的运行和调度决策提供了良好的借鉴作用。

附录见本刊网络版(http://www.dwjs.com.cn/CN/1000-3673/current.shtml)。

附录A

作为一种复杂性度量方法,对于长度为N的时间序列X=[X(1), X(2), …, X(N)],其样本熵计算步骤如下:

对原序列基于重构维数m进行重构,得到一组m维的空间向量Xm如下:

$ {\boldsymbol{X}_m} = [{\boldsymbol{X}_m}(1), {\boldsymbol{X}_m}(2), {\text{ }}...{\text{ , }}{\boldsymbol{X}_m}(N - M + 1)] $ (A1)

式中Xm(i)表示为

$ {\boldsymbol{X}_m}(i) = {[X(i), X(i + 1), {\text{ }}...{\text{ , }}X(i + m - 1)]^{\text{T}}} $ (A2)

定义运算Xm(i)和Xm(j))之间距离的绝对值,具体表述如下:

$ {D_m}\{ {\boldsymbol{X}_m}(i), {\boldsymbol{X}_m}(j)\} = \mathop {\max }\limits_{0 \leqslant k \leqslant m - 1} |X(i + k) - x(j + k)| $ (A3)

计算Dm{Xm(i), Xm(j)}小于设定阈值r的数量并记为Bim,则Bm可表示为

$ B_i^m(r) = \frac{{{B_i}}}{{N - m + 1}} $ (A4) $ {B^m}(r) = \frac{1}{{N - m}}\sum\limits_{i = 1}^{N - m} {B_i^m(r)} $ (A5)

样本熵计算值为:

$ SE = - \ln [\frac{{{B^{m + 1}}(r)}}{{{B^m}(r)}}] $ (A6)

基于样本熵原理的一致性,通常取重构维度m为1,r为0.15倍时间序列的标准差,计算得到样本熵更具有稳定的统计特征。

考虑到随机变量X的分布函数FX(x)满足严格的连续单调递增性质,仅在[0, 1]区间上取值,则Y=FX(x)的分布函数FY(y)在[0, 1]区间上满足:

$ \begin{array}{l} {F_Y}(y) = P(Y \leqslant y) = P({F_X}(x) \leqslant y) = \hfill \\ \qquad \qquad P(X \leqslant F_X^{ - 1}(x)) = {F_X}({F^{ - 1}}(y)) = y \hfill \\ \end{array} $ (A7)

通过核密度估计计算直接采样结果的分布函数Fp(x),指定置信水平τ下的不确定性区间[lτ, uτ]可通过求解优化问题计算:

$ \left\{ \begin{array}{l} \min {\text{ }}F_{\text{p}}^{ - 1}(x) - F_{\text{p}}^{ - 1}(x + \tau - 1) \hfill \\ \;\;{\text{s}}{\text{.t}}{\text{. 0}} \leqslant x \leqslant 1 \hfill \\ \end{array} \right. $ (A8)

对上述问题求解可得到置信水平τ下最短区间的区间上界uτ对应的累积概率密度r,置信区间[lτ, uτ]可表示为:

$ \left\{ {\begin{array}{l} {{u^\tau } = F_{\text{p}}^{ - 1}(r){\text{ }}} \\ {{l^\tau } = F_{\text{p}}^{ - 1}(r + \tau - 1)} \end{array}} \right. $ (A9) 表 A1(Table A1) 表 A1 ARCH-LM检验结果 Table A1 ARCH-LM test results 分量编号 ARCH(1) ARCH(5) ARCH(10) ARCH(15) 1 134.43** 220.58** 231.37** 316.91** 2 352.34** 483.05** 556.42** 561.22** 3 179.44** 245.74** 300.93** 309.09** 4 242.36** 421.09** 463.38** 492.20** 5 119.27** 323.41** 329.72** 367.25** 6 82.06** 171.19** 313.80** 370.22** 7 90.98** 189.74** 269.17** 339.36** 注:**说明无法拒绝显着性水平为5%下有条件的异方差性的原假设。 表 A1 ARCH-LM检验结果 Table A1 ARCH-LM test results 图 A1 数据处理方法残差对比 Fig. A1 Residual comparison of data processing methods

方法1概率预测方法:根据预测模型求解各分量的置信区间,进一步计算不同置信水平下的置信区间边界的加和,具体为:

$ \left\{ \begin{array}{l} {u^\tau } = \sum\limits_{i = 1}^K {u_i^\tau } \hfill \\ {l^\tau } = \sum\limits_{i = 1}^K {l_i^\tau {\text{ }}} \hfill \\ \end{array} \right. $ (A10)

式中uiτ和liτ分别为置信水平τ下置信区间的上下边界。

方法2概率预测方法:超短期预测不确定性区间边界实际上用于刻画预测值的误差分布特性,对于误差分布特性通常假定其满足高斯分布,因而可推广至各分量条件概率分布满足高斯分布,利用高斯分布的方差可加性实现对超短期风速的概率预测。

针对条件概率预测结果,其条件方差[31]可定义为

$ \begin{array}{l} {\sigma ^2} = var(\boldsymbol{Y}|\boldsymbol{X}) = E\{ {[\boldsymbol{Y} - E(\boldsymbol{Y}|\boldsymbol{X})]^2}|\boldsymbol{X}\} {\text{ = }} \hfill \\ {\text{ }}\int {{{[\boldsymbol{y} - u]}^2}\hat f(\boldsymbol{y}|\boldsymbol{x})} {\text{d}}\boldsymbol{y} = |{H_y}{|^2}\int {_{{R^m}}\boldsymbol{x}{\boldsymbol{x}^T}{K_m}(\boldsymbol{x}){\text{d}}\boldsymbol{x}} + \hfill \\ {\text{ }}\sum\limits_{i = 1}^n {{w_i}(\boldsymbol{x}){{[{\boldsymbol{y}_i} - u]}^2}} \hfill \\ \end{array} $ (A11)

式中u为期望值。

风速预测子序列概率密度之和需通过下式描述:

$ {f_Z}(z) = f_{ - \infty }^\infty {f_{XY}}(x, z - x){\text{d}}x $ (A12)

式中:fXY为随机变量X和Y的联合概率密度函数;fXY通常难以求取准确的表达形式。

残差服从高斯分布假设下,超短期风速预测概率密度函数的期望和方差可表示为:

$ \hat \mu = \sum\limits_{i = 1}^K {{\mu _i}} $ (A13) $ {\hat \sigma ^2} = \sum\limits_{i = 1}^K {\sigma _i^2 + } \sum\limits_{i = 1}^K {\sum\limits_{j = 1, j \ne i}^K {cov(IM{F_i}, IM{F_j})} } $ (A14)

式中:IMFi为第i个分量;σi为分量i的方差。则服从高斯分布假设下超短期风速概率预测函数可表示为:

$ {\hat f_{\text{g}}}(x) = \frac{1}{{\sqrt {2{\text{π }}} \hat \sigma }}{{\text{e}}^{ - \frac{{{{(x - \hat \mu )}^2}}}{{2{{\hat \sigma }^2}}}}} $ (A15)

由查表方法可计算不同置信水平下置信区间。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3