基于优势邻域相对决策熵的增量式属性约简算法

陈宝国; 陈磊; 邓明; 李晓燕; 陈金林

doi:10.12454/j.jsuese.202400187

工程科学与技术 ›› 2026, Vol. 58 ›› Issue (02) : 372 -386. DOI: 10.12454/j.jsuese.202400187

信息工程

基于优势邻域相对决策熵的增量式属性约简算法

陈宝国 ¹ ,
陈磊 ¹ ,
邓明 ¹ ,
李晓燕 ¹ ,
陈金林 ¹^,²

作者信息 +

Incremental Attribute Reduction Algorithm for Dominance-based Neighborhood Relative Decision Entropy

Baoguo CHEN ¹ ,
Lei CHEN ¹ ,
Ming DENG ¹ ,
Xiaoyan LI ¹ ,
Jinlin CHEN ¹^,²

Author information +

文章历史 +

PDF (2617K)

摘要

在大数据环境下，数据处于不断动态更新之中，这使得传统的机器学习算法面临着一定的局限和挑战。增量式学习是一种在已有模型学习结果的基础上，只针对变化数据进行学习的一个过程，可以大幅度提升数据更新过程的学习性能。增量式属性约简是在动态数据集环境下进行高效属性约简的一种常用方法和策略，然而，针对对象动态更新变化的动态有序信息系统中，现有的增量式属性约简方法忽略了粗糙近似集可以为属性约简提供分类信息这一作用。因此，在动态混合有序信息系统下提出了一种基于优势邻域相对决策熵的增量式属性约简算法。首先，针对混合有序信息系统提出了优势邻域相对决策熵，并设计了相应的矩阵表示形式和非增量式属性约简算法；然后，针对混合有序信息系统对象动态增加和动态减少的两种场景，分别研究了优势邻域相对决策熵的增量式更新，并设计出了对应的增量式属性约简算法；最后，在公共数据集上进行比较实验。结果证明了所提出增量式属性约简算法的有效性，并且其在分类精度和算法效率方面均优于现有的同类型增量式算法。

Abstract

Objective In a big data environment, data is continuously and dynamically updated, which imposes significant limitations and challenges on traditional machine learning algorithms. Incremental learning is a learning paradigm that focuses exclusively on newly changed data based on the learning outcomes of existing models, substantially improving learning efficiency during data update processes. Incremental attribute reduction is a widely adopted method and strategy for achieving efficient attribute reduction in dynamic dataset environments. However, in ordered information systems with dynamically updated and evolving objects, existing incremental attribute reduction methods neglect the potential classification information provided by rough approximation sets, which limits their effectiveness in supporting attribute reduction. Methods In existing research results, scholars jointly proposed a relative decision entropy model by utilizing the roughness and dependency of upper and lower approximation sets to combine information entropy. This entropy model considered both the classification information of the upper and lower approximation sets of attributes and the classification information from the perspective of attribute information entropy, and it demonstrated better performance in attribute uncertainty measurement and attribute reduction. At the same time, the basic calculation unit of relative decision entropy was the upper and lower approximation sets of attributes. When the object changed, there was no need to calculate the information granules of the updated object. Therefore, this study extended relative decision entropy to mixed ordered information system environments. First, the relative decision entropy model of dominance-based neighborhoods was proposed. Then, the relative decision entropy of dominance-based neighborhoods was constructed based on the dominance-based neighborhood relation. The relative decision entropy of dominance-based neighborhoods was reconstructed in the form of a matrix, and a non-incremental attribute reduction algorithm for hybrid ordered information systems was designed. Finally, for the two scenarios of increasing and decreasing objects in a hybrid ordered information system, the matrix-form incremental update of the relative decision entropy of the dominance-based neighborhood was analyzed and studied, and incremental attribute reduction algorithms were constructed using this update mechanism. Results and Discussions In the experimental stage, 8 public datasets were selected for simulation experiments to compare the incremental algorithm with non-incremental algorithms. In the case of increasing the number of objects in the dataset, the number of reduced attributes for the non-incremental and incremental algorithms was basically similar across the 8 datasets, with averages of 14.75 and 14.62 attributes, respectively. The classification accuracy of the non-incremental algorithm and the incremental algorithm was also basically similar across the 8 datasets, with average SVM classification accuracies of 86.12% and 86.65%, and average NB classification accuracies of 87.22% and 87.24%, respectively. The processing time of the incremental algorithms was significantly shorter than that of the non-incremental algorithms. The processing time of the non-incremental algorithms on the 8 datasets was 4 215.13 seconds, whereas the processing time of the incremental algorithms on the 8 datasets was only 55.38 seconds. The performance of the incremental algorithms was significantly superior. In the case of reducing dataset objects, the number of reduced attributes for the non-incremental and incremental algorithms was basically similar across the 8 datasets, with averages of 16.00 and 15.62, respectively. The classification accuracy of the non-incremental algorithm and the incremental algorithm was basically similar across the 8 datasets, with average SVM classification accuracies of 86.25% and 86.74%, and average NB classification accuracies of 87.03% and 87.48%, respectively. The processing time of the incremental algorithms was significantly shorter than that of the non-incremental algorithms, with the non-incremental algorithms consuming 1 053.56 seconds and the incremental algorithms consuming only 36.92 seconds. The effectiveness of the incremental algorithm was verified through these experimental results. An experimental comparison was conducted between the incremental algorithm proposed in this study and four superior comparative algorithms to verify the superiority of the algorithm. In the case of increasing the number of objects in the dataset, the number of reduced attributes for the four comparative algorithms and the algorithm proposed in this study were 14.76, 16.75, 14.87, 14.62, and 14.62, respectively. The SVM classification accuracies of the four comparative algorithms and the algorithm proposed in this study were 87.53%, 83.84%, 89.20%, 86.84%, and 89.69%, respectively. The NB classification accuracies of the four comparative algorithms and the algorithm proposed in this study were 86.10%, 84.51%, 88.00%, 87.44%, and 89.81%, respectively. In terms of processing time, the proposed algorithm was 35%, 32%, 40%, and 7% faster than the four compared algorithms, respectively. In the case of reducing dataset objects, the number of reduced attributes for the four comparative algorithms and the algorithm proposed in this study were 16.00, 18.37, 15.90, 15.82, and 15.62, respectively. The SVM classification accuracies of the four comparative algorithms and the algorithm proposed in this study were 85.92%, 84.06%, 87.67%, 86.74%, and 89.50%, respectively. The NB classification accuracies of the four comparative algorithms and the algorithm proposed in this study were 85.82%, 83.85%, 88.75%, 87.43%, and 90.15%, respectively. In terms of processing time, the proposed algorithm was 55%, 46%, 63%, and 12% faster than the four compared algorithms, respectively. Comparing these results demonstrated that the incremental algorithm in this study selected fewer attributes, achieved higher classification accuracy, and significantly outperformed the comparative algorithms in terms of efficiency. Conclusions The experimental results demonstrate that the proposed incremental algorithm exhibits superior attribute reduction performance on dynamic datasets, significantly enhancing the efficiency of dynamic attribute reduction while maintaining the number of attribute selections and classification accuracy. At the same time, the proposed incremental algorithm selects fewer attributes and achieves higher classification accuracy compared to similar algorithms. Most importantly, the algorithm demonstrates higher computational performance.

Graphical abstract

关键词

属性约简 / 对象变化 / 增量式 / 有序信息系统 / 优势邻域相对决策熵

Key words

attribute reduction / object changes / incremental / ordered information system / dominance-based neighborhood relative decision entropy

引用本文

引用格式 ▾

陈宝国,陈磊,邓明,李晓燕,陈金林. 基于优势邻域相对决策熵的增量式属性约简算法[J]. 工程科学与技术, 2026, 58(02): 372-386 DOI:10.12454/j.jsuese.202400187

登录浏览全文

4963

注册一个新账户忘记密码

本刊网刊

属性约简又称特征选择^[1‒2]，是机器学习和数据挖掘领域中最重要的数据预处理技术之一。目前，粗糙集理论作为属性约简的常用工具，受到了研究者的广泛关注^[2]。在实际应用中，数据呈现出随时间变化而变化的动态特性，增量式属性约简方法可以有效地从动态数据中获得新的约简结果，提升了动态数据的约简性能和效率，使得增量式属性约简成为了当前的研究热点^[3‒4]。

有序信息系统是一种常见的数据集类型，一般用于单调性分类场景，优势粗糙集是处理有序信息系统的一种重要的粗糙集模型^[5‒7]，Chen等^[8]针对混合型有序信息系统，进一步提出了优势邻域粗糙集模型。针对有序信息系统的动态更新，研究者研究提出了多种增量式属性约简方法。Sang等^[9]针对离散型有序信息系统，将优势条件熵作为启发式函数构造了一种基于矩阵的增量式属性约简，然而这种属性约简方法不适用于数值型和混合型的有序信息系统。同时，Sang等^[10]考虑数值型和离散型混合的有序信息系统，又进一步提出了优势邻域条件熵，并构造基于矩阵形式的增量式属性约简方法，然而，这种增量式方法仅从熵的角度评估有序信息系统中属性的分类性能，忽视了优势粗糙近似的不确定性。考虑到优势邻域粗糙集模型不能很好地处理包含属性噪声的有序信息系统，Sang等^[11]提出了模糊优势邻域粗糙集模型，利用模糊优势邻域条件熵作为启发式函数设计了增量式属性约简算法，同样地，这种方法也未从优势粗糙近似的角度对优势类的不确定性进行评估。由于传统的优势粗糙集忽略了信息系统每个属性之间的权重差异，Pan等^[12]提出了基于加权的优势邻域粗糙集模型，并对加权优势邻域条件熵进行增量式更新，构造了一种对象动态变化时的增量式属性约简算法，然而，这种方法需要预先学习有序信息系统中属性的权重，会消耗大量的时间，尤其对于大规模的数据，时效性差。Yang等^[13]从邻域自信息的视角出发，提出了量化优势邻域自信息，并利用该度量方法设计和构建出一种对象更新的增量式属性约简算法，然而这种增量式属性约简算法也同样未考虑优势粗糙近似的不确定性，同时也不适用于离散型和数值型混合的有序信息系统。

通过分析已提出的有序信息系统增量式属性约简，可以发现这些算法基本上以信息熵为基础进行属性评估和启发式搜索，只考虑了信息系统以熵形式所提供的确定性分类信息^[14‒15]，然而，粗糙集模型的上下近似集也可以为属性约简提供分类信息^[3,15‒17]。针对这一问题，Jiang等^[15]利用上下近似集的粗糙度和依赖度，联合信息熵提出了相对决策熵模型，该熵模型既考虑了属性上下近似集的分类信息，也同时考虑了属性信息熵视角的分类信息；Zhang^[18]和Thuy^[19]等也提出了类似的方法，使其具有更优的属性不确定性度量效果和属性约简性能。

由于相对决策熵具有更好的属性不确定性度量效果，同时，相对决策熵的基本计算单元为属性的上下近似集，当对象变化时，无需对更新的对象进行信息粒的计算^[15]，因此，本文将相对决策熵推广至混合型有序信息系统环境，提出优势邻域相对决策熵模型，并设计出一种增量式属性约简算法。首先，针对优势邻域关系，提出了优势邻域相对决策熵，利用矩阵的形式重构了优势邻域相对决策熵，并设计了混合型有序信息系统的非增量式属性约简算法；然后，对于混合型有序信息系统对象增加和对象减少的两种变化场景，分析和研究了优势邻域相对决策熵的矩阵形式增量式更新，并以这种更新机制分别构建了增量式属性约简算法；最后，在8个公共数据集上进行仿真实验，并与非增量式算法的实验结果相比，验证了所提出增量式算法的有效性，同时与现有的增量式算法相比，验证了所提出增量式算法的优越性。

1 基本理论

决策信息系统通常由4元组

I

（

I = (U, T, V, f)

）表示，其中：U称为论域，

U = {u 1, u 2, ⋯, u n}

；

T = C ⋃ D

，

C

为条件属性集，

D

为决策属性集；

V = ∪ a ∈ T V a

，

V a

为属性

a

的值域；f为对象与属性到属性值域的映射，

f : U × T → V

，

f (x, a) ∈ V a

。

∀ a ∈ T

，如果

V a

为一个递增或递减的偏序，那么属性

a

也被称为一个准则，该决策信息系统也称为有序决策信息系统^[5]，表示为

I ≻ ̲ = (U, T, V, f)

。

针对离散型和数值型混合的信息系统，Chen等^[8]提出了优势邻域粗糙集模型，该模型中，决策信息系统的条件属性集满足

C = C c ⋃ C n

，

C c ⋂ C n = ∅

，

C c

和

C n

分别表示离散型和数值型属性子集。

定义1^[8]　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，设属性子集

A ⊆ T

且

A = A c ⋃ A n

，

A c

和

A n

分别表示离散型和数值型属性子集，邻域半径为

δ

，由属性子集

A

确定的优势邻域关系

N A

定义为：

N A = {(u i, u j) ∈ U × U | Δ i j (a n) ≥ δ ∧ f (u i, a n) ≻ f (u j, a n) ∧ f (u i, a c) ≻ f (u j, a c), ∀ a n ∈ A n, ∀ a c ∈ A c} ⋃ {(u i, u i) | u i ∈ U}

（1）

式中，

Δ i j (a n)

表示对象

u i

和

u j

在属性

a n

下的距离度量，定义为

Δ i j (a n) = | f (u i, a n) - f (u j, a n) |

。在不引起混淆的情形下，下文中省略邻域半径

δ

的标记。

对于

∀ u i ∈ U

和优势邻域关系

N A

，可以诱导出对象

u i

的两种邻域类，分别为对象

u i

优势邻域类

n A + (u i)

（

n A + (u i) = {u j ∈ U | (u j, u i) ∈ N A}

）和对象

u i

劣势邻域类

n A - (u i)

（

n A - (u i) = {u j ∈ U | (u i, u j) ∈ N A}

）。

对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

T = C ⋃ D

，论域

U

在决策属性集

D

上诱导出一组决策类划分

U / D

，

U / D = {l 1 ≻ ̲, l 2 ≻ ̲, ⋯, l r ≻ ̲}

，r为元素个数，同时这些决策类满足偏序关系，因此对于决策类

∀ l s ∈ U / D

，上联合集

I s ≻ ̲

定义为

l s ≻ ̲ = ∪ r' ≥ s l r'

，下联合集

l s ≺ ̲

定义为

l s ≺ ̲ = ∪ r' ≤ s l r'

，s、r'为元素编号。

定义2^[8]　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，上联合集

l s ≻ ̲

和下联合集

l s ≺ ̲

关于属性子集

A

（

A ⊆ T

）的下近似集

N ̲ A (·)

和上近似集

N ¯ A (·)

分别定义为：

N ̲ A (l s ≻ ̲) = {u ∈ U | n A + (u) ⊆ l s ≻ ̲}

，

N ¯ A (l s ≻ ̲) = {u ∈ U | n A + (u) ⋂ l s ≻ ̲ ≠ ∅}

，

N ̲ A (l s ≺ ̲) = {u ∈ U | n A - (u) ⊆ l s ≺ ̲}

，

N ¯ A (l s ≺ ̲) = {u ∈ U | n A - (u) ⋂ l s ≺ ̲ ≠ ∅}

。

同时，上联合集

l s ≻ ̲

关于属性子集

A

（

A ⊆ T

）的近似精度定义为

μ A (l s ≻ ̲)

，

μ A (l s ≻ ̲) = | N ̲ A (l s ≻ ̲) | | N ¯ A (l s ≻ ̲) |

；上联合集

l s ≻ ̲

关于属性子集

A

（

A ⊆ T

）的近似粗糙度定义为

ρ A (l s ≻ ̲)

，

ρ A (l s ≻ ̲) = 1 - μ A (l s ≻ ̲)

；上联合集

l s ≻ ̲

关于属性子集

A

（

A ⊆ T

）的近似依赖度定义为

γ A (l s ≻ ̲)

，

γ A (l s ≻ ̲) = | N ̲ A (l s ≻ ̲) | | U |

；

| · |

代表集合的基数。

2 基于优势邻域相对决策熵的属性约简

2.1 优势邻域相对决策熵

Jiang等^[15]同时考虑了决策正区域和决策边界域对信息系统不确定性的影响，提出了相对决策熵模型。接下来在优势邻域关系下，定义一种优势邻域相对决策熵度量。

定义3　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，上联合集

l s ≻ ̲

关于属性子集

A

（

A ⊆ T

）的优势邻域相对决策熵

E A (l s ≻ ̲)

定义为：

E A (l s ≻ ̲) = (1 - γ A (l s ≻ ̲)) ⋅ ρ A (l s ≻ ̲) l b (ρ A (l s ≻ ̲) + 1)

。

同时，决策属性

D

关于属性子集

A

（

A ⊆ T

）的优势邻域相对决策熵定义为

E A (D)

，

E A (D) = ∑ ∀ l r ≻ ̲ ∈ U / D E A (l r ≻ ̲)

。根据定义2可以得到

0 ≤ E A (l s ≻ ̲) ≤ 1

，因此，

0 ≤ E A (D) ≤ | U / D |

。

粗糙度是信息系统不确定性度量的常用方法^[15,20‒21]，它在不确定性度量的过程中提供了近似集边界域的信息，而依赖度提供了近似集的正区域信息，因此，定义3中的优势邻域相对决策熵以熵的形式联合了粗糙度和依赖度度量，可以综合评估信息系统的不确定性。

性质1　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，属性子集

A 1 ⊆ A 2 ⊆ T

满足

E A 2 (D) ≤ E A 1 (D)

。

证明：见附录A性质1证明。

2.2 优势邻域相对决策熵的矩阵表示

矩阵是表示粗糙集模型的一种重要方法^{[4,9‒11,13,22‒25]}，本文将提出优势邻域相对决策熵的矩阵表示方法。

定义4　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

U = {u 1, u 2, ⋯, u n}

，

T = C ⋃ D

，其中

U / D = {l 1 ≻ ̲, l 2 ≻ ̲, ⋯, l r ≻ ̲}

，那么决策属性

D

对应的决策矩阵

D

（

D = [d i j] n × r

，

1 ≤ i ≤ n

，

1 ≤ j ≤ r

）的元素

d i j

定义为：

d i j = 1, u i ∈ l j ≻ ̲; 0, u i ∉ l j ≻ ̲

（2）

通过定义4可以看出，决策矩阵

D

的第

j

个列向量即为决策类

l j ≻ ̲

（

l j ≻ ̲ ∈ U / D

）对应的特征向量。

定义5　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

U = {u 1, u 2, ⋯, u n}

，

A ⊆ T

，优势邻域关系

N A

对应的优势邻域关系矩阵

N A

（

N A = [p i j A] n × n

，

1 ≤ i

，

j ≤ n

）的元素

p i j A

定义为：

p i j A = 1, (u i, u j) ∈ N A; 0, (u i, u j) ∉ N A

（3）

通过定义5可以看出，优势邻域关系矩阵

N A

的第

j

个列向量即为优势邻域类

n A + (u j)

的特征向量。

定义6　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，给定决策矩阵

D

和优势邻域关系矩阵

N

，那么

U / D

（

U / D = {l 1 ≻ ̲, l 2 ≻ ̲, ⋯, l r ≻ ̲}

）关于优势邻域关系

N A

的下近似集矩阵

L A

（

L A = [φ i j] n × r

）和上近似集矩阵

U A

（

U A = [ϕ i j] n × r

）的元素分别定义为：

φ i j = ∧ k = 1 n [(1 - p k i A) ∨ d k j]

，

1 ≤ i ≤ n

，

1 ≤ j ≤ r

；

ϕ i j = ∨ k = 1 n [p k i A ∧ d k j]

，

1 ≤ i ≤ n

，

1 ≤ j ≤ r

。

在定义6中，对于决策上联合集

l s ≻ ̲

的下近似集

N ̲ A (l s ≻ ̲)

和上近似集

N ¯ A (l s ≻ ̲)

，若

u e ∈ N ̲ A (l s ≻ ̲)

，

u f ∉ N ̲ A (l s ≻ ̲)

，那么

φ e s = 1

，

φ f s = 0

；同理若

u g ∈ N ¯ A (l s ≻ ̲)

，

u h ∉ N ¯ A (l s ≻ ̲)

，那么

ϕ g s = 1

，

ϕ h s = 0

；其中，e、f、g、h为不同对象编号。

可以看出，下近似集矩阵的第

i

列刚好是决策类

l i ≻ ̲

下近似集的特性向量形式，上近似集矩阵也是如此。

定义7　给定矩阵

M = [m i j] n × n

，定义其函数

S (·)

运算结果

S (M)

为：

S (M) = [ω i j] 1 × n

，定义该行向量元素

ω 1 j

为

ω 1 j = ∑ k = 1 n m k j

，

1 ≤ j ≤ n

。

综合定义4至定义7的矩阵计算方式，可以得到优势邻域相对决策熵的矩阵形式表达。

定理1　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，决策属性

D

关于

A

（

A ⊆ T

）的优势邻域相对决策熵的矩阵形式

E A (D)

（

E A (D) = [σ i j] 1 × r

）表示为：

E A (D) = (1 - S (L A) . / n) ⋅ (1 - S (L A) . / S (U A)) ⋅ l b (2 - S (L A) . / S (U A))

（4）

式中：“

. /

”代表矩阵的点除，即矩阵对应元素相除；

S (L A) . / n

代表

S (L A)

每个元素除以常数n；

1 - S (L A) . / n

代表元素全为1的矩阵减去矩阵

S (L A) . / n

。

证明：见附录A定理1证明。

在定理1中，可以看出优势邻域相对决策熵的矩阵形式

E A (D)

是一个大小为

1 × r

的向量，向量第

i

个元素即为

E A (l i ≻ ̲)

的值，因此对

E A (D)

中所有元素进行累加便得到最终的

E A (D)

结果。

根据优势邻域相对决策熵的矩阵表达，可以得到如下性质。

性质2　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，属性子集

P

、Q（

P ⊆ T

、

Q ⊆ T

）对应的优势邻域关系矩阵分别为

N P

（

N P = [p i j P] n × n

）和

N Q

（

N Q = [q i j Q] n × n

），那么优势邻域关系

N P ⋃ Q

的优势邻域关系矩阵

N P ⋃ Q

（

N P ⋃ Q = [m i j P ⋃ Q] n × n

）的元素

m i j P ⋃ Q

可表示为：

m i j P ⋃ Q = 1, p i j P = 1 ∧ q i j Q = 1; 0, 否则

（5）

性质3　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，属性子集P、Q（

P ⊆ Q ⊆ T

）对应的优势邻域关系矩阵分别为

N P

和

N Q

，那么优势邻域关系

N Q - P

的优势邻域关系矩阵

N Q - P

（

N Q - P = [m i j Q - P] n × n

）的元素

m i j Q - P

可表示为：

m i j Q - P = 1, q i j Q = 1; 0, p i j P = 1 ∧ q i j Q = 0; 1, (u i, u j) ∈ N Q - P; 0, 否则

（6）

性质4　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，属性子集

P ⊆ T

、

Q ⊆ T

，优势邻域关系

N P

的下近似集矩阵定义为

L P

，

L P = [φ i j] n × r

；上近似集矩阵定义为

U P

，

U P = [ϕ i j] n × r

；优势邻域关系

N P ⋃ Q

的优势邻域关系矩阵定义为

N P ⋃ Q = [m i j P ⋃ Q] n × n

，那么

N P ⋃ Q

的下近似集矩阵

L P ⋃ Q

（

L P ⋃ Q = [φ i j'] n × r

）和上近似矩阵

U P ⋃ Q

（

U P ⋃ Q = [ϕ i j'] n × r

）的元素分别表示为：

φ i j' = 1, φ i j = 1; ∧ k = 1 n ((1 - m k i P ⋃ Q) ∨ d k j), 否则

（7）

ϕ i j' = 0, ϕ i j = 0; ∨ k = 1 n (m k i P ⋃ Q ∧ d k j), 否则

（8）

证明：见附录A性质4证明。

性质5　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，属性子集

P ⊆ Q ⊆ T

，优势邻域关系

N Q

的下近似集矩阵定义为

L Q

，

L Q = [φ i j] n × r

；上近似集矩阵定义为

U Q

，

U Q = [ϕ i j] n × r

；优势邻域关系

N Q - P

的优势邻域关系矩阵定义为

N Q - P = [m i j Q - P] n × n

，那么

N Q - P

的下近似集矩阵

L Q - P

（

L Q - P = [φ i j'] n × r

）和上近似矩阵

U Q - P

（

U Q - P = [ϕ i j'] n × r

）的元素分别表示为：

φ i j' = 0, φ i j = 0; ∧ k = 1 n ((1 - m k i Q - P) ∨ d k j), 否则

（9）

ϕ i j' = 1, ϕ i j = 1; ∨ k = 1 n (m k i Q - P ∧ d k j), 否则

（10）

证明：见附录A性质5证明。

性质2～5表明了信息系统增加和减少属性时下近似集矩阵和上近似矩阵的变化关系，利用此性质可进一步实现混合有序信息系统矩阵方法的属性约简。

2.3 优势邻域相对决策熵的非增量式属性约简

定义8　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

T = C ⋃ D

，若

c

为信息系统的一个属性约简集，则需同时满足：

1）

E c (D) = E C (D)

；

2）

∀ a ∈ c, E c - {a} (D) > E c (D)

。

根据定义8可得到矩阵方法的属性重要度定义。

定义9　对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

T = C ⋃ D

且

A ⊆ C

，

∀ a ∈ A

的内部属性重要度矩阵

G i n n (a, A, D)

定义为：

G i n n (a, A, D) = E A - {a} (D) - E A (D)

。

∀ b ∈ C - A

的外部属性重要度矩阵

G o u t (b, A, D)

定义为：

G o u t (b, A, D) = E A (D) - E A ⋃ {b} (D)

。

算法1 基于优势邻域相对决策熵的非增量式属性约简算法。

输入：有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

T = C ⋃ D

，邻域半径

δ

。

输出：属性约简集

c

。

初始化

c ← ∅

;/*步骤1*/

/*步骤2*/

for

∀ a ∈ C

计算内部属性重要度

G i n n (a, C, D) = E C - {a} (D) - E C (D)

;

G i n n (a, C, D) > 0

c ← c ⋃ {a}

;

end if

end for

/*步骤3*/

while

E c (D) ≠ E C (D)

E c (D) > E C (D)

for

∀ a ∈ C - c

计算外部属性重要度

G o u t (a, c, D) = E c (D) - E c ⋃ {a} (D)

;

end for

a m a x = a r g ∀ a ∈ C - c m a x (G o u t (a, c, D))

;

c ← c ⋃ {a m a x}

;

end if

end while

/*步骤4*/

for

∀ b ∈ c

计算内部属性重要度

G i n n (b, c, D) = E c - {b} (D) - E c (D)

;

G i n n (b, c, D) = 0

c ← c - {b}

;

end if

end for

return

c

;/*步骤5*/

根据启发式属性约简的算法架构^[15]，算法1的时间复杂度为

O (| C | 2 ⋅ | U | 2)

。

3 优势邻域相对决策熵的增量式属性约简

动态变化的信息系统中采用算法1进行属性约简非常耗时，因此，针对信息系统对象动态变化场景，提出一种优势邻域相对决策熵的增量式属性约简算法。

3.1 对象动态增加时的增量式属性约简

性质6 对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，论域

U

增加对象集

U +

（

U + = {u n + 1, u n + 2, ⋯, u n + n +}

）、

U'

（

U' = U ⋃ U +

），

U / D

（

U / D = {l 1 ≻ ̲, l 2 ≻ ̲, ⋯, l r ≻ ̲}

），对应的决策矩阵

D = [d i j] n × r

，令

U' / D = {l' 1 ≻ ̲, l' 2 ≻ ̲, ⋯, l' r ≻ ̲}

，那么对应的决策矩阵

D^

（

D^= [d^i j] (n + n +) × r

）的元素更新为：

d^i j = d i j, 1 ≤ i ≤ n, 1 ≤ j ≤ r; 1, u n + i ∈ l' j ≻ ̲, 1 ≤ i ≤ n +, 1 ≤ j ≤ r; 0, u n + i ∉ l' j ≻ ̲, 1 ≤ i ≤ n +, 1 ≤ j ≤ r

（11）

证明：根据定义4可以直接得到性质6成立。

性质7 对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，优势邻域关系

N A

对应的关系矩阵

N A

定义为

N A = [p i j A] n × n

，论域

U

增加对象集

U +

后，新的优势邻域关系

N A'

对应的关系矩阵

N^A

（

N^A = [p^i j A] (n + n +) × (n + n +)

）的元素更新为：

p^i j A = p i j A, 1 ≤ i, j ≤ n; 1, (u i, u n + j) ∈ N A', 1 ≤ i ≤ n, 1 ≤ j ≤ n +; 1, (u n + i, u j) ∈ N A', 1 ≤ i ≤ n +, 1 ≤ j ≤ n; 1, (u n + i, u n + j) ∈ N A', 1 ≤ i, j ≤ n +; 0, 否则

（12）

证明：根据定义5可以直接得到性质7成立。

性质8 对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

U / D

关于优势邻域关系

N A

的下近似集矩阵和上近似集矩阵分别为

L A

和

U A

，论域

U

增加

L^A

对象集

U +

后，

U' / D

关于优势邻域关系

N A'

的下近似集矩阵

L^A

（

L^A = [φ^i j] (n + n +) × r

）和上近似集矩阵

U^A

（

U^A = [ϕ^i j] (n + n +) × r

）分别更新为：

φ^i j = 0, φ i j = 0; ∧ k = n + 1 n + n + ((1 - p^k i A) ∨ d^k j), φ i j = 1; ∧ k = 1 n + n + ((1 - p^k i A) ∨ d^k j), n + 1 ≤ i ≤ n + n +

（13）

ϕ^i j = 1, ϕ i j = 1; ∨ k = n + 1 n + n + (p^k i A ∧ d^k j), ϕ i j = 0; ∨ k = 1 n + n + (p^k i A ∧ d^k j), n + 1 ≤ i ≤ n + n +

（14）

证明：见附录A性质8证明。

根据性质6至性质8，可以进一步得到信息系统论域增加对象集后优势邻域相对决策熵的矩阵形式增量式更新结果。对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，论域增加对象集

U +

后，决策属性

D

关于

A

（

A ⊆ T

）的优势邻域相对决策熵的矩阵形式

E A (D)

（

E A (D) = [σ^i j] 1 × r

）增量式更新为：

E A (D) = (1 - S (L^A) . / (n + n +)) ⋅ (1 - S (L^A) . / S (U^A)) ⋅ l b (2 - S (L^A) . / S (U^A)) 。

根据优势邻域相对决策熵的增量式更新方法，可以进一步构建有序决策信息系统增加对象集后的增量式属性约简算法。

算法2 基于对象增加时的优势邻域相对决策熵增量式属性约简算法。

输入：1）有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

T = C ⋃ D

，属性约简集

c

，决策矩阵

D = [d i j] n × r

，优势邻域关系矩阵

N c = [p i j c] n × n

和

N C = [p i j C] n × n

，下近似集矩阵

L c = [φ i j] n × r

和

L C = [φ i j] n × r

，上近似集矩阵

U c = [ϕ i j] n × r

和

U C = [ϕ i j] n × r

；2）论域

U

增加对象集

U + = {u n + 1, u n + 2, ⋯,

u n + n +}

，

U' = U ⋃ U +

。

输出：新信息系统的属性约简集

c'

。

初始化

c' ← c

;/*步骤1*/

/*步骤2*/

增量式更新决策矩阵

D^

;

增量式更新优势邻域关系矩阵

N^c'

和

N^C

;

增量式更新下近似集矩阵

L^

和

L^C

;

增量式更新上近似集矩阵

U^c'

和

U^C

;

/*根据性质6至8，

D^= [d^i j] (n + n +) × r

，

N^c' = [p^i j c'] (n + n +) × (n + n +)

，

N^C = [p^i j C] (n + n +) × (n + n +)

，

L^c' = [φ^i j] (n + n +) × r

，

L^C = [φ^i j] (n + n +) × r

，

U^c' = [ϕ^i j] (n + n +) × r

，

U^C = [ϕ^i j] (n + n +) × r

/*步骤3*/

增量式计算优势邻域相对决策熵

E c' (D)

和

E C (D)

;

/*步骤4*/

while

E c' (D) ≠ E C (D)

for

∀ a ∈ C - c'

计算优势邻域关系矩阵

N^c' ⋃ {a}

;

更新计算

L^c' ⋃ {a}

和

U^c' ⋃ {a}

;

/*性质2和4，

N^c' ⋃ {a} = [p^i j c' ⋃ {a}] (n + n +) × (n + n +)

，

L^c' ⋃ {a} = [φ^i j] (n + n +) × r

，

U^c' ⋃ {a}

= [ϕ^i j] (n + n +) × r

更新计算

E c' ⋃ {a} (D)

;

计算外部属性重要度

G o u t (a, c', D)

;

G o u t (a, c', D) =

E c' (D) - E c' ⋃ {a} (D)

end for

a m a x = a r g a ∈ C - c' m a x (G o u t (a, c', D))

;/*a_max对应运算最大值的属性*/

G o u t (a m a x, c', D) > 0

c' ← c' ⋃ {a m a x}

;

else

break;

end if

end while

/*步骤5*/

for

∀ b ∈ c'

计算优势邻域关系矩阵

N^c' - {b}

;

更新计算

L^c' - {b}

和

U^c' - {b}

;

/*性质3和5，

N^c' - {b} =

[p^i j c' - {b}] (n + n +) × (n + n +)

，

L^c' - {b} = [φ^i j] (n + n +) × r

，

U^c' - {b} = [ϕ^i j] (n + n +) × r

更新计算

E c' - {b} (D)

;

计算内部属性重要度

G i n n (b, c', D)

;

G i n n (b, c', D) = E c' - {b} (D) - E c' (D)

G i n n (b, c', D) = 0

c' ← c' - {b}

;

end if

end for

return

c'

;

在算法2中，步骤2和步骤3的时间复杂度为

O (| C | ⋅ | U + | 2 + | C | ⋅ | U + | ⋅ | U |)

，步骤4至步骤5搜索属性和剔除属性的时间复杂度为

O (| C | ⋅ | U' | 2)

，因此整个算法2的时间复杂度为

O (| C | ⋅ (| U' | 2 + | U + | 2 + | U + | ⋅ | U |))

。

3.2 对象动态减少时的增量式属性约简

性质9 对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，设论域

U

被删除的对象集为

U - =

{u n - n - + 1, u n - n - + 2, ⋯,

u n}

，

U' = U - U -

，

U / D = {l 1 ≻ ̲, l 2 ≻ ̲, ⋯, l r ≻ ̲}

，对应的决策矩阵

D = [d i j] n × r

，令

U' / D = {l' 1 ≻ ̲, l' 2 ≻ ̲, ⋯, l' r ≻ ̲}

，那么对应的决策矩阵

D^

（

D^= [d^i j] (n - n -) × r

）的元素更新为

d^i j = d i j

，

1 ≤ i ≤ n - n -

，

1 ≤ j ≤ r

。

证明：根据定义4可以直接得到性质9成立。

性质10 对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，优势邻域关系

N A

对应的关系矩阵为

N A

（

N A = [p i j A] n × n

），论域

U

删除对象集

U -

后，新的优势邻域关系

N A'

对应的关系矩阵

N^A

（

N^A = [p^i j A] (n - n -) × (n - n -)

）的元素更新为：

p^i j A = p i j A

，

1 ≤ i

，

j ≤ n - n -

。

证明：根据定义5可以直接得到性质10成立。

性质11 对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

U / D

关于优势邻域关系

N A

的下近似集矩阵和上近似集矩阵分别为

L A

和

U A

，论域

U

删除对象集

U -

后，

U' / D

关于优势邻域关系

N A'

的下近似集矩阵

L^A

（

L^A = [φ^i j] (n - n -) × r

）和上近似集矩阵

U^A

（

U^A = [ϕ^i j] (n - n -) × r

）的元素分别更新为：

φ^i j = 1, φ i j = 1,1 ≤ i ≤ n - n -, 1 ≤ j ≤ r; ∧ k = 1 n - n - ((1 - p^k i A) ∨ d^k j), φ i j = 0,1 ≤ i ≤ n - n -, 1 ≤ j ≤ r

（15）

ϕ^i j = 0, ϕ i j = 0,1 ≤ i ≤ n - n -, 1 ≤ j ≤ r; ∨ k = 1 n - n - (p^k i A ∧ d^k j), ϕ i j = 1,1 ≤ i ≤ n - n -, 1 ≤ j ≤ r

（16）

证明：见附录A性质11证明。

根据性质9至11，可以进一步得到信息系统论域删除对象集后优势邻域相对决策熵的矩阵形式增量式更新。对于有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，论域删除对象集

U -

后，决策属性

D

关于

A ⊆ T

的优势邻域相对决策熵的矩阵形式

E A (D) = [σ^i j] 1 × r

的增量式更新为：

E A (D) = (1 - S (L^A) . / (n - n -)) ⋅ (1 - S (L^A) . / S (U^A)) ⋅ l b (2 - S (L^A) . / S (U^A))

。

根据优势邻域相对决策熵的增量式更新方法，接下来可以进一步得到有序决策信息系统删除对象集后的增量式属性约简算法。

算法3 基于对象删除时的优势邻域相对决策熵增量式属性约简算法

输入：1）有序决策信息系统

I ≻ ̲ = (U, T, V, f)

，

T = C ⋃ D

，属性约简

c

，决策矩阵

D = [d i j] n × r

，优势邻域关系矩阵

N c = [p i j c] n × n

和

N C = [p i j C] n × n

，下近似集矩阵

L c = [φ i j] n × r

和

L C = [φ i j] n × r

，上近似集矩阵

U c = [ϕ i j] n × r

和

U C = [ϕ i j] n × r

。

2）论域

U

删除对象集

U - = {u n - n - + 1, u n - n - + 2, ⋯

, u n}

，

U' = U - U -

。

输出：新信息系统的属性约简

c'

。

初始化

c' ← c

;/*步骤1*/

/*步骤2*/

增量式更新矩阵

D^

N^c'

N^C

L^c'

L^C

U^c'

U^C

;

/*性质9至11，

D^= [d^i j] (n - n -) × r

，

N^c' = [p^i j c'] (n - n -) × (n - n -)

，

N^C = [p^i j C] (n - n -) × (n - n -)

，

L^c' = [φ^i j] (n - n -) × r

，

L^C = [φ^i j] (n - n -) × r

，

U^c' = [ϕ^i j] (n - n -) × r

，

U^C = [ϕ^i j] (n - n -) × r

增量式计算

E c' (D)

和

E C (D)

;/*步骤3*/

/*步骤4*/

while

E c' (D) ≠ E C (D)

for

∀ a ∈ C - c'

计算

N^c' ⋃ {a}

;

更新计算

L^c' ⋃ {a}

和

U^c' ⋃ {a}

;

/*性质2和4，

N^c' ⋃ {a} = [p^i j c' ⋃ {a}] (n - n -) × (n - n -)

，

L^c' ⋃ {a} =

[φ^i j] (n - n -) × r

，

U^c' ⋃ {a} = [ϕ^i j] (n - n -) × r

更新计算

E c' ⋃ {a} (D)

;

计算外部属性重要度

G o u t (a, c', D)

;

G o u t (a, c', D)

= E c' (D) - E c' ⋃ {a} (D)

end for

a m a x = a r g a ∈ C - c' m a x (G o u t (a, c', D))

;

G o u t (a m a x, c', D) > 0

c' ← c' ⋃ {a m a x}

;

else

break;

end if

end while

/*步骤5*/

for

∀ b ∈ c'

计算

N^c' - {b}

;

进一步更新

L^c' - {b} =

和

U^c' - {b} = [ϕ^i j] (n - n -) × r

;

/*性质3和5，

N^c' - {b} = [p^i j c' - {b}] (n - n -) × (n - n -)

，

L^c' - {b} = [φ^i j] (n - n -) × r

，

U^c' - {b} = [ϕ^i j] (n - n -) × r

；*/

更新计算

E c' - {b} (D)

;

计算

G i n n (b, c', D);

/ * G i n n (b, c', D) = E c' - {b} (D) - E c' (D)

G i n n (b, c', D) = 0

c' ← c' - {b}

;

end if

end for

return

c'

;/*步骤6*/

在算法3中，步骤2和步骤3的时间复杂度为

O (| C | ⋅ | U - | 2 + | C | ⋅ | U - | ⋅ | U |)

，步骤4至步骤8搜索属性和剔除属性的时间复杂度为

O (| C | ⋅ | U' | 2)

，因此整个算法3的时间复杂度为

O (| C | ⋅ (| U' | 2 + | U - | 2 + | U - | ⋅ | U |))

。

4 实验分析

本文实验从加州大学欧文分校机器学习数据集库（https://archive.ics.uci.edu/）中下载了8个公共数据集，信息如表1所示，其中数据集的数值型条件属性值采用极差正规化方法标准化至[0,1]范围内。为保证数据集满足类别有序性，计算每个对象所有条件属性值之和，并按照其大小顺序标记新类别标签^[13]。所有实验环节运行的硬件环境如下：CPU型号为Intel(R) Core(TM) i5‒8265U 1.8 GHz，内存为8 GB，实验的软件为Matlab2017b。

4.1 对象增加时增量式与非增量式算法的性能比较

对表1中的每个数据集，随机选择论域的50%作为初始数据集，剩余的50%作为动态增加数据集，然后利用本文的算法2（对象增加时的增量式算法）和算法1（非增量式算法）分别进行属性约简计算，邻域半径

δ

设为

0.1

^[11,26‒28]。表2为两类算法的属性约简集长度，对于该约简结果分别采用支持向量机分类器（SVM）和朴素贝叶斯分类器（NB）进行分类训练，结果如表3所示。同时，分别记录算法2和算法1的属性约简运行时间，评估算法效率，重复上述实验10次，其属性约简的平均运行时间如表4所示。

由表2～4可知：使用本文算法2和算法1得到的属性约简集长度非常接近，其中数据集Cylinder、Credit和Abalone的属性约简集长度完全相同；两种算法采用SVM和NB分类的精度也很接近，部分数据集下的分类精度相同；但各个数据集下算法2的运行时间仅占算法1的1.3%左右，大幅度少于算法1。以上结果表明：本文算法2（增量式算法）在保持了属性约简长度和属性约简分类精度的同时，降低了属性约简的运行时间成本，这主要是由于算法2的属性约简与算法1采用了相同的启发式函数，因此，具有相似的约简集和分类精度；而算法2基于增量式的方法计算对象增加时的属性约简，算法1对对象增加更新后的完整数据进行属性约简，因此算法2的效率大幅度高于算法1。

4.2 对象减少时增量式与非增量式算法的性能比较

将表1的每个完整数据集分别作为初始数据集，随机选择论域的50%作为被删除的对象数据，利用本文的算法3（对象减少时的增量式算法）和算法1（非增量式算法）分别进行属性约简计算，邻域半径

δ

设为

0.1

。表5为两类算法的属性约简集长度，表6为SVM和NB的分类精度结果。同时，分别记录算法3和算法1的属性约简运行时间，重复上述实验10次，平均运行时间如表7所示。由表5～7可知：算法3和算法1的属性约简集长度结果非常接近或完全相同，且两种算法采用SVM和NB分类的精度也非常接近，部分数据集下分类精度完全相同；同样地，算法3的运行时间大幅少于算法1，算法3的运行时间仅占算法1的3.5%左右。以上结果表明，算法3在保持了属性约简长度和属性约简分类精度的同时，降低了约简的运行时间成本，这是由于算法3与算法1采用了相同的启发式函数，因此有相近的属性约简集和分类精度；而算法3基于旧信息系统的约简结果增量式计算对象减少后的属性约简，算法1则对更新后的完整数据进行属性约简，因此算法3的效率大幅度高于算法1。

4.3 本文增量式算法与其他增量式算法的性能比较

为了进一步验证本文增量式算法的优越性，选择了4种同类型的增量式属性约简算法进行比较，参与对比算法的详细信息如表8所示。实验评价主要分为3个方面，分别为增量式属性约简效率、属性约简集长度和属性约简分类精度。表8中，对比增量式算法2只适用于离散型的有序信息系统，该算法进行实验时需将表1各个数据集的数值型属性进行离散化处理。

4.3.1 对象增加时算法性能比较

对表1中各数据集，随机选择论域的50%对象作为初始对象集，然后将剩余50%对象中的20%、40%、60%、80%和100%分别添加到初始对象集中，以实现数据集不同量对象的动态增加。图1为各数据集在不同对象数据增加比例下不同实验算法的增量式属性约简运行时间。

分析图1可以发现：

1）随着增加对象的百分比不断增加，所有实验算法的运行时间整体上呈现出逐渐增长的趋势。

2）对比增量式算法3在各个数据集下的约简用时最长，主要由于该算法在增量式计算过程中进行了属性权重的计算，因而增加了额外的开销。

3）本文的增量式算法（算法2）有着最少的运行时间，说明本文算法有着最高的约简效率，这主要是由于优势邻域相对决策熵主要以优势邻域上下近似集为基础，本文算法采用矩阵的策略直接去增量式更新上下近似集，而无需对每个优势邻域类进行更新计算，相比较于对比算法具有更高的计算效率，因而运算耗时更少。

表9为初始数据集增加100%剩余对象集后所有实验算法的属性约简集结果，表10为属性约简集下SVM和NB分类精度结果。

由表9可知：本文增量式算法在数据集Credit、Abalone和Thyroid的约简集长度最小；对比增量式算法2有着最大的约简集长度，这主要是由于该算法仅适用于离散型的信息系统，而原始数据集的离散化处理丢失了一定的数值信息，因此需要更多的属性去支持分类信息的一致性^[9]。

由表10可知：本文增量式算法整体上具有最高的精度结果，而对比增量式算法3的分类精度结果接近或仅次于本文增量式算法，这主要是由于对比增量式算法3采用属性加权的方法进行属性约简，在约简的选择过程中进行了属性权重的排序和过滤，因此，其选择的约简结果同样具有较高的分类性能。对比增量式算法4在少部分数据集下有着比本文算法更高的分类精度，例如在数据集Wdbc下采用SVM分类时的精度、在数据集Abalone下采用NB分类时的精度，这主要是由于对比增量式算法4采用了一种量化优势关系的邻域自信息方法进行属性约简，对数据之间的优势程度进行了量化，在一些优势关系不明显的数据集上会有着更好的属性选择结果，从而使得到的属性约简具有更优的分类效果。

4.3.2 对象减少时算法性能比较

将表1中的每个完整数据集作为初始对象集，然后随机分别选择论域的50%对象中的20%、40%、60%、80%和100%从初始对象集中删除，以实现不同量对象的动态减少。

图2为各数据集在不同对象数据减少比例下所有实验算法的增量式属性约简运行时间。由图2可知：1）随着减少对象的百分比不断增加，所有实验算法的运行时间整体上呈现出逐渐下降趋势；2）对比增量式算法3在各数据集下增量式属性约简用时最长，主要是由于该算法需要进行属性权重的计算，增加额外开销；3）本文的增量式算法有着最少的运行时间，同样是由于本文算法直接增量式更新上下近似集，提升了动态更新约简的效率。

表11为初始数据集减少50%对象集后所有实验算法的增量式属性约简集长度比较，表12为属性约简集结果采用SVM和NB分类的精度对比。由表11和12可知：本文增量式算法（算法3）整体上仍然具有较少的约简属性数量，其分类精度也是整体上最高；对比增量式算法3的分类精度接近或仅次于本文增量式算法，其原因同样是由于对比增量式算法3进行了属性权重的排序和过滤，因此，选择出的约简子集具有较高的分类精度。

4.4 本文增量式算法适用性讨论

进一步分析讨论本文增量式算法的适用性。从UCI数据集库中选择了4个高维数据集，如表13所示。在这些数据集中，其属性的数量都远大于对象的数量，通过这些数据集进一步验证本文增量式算法的实验性能。

按照第4.1、4.2节的方法构造数据集对象的动态增加和动态减少，将本文的非增量式算法与增量式算法分别进行属性约简，重复实验10次，记录每个实验的算法用时，表14和15分别为高维数据集下对象增加、减少时属性约简的平均用时比较。

对比表14与4可知，表14中非增量式算法和增量式算法的属性约简用时相差不是特别大，处于相同数量级水平，说明对于高维数据集下对象增加场景，增量式算法的效率相较于非增量式算法并没有提升太多。由表15可知，增量式算法的属性约简用时反而要多于非增量式算法，这说明对于高维数据集下对象减少场景，增量式算法不仅没有提升效率，反而增加了属性约简的复杂度，消耗了更多的计算时间。因此，综合表14和15的结果可知，本文所提出的增量式属性约简算法不适合用于高维数据集环境，其增量式的性能没有明显提升，同时可能会出现效率变差的情况。

5 结论

本文利用优势邻域相对决策熵方法提出了一种有序决策信息系统的增量式属性约简方法。本文的贡献主要包括以下几个方面。首先，将传统的相对决策熵在优势邻域关系下进行推广，提出了优势邻域相对决策熵模型，并利用优势邻域相对决策熵评估属性重要度；然后，研究了优势邻域相对决策熵的矩阵计算方法以及相关性质，并利用优势邻域相对决策熵的矩阵形式设计了一种启发式属性约简算法；最后，分别研究了对象动态增加和动态减少场景下的优势邻域相对决策熵增量式属性约简算法。通过一系列的对比实验，验证了该方法的有效性。在将来的工作和研究中，将进一步探索属性变化以及对象和属性同时变化的增量式属性约简问题。

附录见本刊网络版，扫描标题旁的二维码可阅读

网络全文。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Chen Baoguo, Chen Lei, Deng Ming,et al.Incremental attribute reduction algorithm based on incomplete hybrid order information system[J].Advanced Engineering Sciences,2024,56(1):65‒81. doi:10.15961/j.jsuese.202201214

[2]	陈宝国,陈磊,邓明,等.基于不完备混合序信息系统的增量式属性约简[J].工程科学与技术,2024,56(1):65‒81. doi:10.15961/j.jsuese.202201214

[3]	Qu Kanglin, Xu Jiucheng, Hou Qincheng,et al.Feature selection using Information Gain and decision information in neighborhood decision system[J].Applied Soft Computing,2023,136:110100. doi:10.1016/j.asoc.2023.110100

[4]	Yang Xin, Yang Yuxuan, Luo Junfang,et al.A unified incremental updating framework of attribute reduction for two-dimensionally time-evolving data[J].Information Sciences,2022,601:287‒305. doi:10.1016/j.ins.2022.04.026

[5]	Huang Yanyong, Guo Kejun, Yi Xiuwen,et al.Matrix representation of the conditional entropy for incremental feature selection on multi-source data[J].Information Sciences,2022,591:263‒286. doi:10.1016/j.ins.2022.01.037

[6]	Sang Binbin, Yang Liuzhong, Chen Hongmei,et al.Incremental attribute reduction algorithm in dominance-based rough set[J].Computer Science,2020,47(8):137‒143. doi:10.11896/jsjkx.190700188

[7]	桑彬彬,杨留中,陈红梅,等.优势关系粗糙集增量属性约简算法[J].计算机科学,2020,47(8):137‒143. doi:10.11896/jsjkx.190700188

[8]	Qamar U, Raza M S.A computationally efficient approximation calculation method in dominance-based rough set approach[J].Applied Soft Computing,2023,148:110926. doi:10.1016/j.asoc.2023.110926

[9]	Yang Shuyun, Zhang Hongying, Shi Guang,et al.Attribute reductions of quantitative dominance-based neighborhood rough sets with A-stochastic transitivity of fuzzy preference relations[J].Applied Soft Computing,2023,134:109994. doi:10.1016/j.asoc.2023.109994

[10]	Chen Hongmei, Li Tianrui, Cai Yong,et al.Parallel attribute reduction in dominance-based neighborhood rough set[J].Information Sciences,2016,373:351‒368. doi:10.1016/j.ins.2016.09.012

[11]	Sang Binbin, Chen Hongmei, Yang Lei,et al.Incremental attribute reduction approaches for ordered data with time-evolving objects[J].Knowledge-Based Systems,2021,212:106583. doi:10.1016/j.knosys.2020.106583

[12]	Sang Binbin, Chen Hongmei, Li Tianrui,et al.Incremental approaches for heterogeneous feature selection in dynamic ordered data[J].Information Sciences,2020,541:475‒501. doi:10.1016/j.ins.2020.06.051

[13]	Sang Binbin, Chen Hongmei, Yang Lei,et al.Incremental feature selection using a conditional entropy based on fuzzy dominance neighborhood rough sets[J].IEEE Transactions on Fuzzy Systems,2022,30(6):1683‒1697. doi:10.1109/tfuzz.2021.3064686

[14]	Pan Yanzhou, Xu Weihua, Ran Qinwen.An incremental approach to feature selection using the weighted dominance-based neighborhood rough sets[J].International Journal of Machine Learning and Cybernetics,2023,14(4):1217‒1233. doi:10.1007/s13042-022-01695-4

[15]	Yang Lei, Qin Keyun, Sang Binbin,et al.A novel incremental attribute reduction by using quantitative dominance-based neighborhood self-information[J].Knowledge-Based Systems,2023,261:110200. doi:10.1016/j.knosys.2022.110200

[16]	Zhang Qinli, Chen Yiying, Zhang Gangqiang,et al.New uncertainty measurement for categorical data based on fuzzy information structures:An application in attribute reduction[J].Information Sciences,2021,580:541‒577. doi:10.1016/j.ins.2021.08.089

[17]	Jiang Feng, Sui Yuefei, Zhou Lin.A relative decision entropy-based feature selection approach[J].Pattern Recognition,2015,48(7):2151‒2163. doi:10.1016/j.patcog.2015.01.023

[18]	Xing Jinming, Gao Can, Zhou Jie.Weighted fuzzy rough sets-based tri-training and its application to medical diagnosis[J].Applied Soft Computing,2022,124:109025. doi:10.1016/j.asoc.2022.109025

[19]	Huang Haixin, Li Zhaowen, Liu Fang,et al.New uncertainty measurement for hybrid data and its application in attribute reduction[J].Information Sciences,2024,664:120334. doi:10.1016/j.ins.2024.120334

[20]	Zhang Chucai, Lu Zhengxiang, Dai Jianhua.Incremental attribute reduction for dynamic fuzzy decision information systems based on fuzzy knowledge granularity[J].Information Sciences,2025,689:121467. doi:10.1016/j.ins.2024.121467

[21]	Thuy N N, Wongthanavasu S.Attribute reduction with fuzzy divergence-based weighted neighborhood rough sets[J].International Journal of Approximate Reasoning,2024,173:109256. doi:10.1016/j.ijar.2024.109256

[22]	Vo B K, Nguyen H S.An attribute ranking method based on rough sets and interval-valued fuzzy sets[J].International Journal of Approximate Reasoning,2024,170:109215. doi:10.1016/j.ijar.2024.109215

[23]	Zhao Jie, Wu Daiyang, Wu Jiaxin,et al.Consistency approximation:Incremental feature selection based on fuzzy rough set theory[J].Pattern Recognition,2024,155:110652. doi:10.1016/j.patcog.2024.110652

[24]	Hu Chengxiang, Zhang Li, Huang Xiaoling,et al.Matrix-based approaches for updating three-way regions in incomplete information systems with the variation of attributes[J].Information Sciences,2023,639:119013. doi:10.1016/j.ins.2023.119013

[25]	Wen Haotong, Xu Yi, Liang Meishe.Parallel attribute reduction algorithm for unlabeled data based on fuzzy discernibility matrix and soft deletion behavior[J].Information Sciences,2025,689:121472. doi:10.1016/j.ins.2024.121472

[26]	Xu Weihua, Bu Qinyuan.Matrix-based incremental feature selection method using weight-partitioned multigranulation rough set[J].Information Sciences,2024,681:121219. doi:10.1016/j.ins.2024.121219

[27]	Zhang Xiaoyan, Wang Jinghong, Hou Jianglong.Matrix-based approximation dynamic update approach to multi-granulation neighborhood rough sets for intuitionistic fuzzy ordered datasets[J].Applied Soft Computing,2024,163:111915. doi:10.1016/j.asoc.2024.111915

[28]	Xie Jingjing, Hu Bao qing, Jiang Haibo.A novel method to attribute reduction based on weighted neighborhood probabilistic rough sets[J].International Journal of Approximate Reasoning,2022,144:1‒17. doi:10.1016/j.ijar.2022.01.010

[29]	Zhang Tengfei, Zhang Yudi, Ma Fumin.Improved neighborhood space based feature selection algorithm for highdimensional mixed data[J].Control and Decision,2024,39(3):929‒938. doi:10.13195/j.kzyjc.2022.0789

[30]	张腾飞,张宇迪,马福民.基于改进邻域空间的高维混合数据特征选择算法[J].控制与决策,2024,39(3):929‒938. doi:10.13195/j.kzyjc.2022.0789

[31]	Zhang Di, Zhu Ping.A novel approach to discretizing information systems associated with neighborhood rough sets[J].International Journal of Approximate Reasoning,2024,164:109062. doi:10.1016/j.ijar.2023.109062