大样本下基于空间向量聚类的非概率证据融合方法研究

曹黎侠 ,  王嘉鑫 ,  毛春妮

内蒙古师范大学学报(自然科学版) ›› 2025, Vol. 54 ›› Issue (03) : 221 -228.

PDF (624KB)
内蒙古师范大学学报(自然科学版) ›› 2025, Vol. 54 ›› Issue (03) : 221 -228. DOI: 10.3969/j.issn.1001-8735.2025.03.001

大样本下基于空间向量聚类的非概率证据融合方法研究

作者信息 +

Non-probabilistic Evidence Fusion Method Based on Spatial Vector Clustering for Large-sample Scenarios

Author information +
文章历史 +
PDF (638K)

摘要

针对大样本情况下的冲突证据融合问题,综合考虑证据之间的支持关系和证据本身的不确定性,提出了一种基于空间向量Jousselme距离聚类的证据融合新方法,用于处理大样本情况下的证据融合问题,并降低证据冲突带来的影响。基于逐步融合的理念,先通过聚类分析计算出证据间的距离对证据进行分类,再采用Murphy方法对同一类证据进行融合,然后对初步融合后的新证据运用D⁃S(Dempster⁃Shafer)组合规则实现排序和决策;最后将该方法用于高校在校生心理社会性发展问题的研究。实证分析表明,新方法有效可行,实证结果可为心理社会性发展预测、评估等研究提供参考。

Abstract

To address the issue of conflicting evidence fusion in large-sample scenarios, this study proposed a novel evidence fusion method based on spatial vector Jousselme distance clustering. The method comprehensively considered the supportive relationships between evidence and the uncertainty of the evidence itself, aiming to reduce the impact of evidence conflicts. Guided by a stepwise fusion approach, this study first calculated inter-evidence distances through cluster analysis for evidence classification. Murphy's method was then used to fuse evidence within the same category, and then the D-S combination rule was applied to the newly fused evidence for ordering and decision-making. Finally, the method was employed to study psychosocial development issues among university students. Empirical analysis demonstrated the effectiveness and feasibility of the proposed method, and the results can provide reference for predicting and assessing psychosocial development.

Graphical abstract

关键词

证据冲突 / 大样本 / 向量空间聚类 / 心理社会性发展

Key words

evidence conflict / large sample / vector space clustering / psychosocial development

引用本文

引用格式 ▾
曹黎侠,王嘉鑫,毛春妮. 大样本下基于空间向量聚类的非概率证据融合方法研究[J]. 内蒙古师范大学学报(自然科学版), 2025, 54(03): 221-228 DOI:10.3969/j.issn.1001-8735.2025.03.001

登录浏览全文

4963

注册一个新账户 忘记密码

复杂系统是人工智能领域研究的热点问题之一,由于系统的不确定性、动态性、多源性、高维性等特征,使得复杂系统的优化、数据处理、信息融合等成为人工智能领域迫切需要解决的问题和社会关注的焦点13。信息融合作为处理矛盾数据和缺失信息的技术,受到广泛重视。作为一种信息融合策略,证据理论尤为适用于充满不确定因素的情景中,它能够有效构建和评估信息的模糊性与不准确性,区分“未知”和“不确定”信息,增强信息之间的互补关系,提高决策的准确性45。但也存在高度矛盾的证据冲突可能会得到无效结果的现象。
鉴于此,一些学者采用加权平均法对冲突信息进行平均分配,再采用D⁃S组合规则对加权证据进行融合,使融合信息集中于不确定性测度小的属性6,但这种方法没有考虑证据之间的关联度等特征,可能导致结果误判。另一些学者针对D⁃S组合规则在证据高度冲突时产生失效、反直觉的结果,研究出两种方法:其一是对D⁃S组合规则的修改;其二是对证据主体进行预处理78。还有学者研究表明,当前融合信息的种类越来越多元化,但没有一个通用且被统一认可的信息融合方法,可以彻底解决不确定性和高度冲突的数据融合问题9。而且目前的D⁃S组合规则更适用于中、小样本,处理大样本时计算步骤烦琐,而得到的结果并不理想10。因此,本文提出一种基于证据相似性的分类方法来改进证据组合规则,在大样本情况下,提高证据融合的准确性并减少计算量。

1 理论基础

1.1 信息融合

信息融合是一种形式框架,常用的方法有加权平均法、贝叶斯推理、证据理论、卡尔曼滤波、模糊理论和神经网络等。目前主要是基于信息融合层次进行分类,分为数据层融合方法、特征层融合方法以及决策层融合方法,每个方法又可运用数学和统计学的不同方法。

1.2 证据理论

Θ是一个识别框架,由系统的所有假设命题或所有可能的决策或判断结论构成,表示为Θ=θ1,θ2,θ3,,θn11

基本概率分配(BPA)是定义在识别框架Θ上的一个函数m2Θ[0,1]),称为mass函数,并且满足m=0AΘmA=1mA>0A称为焦元。

信度函数(belief function),在识别框架Θ上基于BPA m的函数

BelA=BAm(B)

似然度函数(plausibility function),在识别框架Θ上基于BPA m的函数

PlA=ABm(B)

对于AΘ,识别框架Θ上的有限个mass函数m1m2,…,mn的D⁃S合成规则为

m1m2mnA=1KA1A2An=Am1A1m2A2mnAn,

其中,

K=A1A2Anm1A1m2A2mnAn =1-A1A2An=m1Bm2CmnAn

冲突系数K越大,表明各证据间的矛盾越尖锐,融合后会导致错误结论。

2 基于空间向量聚类的改进证据理论方法

2.1 大样本情况下信息融合的改进方向

信息融合过程中最常用的方法是加和乘的规则,当证据之间冲突比较大,加性规则可以有效地将冲突信息进行平均分配以降低影响;当证据之间冲突较小,乘性规则可使融合信息向不确定性小的属性靠拢。大样本情况下指标维数多,为统计分析与建模带来不便,并且变量之间会有一定的联系。因此,选择变量之间的相似关系将其聚合为若干类,以减少与证据之间的冲突。

鉴于此,本文提出改进的D⁃S证据理论方法,基本原理是通过分类加权多次融合的方式,有效减少因证据之间冲突对融合结果的影响。首先将同类证据聚合为一个整体,利用加性规则对所含信息初步融合,再基于Jousselme距离确定分类后新证据之间的权重,运用乘性规则对初步融合的证据加权二次融合,最后将二次融合结果代入组合规则中再融合。

2.2 改进的证据融合方法

大样本情况下信息融合的核心方法有聚类分析、Murphy方法及Jousselme距离。本文针对当前这3种方法存在的弊端,提出一种改进的分类加权的新方法。

2.2.1 改进方法的设计思路

(1)空间向量的聚类。本文分别运用R型和Q型聚类分析12,将空间类似向量组成多个类,具体步骤如下。

Step1 运用肘部法则,确定分类数k。肘部法则是一种用于确定在k均值聚类算法中质心数的技术。肘部法的核心思想是分类数k越大,样本划分越精细,每个类的聚合程度逐渐提高,误差平方和(SSE)逐渐变小。利用连续迭代确定k值,从k=1到k=nn是根据要求选择的超参数),随着k的增加,SSE会随之降低,当下降幅度明显趋缓时,定为k值。利用公式(3)得到最小化点到聚类中心的距离D

D=i=0nminμjC (xi-μj2)

Step2 分别运用R型和Q型聚类分析,确定分类并比较聚类结果。根据R型聚类法,首先确定每个样本属于每个簇的隶属度,然后运用式(4)计算每个样本到每个簇中心的距离r,再根据当前的隶属度重新计算每个样本属于每个簇数的隶属度,最后根据当前隶属度重新计算每个簇的中心。重复上述操作,一直到隶属度不再发生变化或达到最大的迭代次数。

r=i=1n(xi-x¯)(yi-y¯)i=1n(xi-x¯)2i=1n(yi-y¯)2

根据Q型聚类法,首先构造n个类,每个类中只包含一个样本点,每一类的平台高度为0,然后运用式(5)计算n个样本点两两之间的距离d,再将距离最近的两类合并为新类,并以这两类间的距离值作为新的平台高度,最后再次计算新类与当前各类的距离,若类的个数已经等于1,则分为一类,否则继续上一步,直到分为n类。

d=i=1n(xi-yi)2

(2)运用Murphy方法对分类后的证据初步融合。Murthy在平均信度优先情况下,提出了式(6)处理证据冲突:

m¯A=1ni=1nmiA,A Θ

式(6),Murphy对D⁃S组合规则进行(n-1)次组合计算得到融合结果。

(3)基于Jousselme距离解决证据冲突的方法。Jousselme等13从空间向量的角度提出在向量空间中测量证据距离的方法,利用证据距离来描述两种不同来源证据之间的冲突,具体步骤如下。

Step1 确定证据间的相似性。

dm1,m2=12m1-m2D(m1-m2)T12

其中mj为行向量,D2n×2n的矩阵,其元素定义为Di,j=Ai1Aj2Ai1Aj2Aik表示第k个证据mk的第i个子集;A表示集合中元素个数。

Step2 计算每个证据的可信度。经过Step1计算出证据距离,构建出证据相似度以及证据可靠度,见式(8)—(10):

simi,mj=1-dmi,mj
sup mi=j=1,jinsimi,mj
cred mi=sup mij=1nsup mj

其中simi,mj表示证据mimj之间的相似度,sup mi表示其他证据对证据mi的支持度,cred mi表示为证据mi支持度的归一化值,表示证据mi的可信度,可以作为证据mi的权重。

Step3 将计算出的权重对证据进行加权平均。对相互独立的证据mj,利用可信度cred mj加权处理,得到平均证据,即Ar基本概率的加权平均值

m¯wAr=j=1ncred mjmj(Ar)

Step4 利用组合规则,即公式(1)对加权平均证据m¯wAr合成(n-1)次。

2.2.2 改进方法的算法步骤

依据以上设计思路,改进方法的算法步骤如下。

Step1 基于证据的相似度对证据进行分类。首先通过肘部法则确认分类簇数k,然后利用R型和Q型聚类法对证据分类,记为Tθi,其中θ=RQ融合的方法,i=1,2,,nn为分类数。

Step2 对同类型证据进行融合。采用Murphy方法对集合Tθi中的证据mjiji =1,2,…,ni )进行数据融合,将融合后的证据记为m¯θi,表示分类后该类型θii=1,2,…,n)证据的融合结果。

Step3 对不同类型的证据进行加权。通过Jousselme距离度量证据之间的距离1415,确定证据mj的信度,证据m¯θi的可信度表示集合Tθi中的所有证据mjiji =1,2,…,ni )的信度总和,即

credm¯θi=ji=1nicred(mji)

其中mji 为分类后θi 的证据,cred(m¯θi)为证据m¯θi的权重wθi。利用可信度credm¯θi对证据m¯θi加权处理得到加权平均证据,即Ar 基本概率的分类加权平均值为

m¯cw(Ar)=i=1ncred(mθi)mθi

Step4 利用证据理论组合规则对加权平均证据m¯cw(Ar)合成(s-1)次,s(1≤sn)为证据分类个数。

3 新证据融合方法的应用

3.1 高校在校生心理社会性发展研究设计

3.1.1 调查问卷设计

在校大学生虽然拥有良好的教育条件、生活环境,具有自信、开阔的眼界以及独立的个性,但是在面对生活中所出现的复杂关系和情况时,可能会对他们的自信心造成一定的打击,甚至还会对其信念、认知产生强烈的冲击16。特别是近几年全球经济形式持续低迷,给在校生造成不小的心理压力17。因此,本文对在校生心理社会性发展进行调查,并做简单评估。

本研究数据主要来源于问卷调查。依据影响在校生心理社会性发展的主要因素设计了23个题目,题目内容可以分为情景认知、自我认同、人际认知、亲社会情感、人际交往能力、自我控制、社会性发展以及环境适应八个不同的维度。

3.1.2 问卷数据的整理

发放问卷323份,有效问卷303份。问卷内容是基于n个证据m个命题,数据处理时需要将选项进行分类,按照问卷评价中的赋分情况进行数据统计。为确保问卷赋分的有效性,本文选择专家评判法18,邀请5位专家、老师对问卷赋分情况进行评估,并分为“合理”“较合理”“一般”“较不合理”“不合理”5个评价等级。

问卷中的1-7题是用于确认在校生身份基本情况,8-23题用于在校生心理社会性发展研究,但第8题数据无法直接用于研究,在总结时作为因素之一。按照问卷评价中的赋分进行数据统计,将赋分后的同一分值的选项百分比进行相加,且选用每个题目所有选项归一化后的值(问卷和数据略)。

3.2 基于聚类分析的改进证据理论方法应用

3.2.1 传统证据理论的应用

根据整理后的问卷数据,将在校生心理社会性发展按照健康等级划分为优、良、一般、不良,即识别框架为Θ=r1,r2,r3,r4,其中r1表示优,r2表示良,r3表示一般,r4表示不良,15个题目作为证据mnn=1,2,…,15),是定义在识别框架Θ中的15个独立的BPA。假设两个及以上元素mass函数值均为0,即r1,r2,r3,r4相互独立。

根据传统的证据理论组合规则,将数据代入D⁃S合成规则式(1)中,将所有证据进行融合,使用MATLAB运行出融合结果为

r1=0.000 002 97r2=0.999 997 02r3=0.000 000 001,r4=0

传统方法融合结果与问卷收集结果有较大出入,即与直觉相悖。

3.2.2 改进后的证据理论模型

Step1 利用肘部法确认分类的簇数。不同k值的聚类偏差图如图1所示。根据拐点判断出簇数为6和4,由于分类数越大分类越精确,但计算量增大,而分类数过小会导致分类误差大,综合考虑选择簇数为6。

Step2 分类并融合分类数据。

R型聚类法:①通过R型聚类将15个题目分为6类,第1类有8题,第2类有3题,第3类有4题,第4类有5题,第5类有6题,第6类有7题。

②根据分类,利用Murphy方法再次进行计算。

第一类、第二类的平均值为

m¯RM1=0.216 5     0.689 0     0.071 8     0.022 7
m¯RM2=0.434 6     0.210 1    0.270 6     0.084 7

再用组合规则式(1)对第一类融合7次、第二类融合2次,得到

m¯RMZ1=0.000 096     0.999 9      0.000 000 012      0.000 000 000 001 4
m¯RMZ2=0.734 3      0.083 0   0.177 3     0.005 4

整理新的分类数据,见表1

③利用Jousselme距离函数计算新的分类数据。

第一类的权重

wR11=0.126 7wR12=0.125 9wR13=0.123 3
wR14=0.126 9wR15=0.117 2wR16=0.127 9
wR17=0.125 9wR18=0.126 3

加权平均后得到

mRJ1=0.217 1      0.689 6      0.070 8      0.022 5

将第一类加权平均后得到的结果融合7次,得到融合结果

mRJD1=0.000 096      0.999 9      0.000 000 012      0.000 000 000 001 3

第二类的权重wR21=0.334 4wR22=0.359 2wR22=0.306 4

加权平均后得到

mRJ2=0.437 3      0.216 7      0.261 3      0.084 7

将第二类加权平均后得到的结果融合2次,得到融合结果

mRJD2=0.745 0      0.090 7      0.158 9     0.005 4

整理新的分类数据,见表2

Q型聚类法:同样的步骤,通过Q型聚类将15个题目分为6类,利用Murphy方法得到新的分类数据,见表3

利用Jousselme距离函数得到新的分类数据,见表4

由表1-4可见,Murphy方法和Jousselme距离函数加权法得到的结果相差较小,表明两种聚类方法所得到的分类结果都很合理,因此, Murphy方法可用于类内数据融合。

Step3 利用 Jousselme距离函数确认类间权重。

①对R型分类后再将通过Murphy方法所得到的数据(表1)加权,得到类间的权重

wR1=0.129 4,wR2=0.129 0wR3=0.161 2
wR4=0.200 5,wR5=0.183 9wR6=0.196 0

证据修正后的BPA:

m¯CW1=0.197 7      0.424 6      0.298 3      0.089 4

②对Q型分类后再将通过Murphy方法所得到的数据(表2)加权,得到类间的权重

wQ1=0.150 8,wQ2=0.155 6wQ3=0.133 4
wQ4=0.177 3,wQ5=0.206 3,wQ6=0.176 6

证据修正后的BPA

m¯CW2=0.247 6      0.433 8      0.252 5      0.066 1

Step4 结果的合成。

①将在R型聚类下修正后的BPA合成5次得

rR1=0.006 6,rR2=0.886 7rR3=0.106 6,rR4=0.000 077

冲突系数kR=0.006 6

②将在Q型聚类下修正后的BPA合成5次得

rQ1=0.032 2rQ2=0.931 5,rQ3=0.036 2,rQ4=0.000 010

冲突系数kQ=0.007 1

3.3 模型结果分析

通过数据模拟的结果可知,经典组合规则融合方法,与问卷数据相差过大,一定程度上背离了人的直觉判断;用于在校生心理社会性发展研究的影响,与现实状况有差异。改进后的信息融合方法所得出的融合结果与问卷数据结果更加符合。

根据问卷数据以及所计算出的冲突系数,满足kR<kQ,则R型聚类更适合作为分类方法,与实际相符合。

4 结论

本文针对大样本下证据冲突问题,基于空间向量聚类的思想,提出一种改进的证据融合方法。实证分析表明,本文提出的证据融合方法是科学可行的,以下为主要研究结论。

(1)构建的改进信息融合模型,在大样本下减少了传统D⁃S理论的计算量。针对D⁃S证据理论在处理证据冲突时的局限性,在聚类分析、Murphy方法和Jousselme距离函数的基础上,提出的分类加权方法使证据修正权重更加合理,有更高的稳定性。

(2)提出的证据融合新方法,在大样本下解决证据冲突具有一定的实用性。案例分析表明,所提方法能够明显减少冲突证据的影响,且整合后的值更加集中和精确,提高了处理冲突证据时的逻辑性。

(3)基于证据理论的信息融合方法扩展了证据理论的范畴。该方法在复杂系统领域,能够解决样本容量大、样本数据尺度大、数据高维性复杂系统数据的驱动优化问题。

(4)为在校生心理社会性发展研究提供一定参考。根据实证分析结果,在校生中0.66%的学生心理社会性发展状况为优,88.67%的学生状况为良,仍有10%左右的学生状况处于一般或不良,此数据可以作为教育工作者从事相关研究的参考。

参考文献

[1]

熊山. 基于证据理论的不完整信息融合研究[D]. 重庆: 西南大学, 2022.

[2]

LIU Z. A new sine similarity measure based on evidence theory for conflict management[J]. Communications in Statistics-Theory and Methods2024: 1-17.

[3]

边福音. 基于证据理论的信息融合方法研究[D]. 沈阳: 东北大学, 2017.

[4]

KLEIN J WGREENAWAY K HBASTIAN B. Identity fusion is associated with outgroup trust and social exploration: Evidence for the fusion-secure base hypothesis[J]. British Journal of Social Psychology202463(3): 1184-1206.

[5]

徐选华, 黄丽. 基于复杂网络的大群体应急决策专家意见与信任信息融合方法及应用[J]. 数据分析与知识发现20226(S1): 348-363.

[6]

ZHANG F XZHANG L MLIU Z Y. An improved Dempster-Shafer evidence theory based on the Chebyshev distance and its application in rock burst prewarnings[J].ASCE-ASME Journal of Risk and Uncertainty in Engineering Systems, Part A: Civil Engineering, 202410(1): 04023055.

[7]

XIAO F Y. Generalized belief function in complex evidence theory[J]. Journal of Intelligent & Fuzzy Systems202038(4): 3665-3673.

[8]

刘晓光, 胡学钢. D-S证据理论在决策支持系统中的应用[J]. 计算机系统应用201019(10): 112-116.

[9]

李明. 一种冲突证据的分类加权融合方法[J]. 西安邮电大学学报202328(6): 74-81.

[10]

董煜, 张友鹏. 基于聚类赋权的冲突证据组合方法[J]. 通信学报202344(3): 157-163.

[11]

邓展. 基于D-S证据理论的不确定信息决策方法研究[D]. 南京: 南京理工大学, 2022.

[12]

孙永河, 张梦迪. 基于R型聚类的层次型DEMATEL分析方法[J]. 数学的实践与认识201949(6): 42-51.

[13]

JOUSSELME AGRENIER DBOSSÉ É.A new distance between two bodies of evidence[J].Information Fusion20012(2):91-101.

[14]

张雅媛, 孙力帆, 郑国强. 基于改进Jousselme证据距离的多传感器决策融合方法[J]. 仪表技术与传感器2019(7): 82-87.

[15]

王俊, 金勇进. 概率-非概率调查样本的整合推断问题研究: 核匹配方法[J]. 统计与信息论坛202439(10): 3-12.

[16]

刘峻源, 杨影. 新时代大学生心理健康现状及对策[J]. 吉林省教育学院学报202339(12): 23-27.

[17]

张嘉玲, 何铬颖. 当代大学生就业心态现状及对策研究[J]. 科教导刊2023(30): 142-144.

[18]

戴硕. 基于模糊综合评判法的XX工厂节能技术改造项目投资效果评价研究[J]. 中国经贸导刊2024(8): 32-34.

基金资助

陕西省科技厅软科学研究资助项目“‘一带一路’生态共同体建设中的陕西作用与策略研究”(2022KMR056)

西安工业大学研究生教育教学改革研究资助项目 “教育新质生产力催生研究生心理社会性发展增长点的培育分析”(XAGDYJ240108)

PDF (624KB)

127

访问

0

被引

详细

导航
相关文章

AI思维导图

/