基于机器学习的酒店客户精准营销策略研究

熊浩 ,  赵龙升 ,  鄢慧丽 ,  赵晓岚 ,  贾承瑞

华中师范大学学报(自然科学版) ›› 2025, Vol. 59 ›› Issue (06) : 843 -854.

PDF (1389KB)
华中师范大学学报(自然科学版) ›› 2025, Vol. 59 ›› Issue (06) : 843 -854. DOI: 10.19603/j.cnki.1000-1190.2025.06.002
人工智能·产业应用

基于机器学习的酒店客户精准营销策略研究

作者信息 +

Research on precision marketing strategy of hotel based on machine learning

Author information +
文章历史 +
PDF (1422K)

摘要

随着“互联网+”的发展,酒店订单大数据日益丰富,基于酒店订单大数据进行精准营销成为酒店营销的重要趋势.本文基于精准营销的评价指标,构建了新的机器学习方法对酒店客户下单行为进行预测研究,并进行了精准营销分析.首先,构建了随机森林-支持向量机的两阶段分组预测法,对酒店客户下单行为进行预测;然后,利用覆盖率-捕获率指标和聚类分析对酒店客户的下单行为进行更加细致的用户分类;接着,基于用户分类进行了精准营销策略分析;最后,通过携程酒店预订平台网络订单的数据进行案例分析,结果表明随机森林-支持向量机两阶段预测法在精度、ROC 曲线、区分度和校准度上,相较于其他常见的基础预测模型均具有很强的优势.

Abstract

With the development of the Internet plus, big data of hotel order became increasingly abundant. Accurate marketing based on big data of hotel order become a popular trend. Based on the evaluation indicators of accurate marketing, a new machine learning method is proposed to predict the ordering behavior of hotel customers. According to the predict results, accurate marketing strategies are presented. First, the random forest method and support vector machine are combined to be a two-phase machine learning method, which is designed to forecasting the ordering action of customers for the purpose of accurate marketing. Then, coverage-hit rate and clustering analysis are used to further cluster the customers. And some accurate marketing strategies are proposed according to the customer categories. Finally, this article uses the hotel desensitization data of the Ctrip platform to conduct an empirical study. The results suggest that the RF-SVM two-stage prediction method outperform other basic prediction models in accuracy, ROC curve, discrimination and calibration error indicators.

Graphical abstract

关键词

酒店 / 精准营销 / 机器学习 / 随机森林 / 支持向量机

Key words

hotel / precision marketing / machine learning / random forest / support vector machine

引用本文

引用格式 ▾
熊浩,赵龙升,鄢慧丽,赵晓岚,贾承瑞. 基于机器学习的酒店客户精准营销策略研究[J]. 华中师范大学学报(自然科学版), 2025, 59(06): 843-854 DOI:10.19603/j.cnki.1000-1190.2025.06.002

登录浏览全文

4963

注册一个新账户 忘记密码

随着“互联网+”和大数据的发展,精准营销成为大数据分析技术的重要应用,在各行各业得到快速发展.精准营销是指通过信息技术、大数据、云计算对 IP 上浏览者的注册信息、搜索行为、购买行为、浏览习惯等反映个人需求的信息进行捕捉、挖掘和分类,进而根据数据信息得出不同群体的特征及与之相对应的营销内容、方式及途径1-2.
目前,精准营销可以帮助企业进行广告投放3-5、差异化定价6-8、产品定制9-10等.Chen等3研究了根据用户行为数据进行定位广告对广告媒体和广告主利润的影响;Zhou等5证明了精准营销减少了广告浪费,增加了商家的利润;在用户保护数据隐私的情况下,Acquisti等6研究了商家如何根据用户购买历史数据进行差异化定价.Chen等8研究了两个竞争的企业在对用户定位不完全精准情况下的差异化定价策略.可见,利用大数据进行精准营销成为了未来的发展趋势.随着酒店预订的网络化,酒店精准营销也成为发展趋势.很多时候,酒店的需求具有很大的季节性和波动性,有时候客满为患,有时候门庭冷淡.这种极大的不平衡,造成了某些酒店入住率低下,形成了很多资源浪费.酒店的营销策略能够针对不同的需求情况,更有针对性地制定相应的营销方案,对客户进行个性化促销,从而提高客户的满意度,实现酒店价值最大化.
本文研究的酒店顾客下单预测也属于精准营销的重要分析内容.通过酒店顾客在预定平台的顾客浏览行为,精准识别出潜在顾客的下单倾向,并针对不同的下单倾向制定精准营销策略,既能留住“老顾客”,又能不断开拓“新顾客”.因此,对酒店预订平台的顾客下单预测不仅关乎酒店的经营成本和收益,还可能决定企业的市场占有份额,并影响酒店客户的关系管理.
精准营销主要特点是“精准”,因此预测模型的“精准”必须要符合精准营销的“精准”要求.然而,目前基于大数据预测的常用评价指标有很多,比如:准确性(accuracy) 、召回率(recall) 、精确率(precision)等.不同的预测目标,其评价标准是不一样的,比如:如果酒店更加重视留住现有客户,则希望能准确预测出下单的顾客,这时下单的精确率就更加重要;如果酒店更加重视开拓新客户,则希望能准确预测出不下单的顾客,这时不下单的精确率就更加重要.所以,对于精准营销而言,酒店希望同时实现留住现有客户和开拓新客户,则需要引入一些新的评价指标.因此,根据精准营销的特点,本研究主要使用了预测精度(accuracy)、区分度(discrimination)、校准度(calibration)、ROC曲线(receiver operating characteristic curve)、AUC值(area under the curve of ROC)以及覆盖率-捕获率(coverage-hit rate)曲线等指标.
另外,由于不同的大数据预测方法在不同的预测指标中各有优缺点,因此根据预测的需要,融合不同的预测方法成为发展趋势.本研究由机器学习(machine learning, ML)领域的知识受到启发,构建了一个基于随机森林(random forest, RF)和支持向量机算法(support vector machines, SVM)的两阶段机器学习法.该混合预测方法能使RF和SVM模型的优势互补,并消除一些潜在的预测缺陷.最后,本研究利用携程酒店预订平台的脱敏用户数据,结合本文引入的新的评价指标,对基于RF-SVM两阶段机器学习法进行了实证分析.

1 文献综述

本研究涉及大数据预测模型和预测评价指标两个方面.因此,以下着重对预测模型和预测评价指标进行相关的文献综述.

1.1 顾客行为预测模型研究

关于顾客行为预测的研究主要集中在顾客下单率或流失率,下单率是指某一次购买决策中顾客下单的概率.对于某一次购买行为而言,顾客没有下单即为流失了,因此未下单率就是流失率.

目前,关于流失率的研究主要集中于电信业、银行业等客户特征较为规则的领域,且大多使用的是单一分类模型.例如,Xie等11使用RF算法对银行客户流失进行预测,并提出其准确率要明显优于SVM、决策树等机器学习算法;应维云等12针对实际客户流失数据中正负样本数量不平衡的特点,提出一种改进的平衡RF算法,并将其应用于某商业银行的客户流失预测;钱苏丽等13提出了一种基于改进SVM的电信客户流失预测模型,有效解决了非平衡数据和两类错误的不同代价问题;Idris等14使用RF算法来选取数据集中的重要特征值,从而预测电信客户流失率.

邱一卉等15虽然使用了RF和SVM的混合模型,但RF在其中的作用仅仅是为特征降维,并未引入分组预测的思想.本文提出了一种基于RF-SVM混合模型的两阶段分组预测法,用于预测酒店客户的行为倾向.采用分组的思想,对不同特征的数据“因材施教”,分别采用RF或SVM进行拟合,这样能够解决前者在部分群体测不准的缺陷,从而实现酒店对使用网络预订平台客户的精准营销.

1.2 预测评价指标相关研究

目前关于预测评价指标的研究相对较多,往往根据不同的预测目标选择不同的预测评价指标.然而,以酒店的精准营销为预测目标的研究相对较少,本文选择了区分度-校准度、ROC曲线和AUC值等指标进行综述.

1.2.1 区分度和校准度

区分度和校准度是预测模型效能评价的两个重要维度,贯穿预测模型建模、内部验证和外部验证的全过程.区分度是指模型能够正确区分下单发生高概率个体与低概率个体,即模型正确分类下单事件是否发生的能力.校准度是指预测模型预测下单概率与实际下单率的一致程度,是衡量模型预测下单率准确性的重要维度,模型校准度较差时将低估或高估事件发生概率.

Alba等16提出对于预测模型研究而言,首先需要考察模型的区分度.若模型区分度较差,对模型其他特征的评估都没有太大意义,这不是一个有实际价值的预测模型.Kramer等17详细介绍了使用拟合优度检验(hosmer-lemeshow goodness of fit test)计算校准度的流程;Yaniv等18则介绍了如何将预测数据分组,并计算样本区分度的值.

区分度和校准度这两项评价指标在临床医学的疾病诊断预测中使用较多,该指标可以尽量避免将有患病风险的病人错误预测为身体健康的人19.由于本研究的酒店客户行为预测中,同样希望尽力避免将没有下单倾向的用户错误预测为有下单倾向的用户, 所以将这两项评价指标引入本研究具有合理性.

1.2.2 ROC曲线和AUC值

AUC值能很好描述模型整体性能的高低,解决精度在不平衡数据集中的缺陷.AUC被定义为ROC曲线下与坐标轴围成的面积,这个面积的数值不会大于1.预测算法的ROC曲线和AUC值一般同时使用,并且可以比较直观的反应出预测模型的效能.

Metz等20对ROC曲线进行了详细的阐述,说明了曲线越靠近左上方,模型的预测效能越好;张玮等21在研究中使用ROC曲线和AUC值来衡量基于决策树和自适应算法的通信企业客户流失模型的好坏;吴林等22预测模型AUC的值为0.941 2,以此来说明模型具有较好的区分度;周静等23在对电信客户流失问题的预测中,外样本 AUC的值达到了0.75以上,以此印证模型具有良好的预测精度.

本研究不仅使用这两项指标来印证预测模型精度,还对比了不同算法在分类器阈值相同时,ROC曲线横坐标FPR和纵坐标TPR的值,以此印证RF-SVM两阶段分组预测法能够有效降低假正例,提高真正例的数量.

此外,周静等23提出诸如ROC曲线和AUC值这样比较专业的术语在商业实践中很难直观地给出具体的解释;Höppner等24提出传统的评价指标不能很好地衡量成本和收益.所以本研究构建了覆盖率和捕获率指标来直观衡量RF-SVM两阶段分组预测法给酒店企业营销成本和收益带来的变化.

2 基于机器学习的客户行为预测研究

2.1 精准营销的预测评价指标

在酒店潜在客户的下单预测中,“真正类”是指将下单的客户正确地预测为下单,“假正类”预测是指将不打算下单的客户错误预测为下单.为了提高“真正类”的预测准确性,同时降低“假正类”的预测错误,本文提出了三种预测评价标准:区分度-校准度、AUC-ROC和覆盖率-捕获率.

2.1.1 区分度和校准度

区分度是指模型能够正确区分下单发生高概率个体与低概率个体,即模型正确分类下单事件是否发生的能力.区分度的常用衡量指标是AUC值,一般认为上述指标小于0.6为区分度较差;0.6~0.75为有一定价值的区分度;大于0.75为区分度较优.

校准度是指预测模型预测下单概率与实际下单率的一致程度,它是衡量模型预测下单率准确性的重要维度,模型校准度较差时将低估或高估事件发生概率.同一模型在不同的概率区间可能存在校准度各异的情况.实践中模型的校准度常通过拟合优度检验进行判断,一般认为校准度越小越好,最小为0.

2.1.2 ROC曲线和AUC值

在分类模型中,预测结果都是以概率的形式表现,如果要计算精度,通常都会手动设置一个阈值来将对应的概率转化成类别,这个阈值也就很大程度上影响了模型精度的计算.ROC曲线是指不同阈值下的假正类率 (false positive rate, FPR)和真正类率 (true positive rate, TPR) 对应点得到的一个曲线,横坐标是FPR值RFP,纵坐标是TPR值RTP25.这两类的计算方法分别为:

RFP=NFPNFP+NTN
RTP=NTPNTP+NFN

其中,NTNNFPNFNNTP分别为真反例、假正例、假反例和真正例的数量.

随着FPR的上升,ROC曲线从原点(0, 0)出发,最终都会落到(1, 1)点.曲线右下方与坐标轴围成的面积便是AUC的值.理想的ROC曲线要靠近左上角,此时分类器的假正类率FPR数值很小,真正类率很大.而AUC的值最高为 1,此时所有正类点的模型分数都高于反类点.

2.1.3 覆盖率-捕获率

在学术领域,ROC曲线和AUC值经常被用来评判一个机器学习模型的预测效果,但是在商业实践中,这样比较专业的术语很难直观地给出具体的解释.所以本研究还引入覆盖率-捕获率指标来评判模型的预测精度.本文的覆盖率和捕获率是针对不下单客户,因为该类客户属于流失客户,是营销人员需要维护的客户.

覆盖率是指预测为不下单的人与总人数的比值,计算公式为:

RCov = NTN+NFNNTN+NFN+NTP+NFP.

捕获率是指预测为不下单的人中实际不下单的人数与总不下单人数的比值,即真反例率,计算公式为:

Rhit=NTNNTN+NFP.

覆盖率可以看作是衡量成本的指标,而捕获率可以作为衡量收益的指标.当模型将所有用户预测为不会下单,对所有用户投放广告,则此时覆盖率为100% ,即覆盖了所有不下单的行为,但浪费了大量营销成本,也不能识别出客户有什么样的行为倾向.而如果使用预测模型,识别出流失风险大的用户,例如,将不下单倾向最大的前50%客户预测为不会下单,对其投放广告,其中实际不会下单的用户数占到不会下单总用户数的90% ,则覆盖率为 50% ,捕获了90%的真实不下单的客户,即只使用原先成本的50%就实现了收益的90%.

2.2 基于RF-SVM的客户行为预测

RF和SVM都是机器学习领域常用的预测算法,但它们各有优缺点.RF是一种基于决策树的集成学习方法,其既不需要对特征值进行筛选,也不需要进行度量尺度的标准化转换,通常就可以给出不错的预测结果26.而SVM算法是指在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类误差27.SVM方法需要的特征值少,且在低维数据和高维数据上的表现都很好,非常适合于解决非线性的二分类问题,它的分类准确性要好于传统的决策树等分类方法28.但在对样本数值的度量缩放尺度方面表现不好,需要对数据集进行标准化、归一化处理.

因此,考虑到RF法和SVM法各自的优缺点,同时考虑到不同的概率区间不同预测模型可能存在校准度各异的情况,本文提出了RF和SVM结合的预测方法,将这两种方法结合使用,达到优势互补的效果,从而提升预测性能.具体的步骤为:1) RF预测阶段.首先,RF进行预测,得到所有预测对象的下单概率;其次,在[0, 1]之间按照特定的步长分组,例如:[0.9, 1]、[0.8, 0.9),将所有的预测概率分组;最后,计算分组中的校准度. 2) SVM预测阶段.对校准度较低的组中对象,利用SVM进行第二次预测.3) 将两次预测的结果结合作为最终预测结果.

2.2.1 数据来源

研究样本来自携程酒店预定平台2016.05.15—2016.05.21一周内的网络订单数据,用户信息经过脱敏处理.在数据集中,标签label列给出了每位客户的下单情况,1为有下单,0为未下单;其他列共计48项特征,删除用户编号、访问日期、入住日期三项特征后可得到研究所需的45个数据特征项,见附表A1.主要分为两部分:一部分是与用户个人相关的变量,如用户决策习惯、24 h内的登录时长、24 h内是否访问订单填写页、近一年用户历史订单数等;另一部分是与酒店相关的变量,如当前酒店点评数、酒店历史取消率、酒店平均价格等.

遵循以下原则对源数据进行清洗:1) 特征值缺失、特征值不合乎正常范围(如花费金额出现负数的情况)的用户记录,在总体样本中占比低于1%,采取删除处理;2) 观测记录重复的用户数据采取删除处理;3) 以均值加减3倍标准差作为识别异常值的标准,如果取值在这个范围之外,被认为是异常值,在建模分析中予以删除23.最终得到有效用户记录24 285条.统计可得该样本的用户转化率为48.22%,即仅有不到一半浏览酒店网页的用户最终产生下单行为.

2.2.2 RF-SVM两阶段分组预测

为了防止数据分布不均匀对预测结果造成影响,在划分数据集时采用分层k折交叉验证(stratified k-fold cross-validation)来提升模型的泛化性能,并使用网格搜索法(grid search)进行调参.首先使用阈值为0.5的RF模型对客户下单行为进行初步预测;然后根据预测结果进行分组,并计算每个小组不下单概率的校准度(表1).在表1中,第(1,10)两个分组的校准度偏差在千分之一以下,仅为0.000 5和0.000 6;而其他分组的校准度均超过了2‰,甚至高达0.035 5.

各组用户行为预测的校准度比较见图1图1较为直观地说明了RF在预测某些组别用户行为时的缺陷.根据预测的结果,第(2, 3, 4)和(7, 8, 9)组别的校准度均超过了0.01,RF在这些组别上的预测效果尤为不准;如果结合预测的评价矩阵可知,前者组别中存在着大量的假反例预测,而后者组别中存在着大量假正例预测,造成了模型预测的失真.第(5, 6)组由于RF预测其不下单概率为40%~60%,不能给出有效的行为判定.综上所述,故对第(2, 3, 4, 5, 6, 7, 8, 9)组使用SVM算法重新学习和训练;第(1, 10)两组仍然使用RF算法进行预测.

SVM需要对特征值进行标准化处理后,再使用带交叉验证的网格搜索进行调参并预测.将SVM法与RF法的预测数据合并可得到每位用户的下单概率(截取部分样本如附表A.2所示).此时基于两阶段分组预测法的预测相比于只使用RF模型,假正例和假反例的数目均产生了下降,这使得酒店在制定客户的精准营销策略时更加游刃有余,从而实现降本增收的目的.

2.3 客户行为预测的机器学习方法的比较分析

为了进一步验证RF-SVM两阶段分组预测模型在各种常见的预测算法中的确具有优越性,本研究引入朴素贝叶斯分类器 (naive bayesian classifier, NBC)、逻辑回归 (linear regression, LR)、线性判别分析(linear discriminant analysis, LDA)、最近邻算法 (K-nearest neighbor, KNN)、决策树 (classification and regression tree, CART)、RF、SVM六种算法进行结果的比较分析.

2.3.1 预测精度的比较分析

预测精度是指正确预测的数量除以所有样本的数量.使用折数k=10的交叉验证算法拆分样本数据,每种算法可以得到10个精度数值,在图2中以箱型图的形式表示.每个箱型包含6个数据节点,分别是10个精度值从大到小排列后的上边缘、上四分位数、中位数、下四分位数、下边缘和异常值.箱型上下端的空心圆代表异常值,计算精度平均值时予以排除.

可以得到各算法在酒店客户行为预测时的精度均值和标准差.NBC、LR、LDA、KNN、CART、RF、SVM、RF-SVM分别为0.582 9(0.008 3)、0.614 9(0.018 1)、0.616 5(0.017 8)、0.818 1(0.011 4)、0.871 9(0.014 9)、0.919 8(0.009 5)、0.884 9(0.009 8)和0.981 5(0.009 6),括号前的数值为平均值,括号内的数值为标准差.可以看到RF-SVM两阶段分组模型具有最优的性能,能够对样本数据中98.15%的用户行为做出正确预测.

特别的,在只使用RF或SVM预测方法时,分别只能对样本数据中91.98%和88.49%的用户行为做出正确预测.但如果采用混合模型,在部分组别的用户中使用RF,另外一部分组别的用户中使用SVM算法再次进行预测时,相较于单类预测模型分别提升了6.17%和9.66%的预测精度,提升效果比较明显.

2.3.2 区分度和校准度比较分析

研究希望预测模型在区分度尽可能大的情况下,拥有较小的校准度.由表2的计算结果可知,RF-SVM两阶段分组模型的两项指标分别为0.983和0.000 5,均优于其他算法.

表 2 还可以发现,RF虽然具有不错的区分度,Discrimination RF为0.956,优于各种非混合类算法;但校准度较差,Calibration RF为0.013 3,大于LR、LDA、KNN、SVM.而在各类非混合算法中,SVM的校准度最小,Calibration SVM仅为0.001 2.如果将SVM与RF算法混合,可以一定程度上缓解RF校准度差的问题,进一步提升模型的性能.这就解释了本研究为什么在两阶段分组预测法的第二阶段使用 SVM 来解决部分组别内用户校准度偏大的原因.

2.3.3 ROC曲线比较分析

分别绘制出RF模型和RF-SVM两阶段分组预测法的平均ROC曲线,如图3所示.在分类器阈值等于0.5的时候,可以看到RF的FPR、TPR值分别为0.143 9和0.911 6;SVM的FPR、TPR值分别为0.106 7和0.860 9;而RF-SVM的FPR、TPR值分别为0.075 1和0.927 2,实现了使FPR值下降,并使TPR值增大的优化目标.也就是说,在混合模型中,本研究减少了将没有下单倾向的用户错误识别为即将下单用户的发生频次,即减少了假正例预测发生的次数,进一步防止了潜在客户群体的流失;同时增加了真正例的数目,对客户行为的把握更加精准,预测正确的比率进一步扩大.

此外,从图3中也可以看出,RF-SVM的AUC面积最大,SVM的最小,RF位于中间,这与上一节中三种预测方法的 区分度分别为0.983,0.946和0.956相印证.

3 基于客户行为预测的客户划分

3.1 重点客户与非重点客户切分

分别计算不使用预测模型、只使用RF模型和使用两阶段分组预测法的三种情况,生成的覆盖率-捕获率曲线如图4.可以看到,使用RF-SVM两阶段分组预测法得到每个用户的不下单概率数值(如附表 A.2)后,判定阈值为0.5时,下单概率从大到小排序靠后的50.04%的客户被标记为“预测不会下单”,对其进行重点营销,两阶段预测法可以达到98.08%的捕获率,RF和SVM分别有84.17%和79.17%的捕获率,不使用预测模型则只能获得50.04%的捕获率.RF-SVM两阶段分组预测法可以使酒店预订平台或酒店将需要重点营销的客户群体缩减至总体样本的50.04%,从而制定差异化营销策略;其余客户均划分为非重点客户,无需投入过多精力.

上述给出的50.04%的切分点是衡量成本收益性价比后的一个较优点.因为如果覆盖率大于该点后,每增加1%覆盖所收获的捕获增长将小于1%,即成本的再增加将不能带来相对应的盈收增长.当然企业也可以根据具体的应用情况自主选择重点客户和非重点客户的切分点来划分酒店用户的两大层级,但基本的思路与上述举例无异.

虽然利用覆盖率-捕获率曲线找到了一种切分重点客户群与非重点客户群的方法,并有了一些初步的营销设想,但此时不知道这50.04%重点客户的具体喜好和特性表现,对于平台制定更详细的差异化精准营销策略有不小的掣肘.所以需要进行更进一步的聚类分析,探索是否能将需要重点营销的客户群体分成具有代表性的几个类别.

3.2 重点客户细化分类

上节中已经确定,使用RF-SVM两阶段法预测时,可以只对下单概率从大到小排序靠后的50.04%客户进行重点营销,这些客户的人数共计12 152人.但是如果比较这些用户数据在各个特征值上的分布情况,不难发现这些下单意愿不强烈的客户中,还可以细分为不同类型的消费群体.如果能够分析出细分消费群体的特征,就可以实施更加有针对性的精准营销策略.基于此种期望,可以将该部分12 152条数据进行更进一步的聚类分析.

由于二阶聚类法(two step cluster)可以推荐合适的聚类类别数23,所以在研究中使用此方法.结果以模型方式呈现,可以看到重点客户群被分为5个类别,如表3所示.各聚类中人数的多少可为最终类别特性的确定起到辅助作用,例如,如果分析出第4类和第5类聚类用户的特征,就可以抓住超过60%的流失客户的性格特点.

以人数最多的第4类聚类为例,观察到该类用户在consuming_capacity(消费能力指数)和ctrip_profits (客户价值)指标上处于偏低水平,类别的中位数位于整体样本的下四位数处,说明该聚类顾客可能消费能力稍弱,无法承受过于昂贵的花费;avgprice(酒店平均价格)、businessrate_pre(24小时历史浏览次数最多酒店商务属性指数)和businessrate_pre2(24小时已访问酒店商务属性指数均值)等指标低于中位数的水平,则再次印证了上述观点,该类顾客偏好酒店商务属性不强,价格经济实惠的平价酒店;而cancelrate(当前酒店历史取消率)、commentnums(当前酒店点评数)等指标处于偏低水平则进一步说明了该类顾客一旦发生下单预定行为后就不会轻易取消,同时对于网络预订平台上该酒店的点评数不是很敏感.故推测此类用户应该属于经济实惠型的消费者,其对酒店价格的敏感程度要远高于其他特征因素,入住酒店多为个人自费,选择的酒店类型多偏好快捷型酒店,群体构成推测为学生或工薪阶层为主.给出现实中的一个例子就是覆盖全国370个大、中、小城市的7天连锁酒店,其瞄准的客户群体正是本文研究的追求经济实惠的第4类聚类用户群体.

其他聚类类别的分析方法类比于上述分析,可分析出重点客户中每个群体的详细特征.

3.2.1 高净值休闲群体

此类别用户数量为512人,占总样本数据的4.2%.此类别用户的消费水平高,选择的酒店预定价格通常较高,比较追求入住后的体验和感受.群体构成多为高净值财富人群,入住目的多为休闲疗养娱乐等.

3.2.2 传统星级酒店群体

此类别用户数量为2 698人,占总体样本数据的22.2%.研究发现此类别用户偏好的酒店平均价格和消费能力指数仅次于第1类的高净值群体,其偏好酒店商务属性的聚类中位数略低于总体样本的中位数.同时,此类用户也比较注重选择评论数较多的酒店.此类用户应该是传统的星级酒店消费群体,偏好于选择评论数多、口碑较好的星级酒店.群体构成为经济实力较为充足的都市人群,例如公司的高管、知名大学教授、海外访华人士等,入住目的可能为商务活动、学术研讨、国际旅行等.

3.2.3 酒店中介群体

此类别用户数量为1 410人,占总样本的11.6% .此类别用户的主要特征是在一年内产生了大量的历史订单数,同时也伴随大量的取消订单数,其对酒店价格选择的中位数与总体样本的中位数相吻合.群体构成多为旅行社、酒店代理中介等,预定目的多为帮助旅行社团体的需要或者帮助顾客解决信息不对称问题.由于其在代理预定时面对的客户群体人数众多,不确定性大,所以订单量与取消数同步增长.

3.2.4 经济实惠群体

此类别用户数量为3 948人,占总样本数据的32.5%.此类别用户对酒店的价格较为敏感,比较追求入住的性价比,选择的酒店预订价格通常较为平价.群体构成多为学生或工薪阶层,入住目的多为刚性需求,例如考试、因私出差等.

3.2.5 商务出差群体

此类别用户数量为3 584人,占总样本数的29.5%.此类别用户对酒店的价格没有明显的偏好,消费能力指数适中,偏好商务类型酒店,非常符合因公出差的商务人员特征,因为其入住酒店后可凭消费发票报销,但又不能超过单位所制定的消费标准,所以其浏览的酒店平均价格中位数与总体样本的中位数相吻合,既不会像第4类人群一样喜好偏低价格的酒店,也不会像第1类人群追求高消费轻奢体验.群体构成多为政府公务人员或经常出差的都市白领,入住目的多为工作需要.

4 基于客户划分的精准营销策略分析

前述讨论已成功将浏览第三方平台酒店预订网站的用户进行了结构分层,即非重点营销客户与重点营销客户两个大层级,重点营销客户又分为五个小类别,下面将详细阐述6条制定营销策略的思路.

4.1 非重点营销客户

第一条策略,使用RF-SVM两阶段法预测后得到下单行为倾向概率从大到小排序最靠前的49.96%用户,此层级是非重点营销顾客.此类顾客在浏览预订平台网页获取相关信息后自觉产生下单行为的概率很大,不需要第三方平台或酒店付出过多的精力.因此,在第三方酒店预订平台监测到用户的浏览行为后,可以在一定的时间周期内向用户发送一条提醒下单的广告,还可以结合用户的浏览历史和偏好,提供个性化的推荐.例如,如果用户浏览了多个高端度假村,可以推送一个包含这些度假村的比较表,突出每个度假村的独特卖点和服务.这种即时且个性化的沟通方式能够有效提高转化率,同时也增强了用户体验,与用户建立更加紧密的服务关系.

4.2 重点营销客户

使用RF-SVM两阶段法预测后,下单行为倾向概率从大到小排序最靠后的50.04%的用户,此层级是重点营销顾客.根据聚类分析中类别轮廓的描述,可以将其分为高净值休闲群体、传统星级酒店群体、酒店中介群体、经济实惠群体和商务出差群体五个小类别,在样本中共计用户记录12 152条.

4.2.1 高净值休闲群体的精准营销建议

第二条策略,面对高净值休闲群体,除了推送相关的入住体验内容外,还可以增加更多互动内容,如视频、360度全景图和虚拟现实(VR)体验.通过这些互动内容,展示酒店的豪华套房、私人泳池和高端餐饮服务.这类群体还可能对SPA服务或高尔夫球场感兴趣,可以在推送中加入这些服务的介绍和信息,相应地介绍高端定制服务,如私人管家、专属礼宾服务和个性化行程规划,通过一对一的客户服务吸引用户.优化预订体验,确保快速响应和无缝衔接,提供灵活的退改政策和优先预订特权;开展高端会员计划,提供积分累积、专属优惠和贵宾待遇,增强客户忠诚度.这种多维度的信息传递和互动方式,不仅能帮助用户深入了解酒店的各项服务和设施,还能增强他们的参与感和归属感,从而促进决策过程,提高酒店预订率.

4.2.2 传统星级酒店群体的精准营销建议

第三条策略,对于传统星级酒店群体,可以向用户推送一些流量大、知名度广、品质上乘的传统五星级酒店.在推广宣传中,除了展示酒店的基本信息、商务设施、会议空间和周边的旅游景点,还可以讲述酒店的品牌故事、历史背景和文化特色,彰显其社会地位.例如,如果酒店位于历史悠久的城市中心,可以介绍酒店的历史沿革、著名宾客的故事以及酒店如何在保留传统文化的同时融入现代元素.同时,可以向用户发送其他顾客的精选评论,尤其是那些与用户有相似背景和需求的评论,以增强其信任感.此外,可以设立一个在线社区或论坛,让用户分享自己的入住体验,形成口碑效应.通过这种方式,不仅可以提升酒店的品牌形象,还能吸引注重品牌和服务质量的用户,增强他们的认同感和忠诚度.

4.2.3 酒店中介群体的精准营销建议

第四条策略,对于酒店中介群体,可以推送有关酒店价格优惠的信息,如介绍酒店的阶梯式折扣和季度奖励,以激励他们增加预订量.识别出该类群体后,可以通过后台提醒为他们提供专属客服支持,确保中介群体能够方便快捷地查询房态和价格,并提供实时更新.此外,提供额外的技术支持,如API接口和移动应用,方便中介群体进行大批量房间预订和管理,满足大量用户同时入住的需求.不仅如此,由于这些群体订单数量大,还可以通过他们增加酒店的用户评论数量,提高酒店的知名度,形成良好的宣传效果.通过电子邮件和社交媒体平台进行定期沟通和信息推送,保持高频互动,推动建立长期合作关系,并提供独家优惠和优先服务.这些策略不仅能帮助酒店企业开拓市场,丰富产品线,还能提升酒店的知名度和市场竞争力.

4.2.4 经济实惠群体的精准营销建议

第五条策略,对于经济实惠群体,在用户浏览酒店详情页时,可以赠送一定数量的优惠红包或返现红包,刺激用户下单.根据季节、节假日、预订时间等进行动态定价或提供组合套餐,如“住宿+早餐”“住宿+景区门票”等组合优惠.除此之外,考虑到这些群体出行可能会选择更为便宜的深夜航班等交通工具,抵达时间常为夜晚,还可以为该类客户推送提前退房折扣、半日房间以及深夜订单折扣等特殊预定服务,满足他们的不同需求.通过这些方式,不仅可以吸引价格敏感的用户,还能增加用户的忠诚度.通过实际的经济激励,酒店可以提高用户的入住率和用户粘性,增加收入来源,同时也能提升用户满意度和口碑传播.

4.2.5 商务出差群体的精准营销建议

第六条策略,针对商务出差群体,可以高频推送靠近市区、地铁站、公交站、公路主干道周边出行便利的商务型酒店.除了基本的地理位置优势,还可以突出酒店提供的增值服务,如免费接送机、会议室租赁、商务中心支持等.通过电子邮件向用户发送关于酒店周边交通情况的详细地图,标注重要的交通枢纽和商务区,帮助用户更好地规划行程.此外,可以提供一些商务旅行小贴士,如最佳出行时间、当地商务礼仪等,增加用户的信任感和满意度.对于商务出差群体,可以提供灵活的取消政策和发票开具服务,以适应他们的工作需求.通过这些方式,酒店可以更好地满足商务出差群体的需求,确保他们能够方便快捷地到达目的地,同时也能提高他们的工作效率和舒适度.这将直接提升该群体的满意度和忠诚度,增强酒店的市场竞争力.

上述的六条策略仅是一个思路的参考,起到抛砖引玉的作用;重点在于酒店预订第三方平台企业能够按照两大层级与五个小类的结构区分浏览网站的用户特性,并描绘其特征画像.这样就能指导营销领域的专业人员,结合自身掌握的技术手段来制定更为详尽且可落地实行的方案.

4.3 精准营销实例

具体的使用情况给出一个实例,如表4所示.例如用户编号为524的数据条项,使用RF-SVM两阶段预测法预测后其在下单行为概率从大到小的排序中位列第13 802位,处于56.83%的百分比分位数处;而之前提到用户层级的切分阈值为49.96%的点,所以应将此名用户归为需要重点营销的用户层级.之后再根据使用两步聚类法时所获得的类别轮廓数据,结合该用户的特征值分布即可知道该用户的用户类别属于经济实惠群体.其对酒店的价格较为敏感,比较追求入住的性价比,选择的酒店预订价格通常较为平价;群体构成多为学生或工薪阶层,入住目的多为刚性需求.所以相对应的,第三方平台应该采取4.2.4中第五条经济实惠群体的营销建议,给予其一定的价格折,赠送减免红包等增强其下单预订的倾向.通过采用本文改进的机器学习预测方法,酒店能够实现多方面的综合益处.RF和SVM模型的互补优势显著提高了客户分类和需求预测的准确性,从而帮助酒店优化房间分配和人力资源配置,降低运营成本.此外,精准的顾客分类和对应的营销策略能够有效地拓展酒店业务,吸引更多新客户,显著提升酒店的入住率并提高用户粘性.最终,这些优化运营措施将有效提高客户满意度和忠诚度,实现酒店利润的显著增长.

5 结论

随着居民消费水平提高,旅游业蓬勃发展,越来越多的酒店如星罗棋布般不断涌现,行业竞争愈发激烈.客户流失严重、单体运营乏力等传统酒店行业的弊病,在“互联网+”的时代迎来了新的解决方式.网络预订平台大量的用户数据蕴涵着丰富的宝藏,结合大数据与机器学习领域的知识进行挖掘与开发,为企业的精准营销提供了新的可能.

本研究构建了一个基于RF-SVM混合模型的两阶段分组预测方法,首先根据随机森林对用户行为的预测概率,对用户进行分组,找出随机森林预测效果不好的群体,即校准度较差的组,对这些群体使用支持向量机进行二次预测.两阶段预测法将模型的精度提升至0.981 5,优于NBC、LR、LDA、KNN、CART等常用的机器学习模型.特别的,对于企业关心的假正例预测 (将不打算下单的用户错误预测为即将下单,从而错失挽回客户的机会),两阶段预测法也进行了修正.同样阈值情况下的FPR-TPR标点比只使用RF或SVM更靠近ROC曲线的左上方,FPR数值降低为0.075 1,这就进一步防止了潜在客户群体的流失,帮助企业更加准确地识别客户行为.

区分度和校准度数值的对比分析则为本文提供了使用随机森林和支持向量机两种算法混合而不使用其余基础算法混合的内在动因,为本文的混合模型提供了评测指标上的依据.最终RF-SVM两阶段法的区分度和校准度分别优化至0.983和0.000 5,均优于其余的基础预测模型.

以RF-SVM两阶段预测法对客户行为倾向概率判定的结果为基础,借助覆盖率-捕获率指标可以帮助酒店划分重点客户与非重点客户.而对于重点客户群体,又进一步通过聚类分析将其分为五个类别(高净值休闲群体、传统星级酒店群体、酒店中介群体、经济实惠群体和商务出差群体).两大层级五个小类的分层用户结构,帮助我们给出了针对预定平台和酒店企业精准营销策略的建议;但同时也应注意,由于本文作者并不是专业的市场营销人员,研究给出的六条建议主要是为企业提供一个思路参考,起到抛砖引玉的作用;重点在于只要企业能够按照上述方法将酒店客户合理分层,并区分各层顾客之间的特征画像,就能指导营销领域的专业人员,结合自身掌握的技术手段来制定更为详尽且可落地实行的方案.

本研究仍存在继续探讨的空间:1) 本研究由于数据集的时间跨度仅有1周,区间较短,故对日期类特征进行了删除,实际情况中酒店的预订很大程度上会受到节假日等特定时期的影响,如果能够收集到时间覆盖跨度更大的用户数据,则可针对上述问题做进一步改进;2) 两阶段分组预测法可能存在其他更为高效的操作流程,深度学习也是可以考虑引入结合的一个研究点;3) 企业的营销策略能否结合移动设备的应用程序进行更精细化的操作,根据用户使用App的习惯,联动微博、微信等社交平台进行新媒体推广,后续可以进一步分析研究.

参考文献

[1]

万平,李立状,娄峰,. 基于PSO-SVM的文本分类在保险精准营销中的应用[J]. 系统工程202341(5):144-150.

[2]

WAN PLI L ZLOU Fet al. Application of PSO-SVM based text classification on the precision marketing of insurance[J]. Systems Engineering202341(5):144-150. (Ch).

[3]

刘彩虹,郭崇慧. 移动情境感知环境下的用户行为模式挖掘算法研究[J]. 系统工程学报202035(4):433-445.

[4]

LIU C HGUO C H. Algorithm for user behavior pattern mining in mobile context-aware environments[J]. Journal of Systems Engineering202035(4):433-445. (Ch).

[5]

CHEN JSTALLAERT J. An economic analysis of online advertising using behavioral targeting[J]. MIS Quarterly201438(2):429-449.

[6]

GAL-OR EGAL-OR MMAY H Jet al. Targeted advertising strategies on television[J]. Management Science200652(5):713-725.

[7]

ZHOU BZOU T. Competing for recommendations: the strategic impact of personalized product recommendations in online marketplaces[J]. Marketing Science202342(2): 360-376.

[8]

ACQUISTI AVARIAN H R. Conditioning prices on purchase history[J]. Marketing Science200524(3): 367-381.

[9]

GOLI AMUMMALANENI SCHINTAGUNTA P Ket al. Show and sell: studying the effects of branded cigarette product placement in TV shows on cigarette sales[J]. Marketing Science202241(6): 1163-1180.

[10]

CHEN YNARASIMHAN CZHANG J Z. Individual marketing with imperfect targetability[J]. Marketing Science200120(1):23-41.

[11]

ESENDURAN GLETIZIA POVCHINNIKOV A. Customization and returns[J]. Management Science202268(6): 4517-4526.

[12]

胡凤英,周正龙. 考虑社交关系的网购拼单研究[J]. 中国管理科学202129(11):191-202.

[13]

HU F YZHOU Z L. Online interpersonal group-buying based on social relationship[J]. Chinese Journal of Management Science202129(11):191-202. (Ch).

[14]

XIE YLI XNGAI E W Tet al. Customer churn prediction using improved balanced random forests[J]. Expert Systems with Applications200936(3): 5445-5449.

[15]

应维云,覃正,赵宇,. SVM方法及其在客户流失预测中的应用研究[J]. 系统工程理论与实践200727(7):105-110.

[16]

YING W YTAN ZZHAO Yet al. Support vector machine and its application in customer churn prediction[J]. Systems Engineering-Theory & Practice200727(7):105-110. (Ch).

[17]

钱苏丽,何建敏,王纯麟. 基于改进支持向量机的电信客户流失预测模型[J]. 管理科学200720(1):54-58.

[18]

QIAN S LHE J MWANG C L. Telecom customer churn prediction model based on improved SVM[J]. Journal of Management Science200720(1):54-58. (Ch).

[19]

IDRIS ARIZWAN MKHAN A. Churn prediction in telecom using random forest and PSO based data balancing in combination with various feature selection strategies[J]. Computers & Electrical Engineering201238(6): 1808- 1819.

[20]

邱一卉,林成德. 基于随机森林和单类支持向量机的电信行业客户流失预测[J]. 厦门大学学报(自然科学版)201352(5):603-608.

[21]

QIU Y HLIN C D. Customer-churn prediction for telecom enterprises based on random forest and one-class SVM[J]. Journal of Xiamen University (Natural Science)201352(5):603-608. (Ch).

[22]

ALBA A CAGORITSAS TWALSH Met al. Discrimination and calibration of clinical prediction models: users’ guides to the medical literature[J]. Journal of the American Medical Association2017318(14): 1377-1384.

[23]

KRAMER A AZIMMERMAN J E. Assessing the calibration of mortality benchmarks in critical care: the hosmer-lemeshow test revisited[J]. Critical Care Medicine200735(9): 2052-2056.

[24]

YANIV IYATES J FSMITH J K. Measures of discrimination skill in probabilistic judgment[J]. Psychological Bulletin1991110(3): 611-617.

[25]

DIAMOND, GEORGE A. What price perfection? Calibration and discrimination of clinical prediction models[J]. Journal of Clinical Epidemiology199245(1): 85-89.

[26]

METZ C E. Basic principles of ROC analysis[J]. Seminars in Nuclear Medicine19788(4): 283-298.

[27]

张玮,杨善林,刘婷婷. 基于CART和自适应Boosting算法的移动通信企业客户流失预测模型[J]. 中国管理科学201422(10): 90-96.

[28]

ZHANG WYANG S LLIU T T. Customer churn prediction in mobile communication enterprises based on CART and Boosting algorithm[J]. Chinese Journal of Management Science201422(10): 90-96. (Ch).

[29]

吴林,安璐,孙冉. 面向企业舆情监测的事件画像与高危人群预测研究[J]. 信息资源管理学报202010(1):15-28.

[30]

WU LAN LSUN R. Event profiling and high-risk population prediction for enterprise public opinion monitoring[J]. Journal of Information Resources Management202010(1):15-28. (Ch).

[31]

周静,周小宇,王汉生. 自我网络特征对电信客户流失的影响[J]. 管理科学201730(5):28-37.

[32]

ZHOU JZHOU X YWANG H S. On the influence of ego network concerning customer attrition of the telecommunication industry[J]. Journal of Management Science201730(5):28-37. (Ch).

[33]

HöPPNER SSTRIPLING EBAESENS Bet al. Profit driven decision trees for churn prediction[J]. European Journal of Operational Research2020284(3): 920-933.

[34]

STREINER D LCAIRNEY J. What’s under the ROC? An introduction to receiver operating characteristics curves[J]. The Canadian Journal of Psychiatry200752(2): 121-128.

[35]

安磊,韩忠华,林硕,. 面向网络入侵检测的GAN-SDAE-RF模型研究[J]. 计算机工程与应用202157(21):155-164.

[36]

AN LHAN Z HLIN Set al. Research on GAN-SDAE-RF model for network intrusion detection[J]. Computer Engineering and Applications202157(21):155-164. (Ch).

[37]

王宇,李延晖. 一种基于协同训练半监督的分类算法[J]. 华中师范大学学报(自然科学版)202155(6):1020-1029.

[38]

WANG YLI Y H. A semi-supervised image classification algorithm based on collaborative training[J]. Journal of Central China Normal University (Natural Sciences)202155(6):1020-1029. (Ch).

[39]

夏国恩,金炜东. 基于支持向量机的客户流失预测模型[J]. 系统工程理论与实践200828(1):71-77.

[40]

XIA G EJIN W D. Model of customer churn prediction on support vector machine[J]. Systems Engineering-Theory & Practice200828(1):71-77. (Ch).

基金资助

国家自然科学基金资助项目(72362009)

国家自然科学基金资助项目(72561008)

海南省自然科学基金高层次人才项目(725RC727)

海南省哲学社会科学规划项目(HNSK(YB)23-11)

教育部人文社科研究项目(22XJA630008)

海南省研究生创新科研课题项目(Qhys2023-02)

AI Summary AI Mindmap
PDF (1389KB)

158

访问

0

被引

详细

导航
相关文章

AI思维导图

/