本文字数:字
阅读时间:8分钟
本文作者:赵颖旭,泰康健康产业投资控股有限公司首席医疗分析师,流行病学博士,中央财经大学中国金融科技研究中心兼职研究员;包竹青,泰康保险集团股份有限公司运营企划主管;高珊,泰康保险集团股份有限公司运营企划专员;周亮,中央财经大学中国金融科技研究中心兼职研究员;刘逸圣,泰康健康产业投资控股有限公司实习生;陈浩,中央财经大学保险学院研究生;张宁(通信作者),中央财经大学金融学院教授,中央财经大学中国金融科技研究中心主任。
文章来源:《保险研究》年第9期
一、引言
老年性痴呆是老年人群的常见疾病,阿尔茨海默病是老年性痴呆最常见的形式,占痴呆症总病例的60%~70%(Organization,)。有研究显示,年中国痴呆症患者数已达到万人,预期将持续增长,年预计达到.9万人,年将达到.1万人(Xu,etal.,)。目前中国60岁及以上老年人群痴呆症患病率约为4.03%,其中阿尔茨海默病患病人数占比超过60%(Zhu,etal.,)。该疾病病程较长,合并症发病风险增加(Moon,etal.,),医疗服务利用及医疗费用显著增加(Pyenson,etal.,),给社会经济带来沉重负担。中国年痴呆症疾病经济负担已达到亿美元,预计年将达到亿美元,年达到亿美元(Xu,)。医疗保险对老年人在医疗方面的总支出有显著促进作用。老年人的医疗支出在医疗保险的促进下增加了41.5%,增加值为元。医疗保险显著提高了老年人的健康水平和及时就医的概率(梁志胜,)。
中国阿尔茨海默病患者的直接医疗费用占其总疾病经济负担的32.51%,且显著高于美、英、法、德等发达国家及世界平均水平(Jia,etal.,)。中国痴呆症患者主要以居家或社区照护形式为主(Wang,etal.,),对痴呆症患者的长期照护为照护人带来巨大的精神压力、经济和心理负担(Kelley,etal.,;韩颖,;韩颖等,;康昊昱,;雷婷,)。有研究表明,基本医疗保险对于降低老年人自付医疗支出具有显著影响,但商业保险的覆盖仍然不足(梁志胜,)。
年8月1日,严重阿尔茨海默病被纳入《重大疾病保险的疾病定义及使用规范》(中央政府门户网站,)。大陆重疾险基本都已包含该病种,但部分产品限定确诊时间必须早于70周岁,自主生活能力完全丧失,无法完成六项基本日常生活活动中的三项或三项以上才满足赔付条件,对被保险人实行定额赔付(徐贝尔,)。
作为基本医疗保险的重要补充,商业医疗险拥有价值杠杆和风险防范的双重功能。近年来,百万医疗险逐渐风靡市场,以其低保费、高保额、高杠杆率吸引了消费者(董斌,;孙东雅、张铭哲,;王硕,)。但由于基于医疗费用实际发生率的精算定价基础相对缺乏,保费制定无差异化,同时通过互联网渠道进行产品投放时,目标偏向年轻标准体承保,通常不保证续保,使得带病投保和年龄限制成为产销阻力(潘兴,)。在商业医疗险加速发展的形势下,现阶段针对老年性痴呆的商业医疗险仍处于空白。
针对老年性痴呆进行医疗险差异化保费测算,能够在老龄化背景下突破年龄限制挖掘需求,并有效分散潜在风险,积极引导就医行为(舒晓燕,),规范治疗干预手段,降低疾病经济负担。目前,机器学习预测模型已被应用于风险预测、保费测算等产品设计环节中(Huang,etal.,;曾宇哲等,;韩耀风等,;郝君,;贾延延、冯键,;李红梅等,;李阳等,;林鹏程、唐辉,;孟生旺、黄一凡,;夏涛等,;张碧怡等,;张亦鼎,;孟生旺,;孟生旺等,),而应用机器学方法估算医疗费用,也已经有不少实践基础(冯菁楠等,;王文文,;夏涛,)。本研究对老年痴呆医疗险的差异化保费测算进行初步探索,以期对不同带病投保人的差异化保费定价有所助益。
本文第二部分主要介绍机器学习方法在损失厘定时的作用;第三部分介绍数据来源和模型方法;第四部分展示不同模型的拟合结果并对其进行对比;第五部分根据得到的结果给出结论。
二、研究方法介绍
(一)保费测算
在住院率与索赔强度相互独立的假设下,将索赔频率的预测值与索赔强度的预测值相乘得到纯保费的预测值。在这种建模方式下,每份保单的累积赔款可以表示为Y=X1+X2+…XN,其中N表示索赔次数,Xi(i=1,2,…,N)表示第i次索赔的赔款金额,通常假设每次的赔款金额独立同分布,且与索赔次数N相互独立。
在这种假设下,纯保费可以表示为:
E(Y)=E(N)E(X)(1)
在保险定价中,损失厘定常用的方法是广义线性模型(Generalizedlinearmodels,GLM)。GLM模型在20世纪70年代由Nelder和Macullagh引入精算学(NelderandWedderburn,),90年代由英国精算师首先应用于非寿险定价,并成为主要手段,例如在车险定价中用于风险预测(许译芝,)。
(二)GLM模型
广义线性模型是损失预测的主流方法(许译芝,;张碧怡,),是在一定的分布假设下建立的预测模型,要求损失数据满足一定的假设条件,譬如索赔次数服从泊松分布或负二项分布,索赔强度服从伽马分布或逆高斯分布,累积赔款服从Tweedie分布。GLM采用python3.8.3软件的GLM模块进行拟合,未加入交互因素项。
GLM的一般表达式如下,其中g(μ)为连接函数。
当哑变量太多时,GLM的拟合结果可能效率不高。比如,在带病投保住院费用的测算过程中,很难将上百种不同疾病组作为参数纳入模型,而不同疾病组显然对医疗费用有较大影响。所以考虑引入机器学习算法来解决传统算法不能解决的问题。常用的机器学习方法包括随机森林、LASSO回归、LightGBM三种,在Windows系统环境下使用python3.8.3软件。
(三)随机森林
随机森林由LeoBreiman和AdeleCutler提出,是利用多个决策树对样本进行训练、分类并预测的一种算法。在随机森林中,每一个决策树“种植”和“生长”的规则如下所示:
1.假设设定训练集中的样本个数为N,然后通过有重置的重复多次抽样来获得这N个样本,此抽样结果将作为生成决策树的训练集;
2.如果有M个输入变量,每个节点都将随机选择m(mM)个特定的变量,运用这m个变量来确定最佳的分裂点。在决策树的生成过程中,m保持不变;
3.每棵决策树都最大可能地进行生长而不进行剪枝;
4.通过使用argmax(Var-VarLeft-VarRight)作为评判标准,即使得当前节点训练集的方差Var减去左子节点的方差VarLeft以及右子节点的方差VarRight值最大。
随机森林能处理高维特征,不容易产生过拟合,模型训练速度比较快,特别是对于大数据而言尤其如此,且对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。该算法可以对数据进行分类并给出影响因素的排序,评估各个变量在分类中所起的作用,已经被广泛应用于保险领域,如保险购买预测场景,风险因子重要性测度,非寿险准备金相关测算等(郝君,;林鹏程、唐辉,;张碧怡,;安磊等,)。
(四)LASSO回归
LASSO(LeastAbsoluteShrinkageandSelectionOperator,LASSO)(Tibshirani,)方法于年由Tibshirani提出,是以缩小变量集(降阶)为思想的压缩估计方法。它客观筛选有效变量,构造一个惩罚函数,让回归系数绝对值之和在小于一个常数的约束条件下进行优化,最终使得回归模型残差平方和最小,从而有效解决回归模型中的多重共线性问题,进而达到变量选择的目的。
Lasso回归是在损失函数后,加L1正则化,使得下式取最小值:
m为样本个数,κ为参数个数,其中为L1正则化。
Lasso的复杂程度由λ来控制,λ越大则对变量较多的线性模型的惩罚力度就越大,最终能进入模型的变量就越少,目前已广泛应用在医药卫生领域,用于住院费用的估算(Huang,;韩耀风,;李阳,)。
(五)LightGBM
LightGBM算法是一种基于GBDT(GradientBoostingDecisionTree,GBDT)的数据模型,算法中使用回归树作为弱学习器,通过将每个预测结果与目标值的残差作为下一个学习的目标,获得当前残差回归树,每个树都学习所有先前树的结论与残差,将多个决策树的结果加在一起作为最终预测输出。
利用梯度单边采样的直方图算法对特征进行预排序,将样本某一特征上的单梯度作为样本的权值进行训练,并利用节点展开方式进行树的构建,是一种高效、高精度、高性能的分类算法。该算法的实现步骤如下:
1.训练样本个数为N,选取前a%个较大梯度的值作为大梯度值的训练样本;
2.从剩余的1-a%个较小梯度的值中,随机选取其中的b%个作为小梯度值的训练样本;
3.对于较小梯度的样本,也就是b%*N,在计算信息增益时将其放大(1-a)/b倍
总的来说就是a%*N+b%*N个样本作为训练样本。而这样的构造是为了尽可能保持与总的数据分布一致,并且保证小梯度值的样本得到训练。
LightGBM具有较优的数据分类能力,且对于大量训练样本不容易过拟合。当前已应用于租金预测(陈熙、张晓博,),信用风险评级(马晓君等,),医学疾病预测(王悦等,;吴绍武、续育茹,)。
三、数据与模型构建
(一)研究对象
本研究对老年痴呆患者的定义为:主要诊断或其他诊断ICD-10编码为表1的住院患者(牛犇,;王莹等,)。国际疾病分类(InternationalClassificationofDiseases,ICD)是一种对不同类型疾病及健康相关问题进行编码和分类的国际标准,自产生至今已有上百年的历史。根据世界卫生组织和我国卫生健康委员会的要求,我国自年起推广应用ICD-9(ICD第9次修订本),从年起改为使用ICD-10(ICD第10次修订本),并一直沿用至今(贾友波、宋宪锟,;吕国友等,)。
本研究选取~年来自全国30个省、自治区和直辖市的数据,医院、医院、医院、医院等超过家医院的住院人次。数据中住医院类别分布情况见表2。
患者住院费用的数据年份分布见表3所示。可以看到,年以来住院人次数持续增长,~年各年度住院人次数分别占总住院人次的18.73%、31.71%和47.3%。研究对象性别分布如表4所示,其中男性占59.58%,共计人次;女性占比36.44%,共计人次。图1给出了研究对象的年龄分布,可以看到,研究对象的平均年龄为80.37岁,中位数年龄为82岁,其中最年长的患者99岁。表5给出了患者地区分布统计情况:医院地区中,华东地区患者占比最大,共人次,占比31.00%,东北患者数最少,共计人次,占比3.50%。从上述统计描述可以看出,本研究样本量较大,且在时间、空间上分布均衡,具有代表性。
患者的疾病诊断ICD-10编码情况分布情况如表6所示:若患者主要诊断和其他诊断存在阿尔茨海默痴呆和血管性痴呆,则此患者以其主要诊断为准计入;若患者主要诊断非痴呆相关,而其他诊断同时存在阿尔茨海默痴呆和血管痴呆两类,则按照诊断顺序靠前的类别计入;最终阿尔茨海默痴呆相关的ICD-10诊断患者占比61.61%,共计人次人,血管性痴呆患者占比38.39%,共计人。
(二)住院费用测算指标
拟合住院费用模型的预测指标选取三类,分别是保单属性、疾病属性和客户属性,各项指标的变量类型及水平见表7所示。
保单属性变量有一个为固定值,即预测费用发生的时间期间。疾病属性变量有两个,分别是诊断类型和疾病种类。这两个变量均为分类变量,各有两个水平,详见表7。客户属性变量有四个,其中被保人年龄为连续变量,省份、性别、有无社保为分类变量。
(三)模型应用过程描述及评价参数指标
本文分别利用GLM方法和机器学习方法建立住院费用预测模型,模型通过保单、疾病、客户三个维度的变量对具有不同特征的人群未来可能的住院费用进行估算。在模型的评价方面,GLM模型应用较成熟,对模型进行评价和比较的工具较多:对模型进行整体评价时可以使用R2、Deviance、AIC、BIC和F检验,对模型参数进行显著性检验时可以使用T检验和wald检验。而在机器学习的模型评价中,由于机器学习方法原理差异较大,模型理论假设比较少,因此对模型进行评价的方法较少,一般是通过比较模型预测结果与真实结果来判断模型的预测精度。
四、实践结果与对比
(一)GLM模型结果及分析
GLM模型中考虑的变量包括研究对象的年龄、省份、社保情况、疾病类别和诊断类别等,其拟合后的评价参数见表8。各变量解释的方差及统计检验结果见表9。具体参数估计见表10。
根据表9方差分析结果可知,有无社保作为指示变量具有统计学意义,其p值为0.04;各疾病诊断组之间的差异有统计学意义,主要诊断和次要诊断之间的差异有统计学意义。模型的R2为0.06,变异系数为.74。拟合结果中,有无社保的拟合参数的p值0.12为最大。
在GLM的模型拟合中,省份的参数估计值对模型的结果影响较大。参数估计值绝对值较大的省份包括吉林、安徽、辽宁、陕西等,这些省份的参数估计的p值均是显著的。此外,从表中还可以看到,男性和女性的住院费用高于性别不明的分组。年龄作为连续变量进入模型,其参数估计值为.00,p0.,标准误为18.70。说明年龄与住院费用正相关,即随着年龄的增长,住院费用有增高的趋势。
(二)机器学习模型结果展示
随机森林、LASSO回归和LightGBM三种机器学习模型拟合结果见表11。其中,LightGBM的均方根误差最小为.47,且R2最大,为0.27。LASSO回归的均方根误差最大为.12,且R2最小,为0.14。
随机森林还可以给出各个因子对拟合结果影响的大小排序,见图2。从图中可以看到:对住院费用影响最大的是年龄,远高于其他因子;对费用拟合结果影响前三位的因素分别是年龄、是否有医保和性别。此外,随机森林模型还能在调整不同疾病分组的并发症因素后,再次对不同并发症对费用的影响大小进行排序,结果见图3。从图中可以看到:考虑并发症因素后,对住院费用影响最大的仍是年龄,但影响第二大的因素变成了并发症,是否有医保的影响排在第三位。最后调整并发症因素后,随机森林模型还给出了不同并发症对费用的影响程度。
(三)模型对比分析
模型对比分析基于平均绝对误差和均方根误差,其中平均绝对误差MAE(MeanAbsoluteError,MAE)是绝对误差的平均值,其实是更一般形式的误差平均值,其表达式为:
而均方根误差RMSE(RootMeanSquaredError,RMSE),有时称为RMSD,它可以测量误差的平均大小,定义为预测值和实际观测之间平方差异平均值的平方根,其表达式为:
GLM传统模型方法和机器学习模型的参数对比见表12。其中,LightGBM模型的R2最大,且均方根误差较小,由此可以认为LightGBM模型的拟合效果最好;但随机森林模型可以调整并发症种类,并给出各因素影响程度的相对大小,其R2与LightGBM接近,为0.25,均远高于GLM模型的R2。
综合以上结果可以看出,在老年痴呆症患者的未来住院费用预测方面,机器学习效果优于传统保费损失厘定使用的GLM模型。选择合适的机器学习模型拟合能够获得令人满意的效果。具体来说,在用于损失厘定时机器学习相对于传统的GLM模型具有一定优势,通常对数据的分布要求更低,使用更方便,适用范围更广,效率更高;随机森林模型适用于维度不太高,但对准确性有要求的数据,但是容易在数据集相对小或者是低维数据集的时候产生过拟合,计算速度比单个的决策树慢,在推断超出范围的独立变量或非独立变量时效果不佳;而LASSO回归在解决数据集中各变量存在共线性问题的情况时效果较好。从本次研究的结果来看,数据集各变量之间的共线性问题影响不大。上述结果还显示,LightGBM在传统机器学习GBDT的基础上,大幅度提高了计算效率,在保证效率的同时提高了拟合效果的精准度。
(四)机器学习模型费用预测
最终的预测结果见表13,该结果是利用拟合效果较好的LightGBM机器学习模型得出的。该结果与既往研究报道的老年患者住院费用的变化趋势结构是相一致的(严敬琴,;黄茂娟等,;郑金坡等,)。
(五)纯保费测算
机器学习模型给出的住院费用测算和估计可以在保险业务中的多个场景应用,例如保费测算、客户服务和风险控制等。这里以纯保费测算为例进行说明。纯保费测算考虑的定价因素是年龄组(60~85岁,每5岁一组)、免赔额(元、元两种情况)、以及个人自付比例(自付20%、自付10%、无自付三种情况),其中个人自付比例反映了医保负担的情况。表14描述了根据华北地区某省数据所测算的痴呆症带病投保一年期百万医疗险的纯保费情况。结果显示,当免赔额为时,纯保费较高,但当免赔额提升到元时,纯保费大幅度下降,具有较好的市场潜力。
五、结语
本研究充分利用样本量较大,覆盖年龄范围广,研究对象在时间和空间上分布均匀的数据,并通过与传统的GLM模型对比,证实了机器学习方法能够较为准确地为带病体住院费用进行预测,为带病投保的保费测算提供基础,为百万医疗险带病投保产品的设计创新提供依据。研究结果可以帮助保险公司扩大投保人群,创新保险产品,为已经患病的人群提供经济保障,从而切实解决老年人的医疗需求,助力健康中国,做到应保尽保,减轻疾病医疗费用负担。
编辑:于小涵
中国保险学会
构建保险大社区
预览时标签不可点收录于话题#个上一篇下一篇