关键词 关联规则;数据挖掘;人寿保险
1 引言
近年来,数据密集型的保险行业经过多年的运营,也已经积累了海量的历史数据,这些数据是公司的重要财富。要从这些大量数据中获取能给公司带来无限商机的有价值信息,急需更高效的数据处理方法和技术。此时数据挖掘技术显示出了它特有的优越性。1
2 关联规则挖掘技术
数据挖掘(Data Mining)是一个利用各种分析技术和工具从大量数据中提取有用知识的过程。它是一门交叉学科,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。它包含很多技术与方法,其中关联规则挖掘是一项非常重要的技术,是数据挖掘的一个主要研究方向。迄今为止,关联规则挖掘已经被应用到很多领域,例如零售业、市场营销、医学等,为各个领域的决策支持提高了一个有效的手段。
关联规则挖掘是由R.A grawal等人提出来的,关联规则是描述数据库中数据项之间某种潜在关系的规则[1],它的基本概念为:设
为数据项集合,设D为与任务相关的数据集合,也就是一个交易数据库,其中的每个交易T是一个数据项子集,即
;每个交易均包含一个识别编号TID。设A为一个数据项集合,当且仅当
时就称交易T包含A。一个关联规则就是具有“
”形式的蕴含式;其中有
,
且
。规则
在交易数据集D中成立,具有支持度s,其中s是D中交易包含
(即A和B二者)的百分比,这是概率P(
) 。如果D中包含A的事务同时也包含B的百分比是c,则规则 
在交易数据集D中具有置信度c。这是条件概率P
。即Support P(
)= P (
) ,Confidence P (
)=p(
)。
为数据项集合,设D为与任务相关的数据集合,也就是一个交易数据库,其中的每个交易T是一个数据项子集,即
;每个交易均包含一个识别编号TID。设A为一个数据项集合,当且仅当
时就称交易T包含A。一个关联规则就是具有“
”形式的蕴含式;其中有
,
且
。规则
在交易数据集D中成立,具有支持度s,其中s是D中交易包含
(即A和B二者)的百分比,这是概率P(
) 。如果D中包含A的事务同时也包含B的百分比是c,则规则 
。即Support P(
)= P (
) ,Confidence P (
)=p(
)。 满足最小支持度阈值和最小置信度阈值的关联规则就称为强规则。这两个阈值均在0%到100%之间。挖掘关联规则主要包含以下二个步骤[2]:
(1)发现所有的频繁项集,根据定义,这些项集的支持度至少应等于(预先设置的)最小支持度阈值;
(2)根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。
3 关联规则挖掘技术在人寿保险行业中的应用
人寿保险行业在日常的经营过程中,经常会遇到这样一些问题:如何能更好的理解客户,挽留有价值的投保人,对不同行业的人、不同年龄段的人、处于不同社会阶层的人的保险金额度该如何确定。这些问题都是影响公司经济运营的重要因素。为了更好的掌握投保人的特点及合理的制定保险金额度,可以利用关联规则挖掘来发现投保人与索赔的关系,分析具有什么特征的投保人曾经向保险公司索赔过。
3.1 关联规则挖掘的基础数据
为了研究投保人与索赔的关系,我们从某城市一家人寿保险公司的历史保单数据库中提取出相关数据,把其整合到关系表中进行关联规则挖掘。下面的表1为整合之后的信息。
3.2 基于概化的数据预处理
为了更好的进行关联规则挖掘,要对表1中的基础信息进行基于概化的数据预处理,具体的概化处理方法为:
① 用符号A描述年龄,把年龄进行分段概化为:A1(£25岁),A2(25-35岁),A3(35-45岁),A4(³45岁)。
② 用符号B描述性别,B1表示“女”,B2表示“男”。
③ 用符号C描述健康状况,C1表示良好,C2表示一般,C3表示较差。
④ 用符号D表示工作单位,工作单位为外资企业的表示为D1,非外资企业的表示为D2。
⑤ 用符号E表示工资档次,分别概化为:E1(高),E2(较高),E3(中),E4(低)。
⑥ 用符号F表示投保人是否曾向保险公司索赔过,F1表示曾经索赔过,F2表示未曾索赔过。
根据上述方法对表1中的数据进行概化的结果如表2所示:
表1 基础数据
|
编号 |
年龄 |
性别 |
健康状况 |
工作单位 |
工资档次 |
是否曾索赔 |
|
001 |
47 |
男 |
一般 |
摩碧聂斯电装有限公司 |
高 |
是 |
|
002 |
36 |
女 |
良好 |
新世纪学校 |
中 |
否 |
|
003 |
29 |
女 |
良好 |
府新大厦 |
较高 |
否 |
|
004 |
49 |
男 |
较差 |
昌美达电子 |
低 |
是 |
|
005 |
41 |
男 |
一般 |
新阳光医院 |
高 |
否 |
|
006 |
50 |
男 |
良好 |
志高缝纫 |
中 |
是 |
|
007 |
24 |
男 |
良好 |
《摩托车》杂志社 |
中 |
否 |
|
008 |
45 |
女 |
一般 |
蒲项不锈钢 |
低 |
是 |
|
009 |
23 |
女 |
良好 |
雅倩美发中心 |
较高 |
否 |
|
010 |
46 |
男 |
较差 |
易和基业 |
较高 |
是 |
表2 基础数据概化结果
|
编号 |
年龄 |
性别 |
健康状况 |
工作单位 |
工资档次 |
是否曾索赔 |
|
001 |
A4 |
B2 |
C2 |
D1 |
E1 |
F1 |
|
002 |
A3 |
B1 |
C1 |
D2 |
E3 |
F2 |
|
003 |
A2 |
B1 |
C1 |
D2 |
E2 |
F2 |
|
004 |
A4 |
B2 |
C3 |
D1 |
E4 |
F1 |
|
005 |
A3 |
B2 |
C2 |
D2 |
E1 |
F2 |
|
006 |
A4 |
B2 |
C1 |
D1 |
E3 |
F1 |
|
007 |
A1 |
B2 |
C1 |
D2 |
E3 |
F2 |
|
008 |
A4 |
B1 |
C2 |
D1 |
E4 |
F1 |
|
009 |
A1 |
B1 |
C1 |
D2 |
E2 |
F2 |
|
010 |
A4 |
B2 |
C3 |
D1 |
E2 |
F1 |




