一种基于Spark的不确定数据集频繁模式挖掘算法

杨阳; 丁家满; 李海滨; 贾连印; 游进国; 姜瑛 昆明理工大学信息工程与自动化学院; 云南昆明650500

关键词:不确定数据 数据挖掘 频繁模式 spark 

摘要:如何在海量不确定数据集中提高频繁模式挖掘性能是目前研究的热点.传统算法大多是以期望、概率或者权重等单一指标为数据项集支持度,在大数据背景下,同时考虑概率和权重支持度的算法难以兼顾其执行效率.为此,本文提出一种基于Spark的不确定数据集频繁模式挖掘算法(UWEFP),首先,为了同时兼顾数据项的概率和权重,计算一项集的最大概率权重值并进行剪枝;然后,为了减少对数据集的多次扫描,结合Spark框架的优点,设计了一种具有FP-tree特征的新颖的UWEFP-tree结构进行模式树的构建及挖掘;最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文的方法在保证挖掘结果的同时,提高了效率.

信息与控制杂志要求:

{1}基金或课题项目:若要标注获得基金或课题赞助的论文,应注明基金或课题项目名称,并在圆括号内注明项目编号。

{2}本刊欢迎具有创见性、应用性、前瞻性的论文,对触及社会和学术界热点、重点及时代感、现实性较强的论文优先录用。

{3}图片要求为原始稿件单独发送,清晰,色彩、亮度适中,图像分辨率应为1024×768像素,4M以上。

{4}文中需进一步解释的内容作为页末注释,用宋体五号字。文中用上标标注,编号为:①②③。

{5}附录内容较少,与参考文献排在同一页;如出现内容较多,则另起一页。附录的字体为12磅,Times New Roman字体,加粗。附录内容格式要求与正文一致。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息与控制

北大期刊
1-3个月下单

关注 11人评论|1人关注
相关期刊
  • 户外探险
    省级期刊 1个月内下单
    户外杂志社
  • 歌剧
    省级期刊 1个月内下单
    上海歌剧院
  • 家居主张
    省级期刊 1个月内下单
    上海世纪出版股份有限公司;上海辞书出版社
  • 幸福生活指南
    省级期刊 1个月内下单
    福建省广播影视集团
服务与支付