关键词:不确定数据 数据挖掘 频繁模式 spark
摘要:如何在海量不确定数据集中提高频繁模式挖掘性能是目前研究的热点.传统算法大多是以期望、概率或者权重等单一指标为数据项集支持度,在大数据背景下,同时考虑概率和权重支持度的算法难以兼顾其执行效率.为此,本文提出一种基于Spark的不确定数据集频繁模式挖掘算法(UWEFP),首先,为了同时兼顾数据项的概率和权重,计算一项集的最大概率权重值并进行剪枝;然后,为了减少对数据集的多次扫描,结合Spark框架的优点,设计了一种具有FP-tree特征的新颖的UWEFP-tree结构进行模式树的构建及挖掘;最后在Spark环境下,以UCI数据集进行实验验证.实验结果表明本文的方法在保证挖掘结果的同时,提高了效率.
信息与控制杂志要求:
{1}基金或课题项目:若要标注获得基金或课题赞助的论文,应注明基金或课题项目名称,并在圆括号内注明项目编号。
{2}本刊欢迎具有创见性、应用性、前瞻性的论文,对触及社会和学术界热点、重点及时代感、现实性较强的论文优先录用。
{3}图片要求为原始稿件单独发送,清晰,色彩、亮度适中,图像分辨率应为1024×768像素,4M以上。
{4}文中需进一步解释的内容作为页末注释,用宋体五号字。文中用上标标注,编号为:①②③。
{5}附录内容较少,与参考文献排在同一页;如出现内容较多,则另起一页。附录的字体为12磅,Times New Roman字体,加粗。附录内容格式要求与正文一致。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社