成果简介: 针对实际问题中数据具有混合属性的特点,本系统提出了一种兼顾分类属性取值频率差异与频率高低的簇间相似性度量方法,用包含分类属性绝对频率和数值属性质心的聚类特征来表示聚类。在此基础上提出了可处理混合属性的快速聚类算法和增量聚类算法,结合基于密度的聚类算法,实现了一种两阶段聚类方法,只需扫描一趟原始数据集,时间复杂度与空间复杂度与数据集大小呈线性关系,能够快速聚类的同时保持较高的聚类精度,并且可识别海量混合属性数据集中的任意形状簇,对数据输入顺序不敏感。同时针对聚类结果对聚类参数较敏感并且参数难以确定的问题,给出了一种计算聚类阈值的抽样方法。 技术指标: 系统采用聚类精度来评估聚类结果质量,使用聚类中数目最多的类别作为该聚类的类别标记。聚类精度高说明算法将不同类别的记录较好地聚集到了不同的聚类中,聚类准确性高。系统功能齐全丰富、性能稳定可靠,软件精心设计、精心调试,处理速度快,可靠性高。 应用领域: 聚类分析是知识发现的重要手段,广泛应用于模式识别、图像处理、网络安全、决策支持和市场营销等领域。在市场营销中为特色化的服务提供建议,帮助发现和挖掘不同细分市场;在网络安全中可用来分析网络入侵等;在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识;还可用于地球观测数据库中相似地区的确定、汽车保险单持有者的分组、以及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类分析是数据挖掘技术中最重要的前沿之一,是信息产业中需要重点关注和发展的交叉学科。随着各行业数据的爆炸性增长、数据类型日趋复杂,面向海量数据的混合属性聚类系统应用前景广阔。 预期经济效益: 系统构建成本低,操作简单,对先验知识要求低,在抽样方法的指导下,仅需输入少量阈值参数;复杂度低,与数据规模呈近似线性关系,适合于大规模混合属性数据集,运行稳定,实用性强,对减轻劳动强度,提高劳动生产效率,减少人工处理误差都有重要意义,有很好的经济和社会效益。 投资规模: 投资规模在二十万元至三十万元之间,要根据系统功能配置要求来定。 研究现状: 本系统已研发完毕。 合作形式、条件: 产品转让。 |