简介
成果简介(技术分析和应用前景分析):本技术主要处理大规模含噪数据流挖掘问题,此类问题广泛存在于生物信息学、社交媒体、流程工业生产过程等实际应用场景之中。主要技术难点:由于样本标签中富含噪声,无法直接使用常规去噪技术如分箱算法对数据做预处理,而现有在线学习算法处理富含噪音的样本数据,又难以学习到系统的准确规律,导致学习算法的可靠性大打折扣。所提供的技术核心支撑点:(1)针对分类问题,结合经典hinge损失和Ramp损失构造一种新型损失函数以有效遏制噪音数据的负面影响,引入核函数设计耐噪在线核分类算法,封装算法形成软件;(2)针对回归问题,构造Canal损失函数以限制杠杆点等噪音数据的影响,基于核技巧构建具有实时性的在线核学习算法,综合利用泛函Gateaux导数和在线梯度下降方法设计可尺度化的快速更新算法,封装算法形成软件。应用前景:所提耐噪在线核分类算法可用于处理一般的PU学习问题。如生物信息学中的多肽鉴定问题等。所提耐噪在线核回归算法可用于构建动态高炉炉温实时预报模型,集成到高炉专家系统中,与高炉炉温控制模型等协同,有效降低高炉能耗、减少环境污染。