0 引言
大豆具有很高的营养价值,被称为“豆中之王”“田中之肉”,对人类有非常重要的作用。随着经济的发展,大豆的生产与加工已经迅速发展成为一个成熟的产业; 但农业产出的大豆质量参差不齐,使我国大豆产业在国际市场上缺少竞争力。大豆外观品质与大豆的营养价值有着重要的关系。我国已于 2009 年9 月 1 日正式实施《大豆》( GB 1352 - 2009) 国家标准,此标准与国际发达国家处于相同水平。
人类的智慧有一个重要方面体现在对外界事物的分类和识别上。比较常用的模式识别分类有神经网络、决策树及支持向量机等,具有各自的性能特点。本文研究的随机森林( Random Forests,RF) 是一种基于多棵决策树的组合分类器,同 Bagging 方法、ADA-boost 方法及随机划分选择法相似。它的优越性使其在国内外众多领域应用比较广泛。例如,韩亮采用二次训练法,构造了改进的随机森林分类器对行人检测进行分析; 赵显通过提取图像灰度空间中的像素点的灰度值对手势进行检测等。
1 模式识别方法
1. 1 概念介绍
模式识别( Pattern Recognition) 是在计算机上对信息进行处理、判别的一种分类过程。判别与分类在理论研究和生产实践中的应用是不可或缺的。若需要处理的问题特别繁琐复杂、影响因素过多,就会增加解决问题的困难程度,此时模式识别的优越性就能体现出来。其能解决计算机中较复杂的问题,对实际问题的解决与处理具有指导意义和应用价值,由此在计算机领域获得广泛应用,并获得一定成功。
1. 2 随机森林
随机森林( Random Forests,RF) 是由 Leo Breiman和 Adele Cutler 发展并推论出的,它由许多单棵分类回归树组成,最后进行投票从而分类。换而言之就是有很多决策树 h(X,θ )k{,k = 1,2,3,…}构建的,X 为输入向量,{θ }k为同分布且独立的随机向量,变为一个决策树的“森林”。RF 在保证每棵树功能同时,也降低了各树之间的相关度,提高了分类器的性能。随机森林分类器模型如图1 所示。
要想实现随机森林算法,就要利用 OpenCV 算 法库 中 的 CvRTrees 类。OpenCV 是开源计算机视觉库,其中包含了一系列 C 函数和少量 C + +类。并且它还提供了 MATLAB 语言的接口,这样就使计算机视觉和图像处理实现了通用算法。因为 CvRTrees 类对随机森林算法进行了封装,所以对随机森林算法的分类就变得十分简单,只需要调用其接口就可以。
随机森林虽然在某些噪音较大的分类或回归问题上产生过拟,但其鲁棒性优越,对于数据的随机性有很好的处理能力,面对大量的输入数据也拥有较好的处理能力,并可以在决定类别时,评估变量的重要性。由于其具有相似的分类器结构,所以得出的效果比较相似,投票的方法还比较简单。
2 分类器设计
设计的总体思想: 通过对大豆图像的研究与分析,提取特征向量,设计分类器。分类器的构建大概分为以下3 步。
1) 建立训练样本集。根据试验需要,选择 4 种大豆为例进行基于随机森林的大豆外观品质识别分类器的设计,4 种试验大豆分别为灰病斑大豆、霉变大豆、虫蚀大豆、破碎大豆。经过处理可以得到去除背景的单颗病害大豆籽粒图像,如图2 所示。
2) 采用点对比较特征对样本进行特征描述。即从样本图像中随机选择两个像素点,并比较其的像素值。要选取 10 × 10 个像素点均匀分布在样本图像中,如图3 所示。
这样就会有 4 950 个点对比较特征,对于构建一个随机森林分类器 4 950 个点对比较特征是足够的。然后,从这些像素点中随意抽取 2 个像素点,比较它们之间差值大小,比较规则为
3) 训练分类器。训练集中所有样本进入一棵树都要通过根节点,然后所有样本按照对应准则进行分裂。样本在分裂后按照如下公式进入左边或者右边的子节点,分别对这两个子节点重复上一步,进行递归分裂,则有
3 实验结果
病害大豆具有一定的特征。患有灰病斑大豆的籽粒其病斑呈现圆形或不规则形,中间灰白色,边缘呈暗褐色。大豆霉变后,它的籽粒会变色变味,表面变的褶皱。大豆一旦破损,其外形有明显的变化,形态各异。虫蚀过的大豆会感染细菌,外形也会发生明显变化,但与破损大豆外形有所差异,可以通过对不同种类大豆的形态、颜色、纹理特征提取从而进行识别。本文基于 MatLab 平台,应用随机森林方法,对大豆的形态特征进行试验研究。
首先,选取10 粒大豆试验,标号为1 ~10,其中2、9、10 号为灰病斑豆粒,3、4、7 号为霉变豆粒,1、8 号为虫蚀豆粒,6 号为破碎豆粒,5 号为标准豆粒。实验结果如图4 所示。
通过仿真结果可知: 当灰病斑大豆训练步数为660、霉变大豆训练步数为 87、虫蚀大豆训练步数为906 及破碎大豆训练步数为 870 时,仿真结果误差小且效果好。10 粒大豆分类结果如图5 所示。
其中,纵坐标1 ~5 分别代表破碎、虫蚀、霉变、灰病斑和标准大豆。实验结果与选取样本一一对应。由结果图可以看出,此分类器可以有效的检测出大豆病害种类。
对于少量的大豆样本进行过实验后,对训练结果进行保存,再重新选取正常大豆 100 粒,其他病害大豆各100 粒,利用随机森林算法进行试验。识别结果如图6 所示。
从图6 可以看出: 随机森林对于病害大豆籽粒有较高的检验能力,就整体效果看来在一定程度上它具有一定的实际应用能力。
4 结论
应用随机森林方法对病害大豆进行检测,根据随机森林方法训练分类器,实现了少量和大量病害大豆识别系统。随机森林方法具有以下优点: 面对大量数据,分类较为精准; 与其他分类方法比较,噪音影响对其影响较低; 利用大数定律可以得到其不容易过拟合; 分类器建立时,可以内部估算出泛化误差,这是利用 OOB 数据得到的; 面对分类器数据集不平衡时,它可以平衡误差。随机森林算法已经变为越来越重要的一种数据分析工具,科学研究领域应用广泛,如核磁共振光谱、人脸识别、土地覆盖及3D 跟踪等。
参考文献(略)
基于随机森林的大豆外观品质识别的研究
论文价格:0元/篇
论文用途:仅供参考
编辑:论文网
点击次数:0
Tag:基于,随机,森林,的,大豆,
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100