基于随机森林的大豆外观品质识别的研究

论文价格：0元/篇论文用途：仅供参考编辑：论文网点击次数：9

论文字数：**** 论文编号：lw20232833 日期：2023-06-27 来源：论文网

Tag：基于,随机,森林,的,大豆,

0 引言

大豆具有很高的营养价值，被称为“豆中之王”“田中之肉”，对人类有非常重要的作用。随着经济的发展，大豆的生产与加工已经迅速发展成为一个成熟的产业; 但农业产出的大豆质量参差不齐，使我国大豆产业在国际市场上缺少竞争力。大豆外观品质与大豆的营养价值有着重要的关系。我国已于 2009 年9 月 1 日正式实施《大豆》( GB 1352 － 2009) 国家标准，此标准与国际发达国家处于相同水平。
人类的智慧有一个重要方面体现在对外界事物的分类和识别上。比较常用的模式识别分类有神经网络、决策树及支持向量机等，具有各自的性能特点。本文研究的随机森林( Random Forests，RF) 是一种基于多棵决策树的组合分类器，同 Bagging 方法、ADA-boost 方法及随机划分选择法相似。它的优越性使其在国内外众多领域应用比较广泛。例如，韩亮采用二次训练法，构造了改进的随机森林分类器对行人检测进行分析; 赵显通过提取图像灰度空间中的像素点的灰度值对手势进行检测等。

1 模式识别方法

1． 1 概念介绍
模式识别( Pattern Recognition) 是在计算机上对信息进行处理、判别的一种分类过程。判别与分类在理论研究和生产实践中的应用是不可或缺的。若需要处理的问题特别繁琐复杂、影响因素过多，就会增加解决问题的困难程度，此时模式识别的优越性就能体现出来。其能解决计算机中较复杂的问题，对实际问题的解决与处理具有指导意义和应用价值，由此在计算机领域获得广泛应用，并获得一定成功。

1． 2 随机森林
随机森林( Ｒandom Forests，ＲF) 是由 Leo Breiman和 Adele Cutler 发展并推论出的，它由许多单棵分类回归树组成，最后进行投票从而分类。换而言之就是有很多决策树 h(X，θ )k{，k = 1，2，3，…}构建的，X 为输入向量，{θ }k为同分布且独立的随机向量，变为一个决策树的“森林”。ＲF 在保证每棵树功能同时，也降低了各树之间的相关度，提高了分类器的性能。随机森林分类器模型如图1 所示。

要想实现随机森林算法，就要利用 OpenCV 算法库中的 CvＲTrees 类。OpenCV 是开源计算机视觉库，其中包含了一系列 C 函数和少量 C + +类。并且它还提供了 MATLAB 语言的接口，这样就使计算机视觉和图像处理实现了通用算法。因为 CvRTrees 类对随机森林算法进行了封装，所以对随机森林算法的分类就变得十分简单，只需要调用其接口就可以。
随机森林虽然在某些噪音较大的分类或回归问题上产生过拟，但其鲁棒性优越，对于数据的随机性有很好的处理能力，面对大量的输入数据也拥有较好的处理能力，并可以在决定类别时，评估变量的重要性。由于其具有相似的分类器结构，所以得出的效果比较相似，投票的方法还比较简单。

2 分类器设计

设计的总体思想: 通过对大豆图像的研究与分析，提取特征向量，设计分类器。分类器的构建大概分为以下3 步。
1) 建立训练样本集。根据试验需要，选择 4 种大豆为例进行基于随机森林的大豆外观品质识别分类器的设计，4 种试验大豆分别为灰病斑大豆、霉变大豆、虫蚀大豆、破碎大豆。经过处理可以得到去除背景的单颗病害大豆籽粒图像，如图2 所示。

2) 采用点对比较特征对样本进行特征描述。即从样本图像中随机选择两个像素点，并比较其的像素值。要选取 10 × 10 个像素点均匀分布在样本图像中，如图3 所示。

这样就会有 4 950 个点对比较特征，对于构建一个随机森林分类器 4 950 个点对比较特征是足够的。然后，从这些像素点中随意抽取 2 个像素点，比较它们之间差值大小，比较规则为

3) 训练分类器。训练集中所有样本进入一棵树都要通过根节点，然后所有样本按照对应准则进行分裂。样本在分裂后按照如下公式进入左边或者右边的子节点，分别对这两个子节点重复上一步，进行递归分裂，则有

3 实验结果
病害大豆具有一定的特征。患有灰病斑大豆的籽粒其病斑呈现圆形或不规则形，中间灰白色，边缘呈暗褐色。大豆霉变后，它的籽粒会变色变味，表面变的褶皱。大豆一旦破损，其外形有明显的变化，形态各异。虫蚀过的大豆会感染细菌，外形也会发生明显变化，但与破损大豆外形有所差异，可以通过对不同种类大豆的形态、颜色、纹理特征提取从而进行识别。本文基于 MatLab 平台，应用随机森林方法，对大豆的形态特征进行试验研究。
首先，选取10 粒大豆试验，标号为1 ～10，其中2、9、10 号为灰病斑豆粒，3、4、7 号为霉变豆粒，1、8 号为虫蚀豆粒，6 号为破碎豆粒，5 号为标准豆粒。实验结果如图4 所示。

通过仿真结果可知: 当灰病斑大豆训练步数为660、霉变大豆训练步数为 87、虫蚀大豆训练步数为906 及破碎大豆训练步数为 870 时，仿真结果误差小且效果好。10 粒大豆分类结果如图5 所示。

其中，纵坐标1 ～5 分别代表破碎、虫蚀、霉变、灰病斑和标准大豆。实验结果与选取样本一一对应。由结果图可以看出，此分类器可以有效的检测出大豆病害种类。
对于少量的大豆样本进行过实验后，对训练结果进行保存，再重新选取正常大豆 100 粒，其他病害大豆各100 粒，利用随机森林算法进行试验。识别结果如图6 所示。

从图6 可以看出: 随机森林对于病害大豆籽粒有较高的检验能力，就整体效果看来在一定程度上它具有一定的实际应用能力。

4 结论
应用随机森林方法对病害大豆进行检测，根据随机森林方法训练分类器，实现了少量和大量病害大豆识别系统。随机森林方法具有以下优点: 面对大量数据，分类较为精准; 与其他分类方法比较，噪音影响对其影响较低; 利用大数定律可以得到其不容易过拟合; 分类器建立时，可以内部估算出泛化误差，这是利用 OOB 数据得到的; 面对分类器数据集不平衡时，它可以平衡误差。随机森林算法已经变为越来越重要的一种数据分析工具，科学研究领域应用广泛，如核磁共振光谱、人脸识别、土地覆盖及3D 跟踪等。
参考文献（略）

上一篇：柴油机燃用不同替代燃料的燃烧与排放特性分析
下一篇：秋季温室番茄环境因子变化规律研究——基于无线传感网络

相关职称论文文章