根据葡萄酒理化指标对葡萄酒质量的统计分析 - 范文中心

根据葡萄酒理化指标对葡萄酒质量的统计分析

11/08

  【摘要】本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估,关注影响葡萄酒质量分类的关键指标。

  【关键字】葡萄酒,理化指标,质量分类,逻辑回归分析,决策树

  一、问题提出

  葡萄酒是一种成分复杂的酒精饮料,葡萄酒行业评价葡萄酒质量时,惯用的是感官评价,但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大,评定常有一定程度的主观性和不确定性,尤其在葡萄酒质量差别不大时,更易引起打分不一致和数据分析产生偏差,使品评结果不够科学。对葡萄酒质量通过量化的方法进行评价,为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。葡萄酒的成分与葡萄酒的质量关系密切,是判定葡萄酒质量的重要依据。

  本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估,得到影响葡萄酒质量分类的重要指标。

  二、主要研究方法

  针对葡萄酒质量及其理化指标的关系的理论研究方法,现在主要有多元线性回归、神经网络、支持向量机等方法。

  本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进行对比研究。逻辑回归模型主要研究某些因素与二分类变量之间的联系,通过逻辑变换,建立因变量与自变量的线性模型,其中,因变量的系数表示为该因素改变一个单位,个体发生事件概率与不发生事件概率之比的自然对数变化值。系数得到则主要通过最大似然估计。决策树通过选择分类效果最好的属性,把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例的分类。本文主要通过Rattle中包含的决策树的CART算法对葡萄酒质量进行分类研究。此外,本文还引入了Adaboost算法对决策树分类进行优化,以得到对葡萄酒质量最佳的分类结果。

  三、指标选取及数据探索

  本文主要选择葡萄酒的理化指标作为分类依据进行研究。参考文献并根据数据的可取得性,最终选择非挥发性酸度、挥发性酸度、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐、PH值、酒精11个理化指标作为输入变量。输出变量为基于感觉得到的葡萄酒质量(葡萄酒专家提出的至少3个评价的均值)。葡萄酒数据来源于UCI数据库。对于输出变量,每位专家的葡萄酒质量分级介于0~10,其中0为质量极差,10为质量极好。极好的和极差的葡萄酒样本都是少数,评价为中间的葡萄酒样本最多。红葡萄酒样本总数有1599个,质量分为6类,分别评价为3至8。由于本文目的主要在于对质量评价相近的葡萄酒进行量化分类,故通过简单的统计红葡萄酒各评价的个数后,将葡萄酒质量进行0~1化。若红葡萄酒评价类别为3~5,则为0(质量差);若红葡萄酒评价类别为6~9,则为1(质量好)。数据中没有缺失值。选择前70%的样本进行建模,15%的样本进行验证,15%的样本进行测试。

  四、主要结果及比较分析

  将上述处理好的数据在R软件的Rattle包中进行分析,得到不同分类方法对葡萄酒质量分类结果:

  1、逻辑回归分析。通过logistic回归结果得,在99.9%的置信度下,挥发性酸度、硫酸盐对红葡萄酒的分类存在显著影响。对红葡萄酒而言,总二氧化硫、理化指标对红葡萄酒质量有显著影响。

  2、决策树分析—CART。通过对红葡萄酒建立决策回归树,最终得到红葡萄酒决策回归树的树结构比较简单、判别规则较为清晰,但底层分类较为繁杂。当酒精11且硫酸盐>0.58时,就可以判定该红葡萄酒为质量好。

  3、模型间的比较。通过逻辑回归和决策树两种模型对葡萄酒质量进行分类,不同模型对葡萄酒分类的重要指标结论不同,为比较两种模型的优劣,画出了ROC曲线。在ROC曲线中,曲线下方面积越大,模型的正判率越高。具体数据如下表。逻辑回归模型对红葡萄酒的正判率为72.8%意味预测样本中真正质量差的红葡萄酒样本有32%被准确定为‘质量差’,而有12%的样本被错误定位‘质量好’;同理,质量好的红葡萄酒样本中,有41%被准确定为‘质量好’,而有15%(8%)的样本被错误定位‘质量差’。

  通过ROC曲线图得到,决策树的正判率总是要高一些。因此,决策树分类结果所得到的重要指标更具有参考价值。考虑到决策树算法有着分类规则复杂、收敛到非全局的局部最优解、过度拟等缺点,故用Adaboost方法对决策树进行优化,以得到更为准确的分类,得到更好的分类重要指标。

  4、决策树模型优化—Adaboost。在建立Adaboost模型时,建立的决策树棵树对模型效果有着十分显著的影响。在建立红葡萄酒Adaboost模型时,本文通过选择50-500的建树棵树,得到不同的正判率,最终选择建立350棵树进行分析,此时的正判率最大,为82.4%。相对于决策树模型正判率74.9%有了显著的提高。

  从红葡萄酒Adaboost模型得到变量重要度:密度对红葡萄酒质量的影响是非常大的。此外,对红葡萄酒而言,非挥发性酸度对分类也相对重要。画出ROC曲线对三种模型比较,最终得到优化后的模型相对于逻辑回归和决策树而言,总是更优一些。

  五、总结

  本文通过,逻辑回归模型、决策树模型、以及用Adaboost修正后的模型得到了不同的分类规则,用正判率作为模型效果评价指标,Adaboost模型更优的结论。即:密度是红白葡萄酒分类的重要指标。此外,对红葡萄酒而言,非挥发性酸度对分类也相对重要。

  本文仍然存在很多不足,可能还有很多可以改进的地方。一方面,对于逻辑回归模型,数据没有标准化,对模型的估计结果会产生一定影响,从而影响模型的正判率。另一方面,本文将正判率作为模型效果评价指标存在不足。因为原始数据的输出变量为感官评价,数据本身存在误判率,本文用正判率对模型进行评价建立在原始数据的分类是正确的假设前提之下。若该假设不成立,则用正判率作为模型效果评价指标是不准确的,应该一种更好的指标来评价模型。

  参考文献:

  [1]李运,李记明,姜忠军,《统计分析在葡萄酒质量评价中的应用》,《酿酒科技》2009年第4期(总第178期)

  [2]王金甲,《基于理化指标的葡萄酒质量的可视化评价研究》,《燕山大学学报》,第34卷第2期,2010年3月

  [3]黄毅、胡二琴,《葡萄酒质量评分的统计分析方法研究》,《长江大学学报》(自科版)2013年2月


相关内容

  • 红酒相关专业知识
    红酒相关专业知识 葡萄酒是以新鲜的葡萄或葡萄汁为原料,经全部或部分酒精发酵酿制而成的,酒精度等于或大于7%(v/v)的发酵酒.葡萄酒集营养.文明.时尚于一身,是人们生活水平提高后的首选酒种,也是国际贸易中交易额最大的酒种.近几年来,随着我国 ...
  • 果蔬肉饮料地方标准
    湖 南 省 地 方 标 准 DB43/ -2007 果蔬肉饮料 2007-06-11发布 2007-06-11实施 湖南省质量技术监督局 发布 目 次 前言···························Ⅱ 1 范围········· ...
  • 第四章我国的食品标准
    第四章 我国的食品标准 第一节 食品标准概述 一.食品标准 1.我国食品标准介绍 食品安全与百姓生活息息相关,自然为世人所关注.,近年来,从2005年苏丹红..孔雀石绿事件,2006年"苏丹红"鸭蛋,2007年织纹螺中毒 ...
  • 影响葡萄酒质量的主要因素分析
    影响葡萄酒质量的主要因素分析 彭德华 (云南香格里拉酒业股份有限公司,云南650217) 决定葡萄酒质量的三要素为或在此以前的土壤中积累了相当 重要因素.因为葡萄植株白天进原料.工艺.设备,其中原料是基的水份,葡萄就可以完成浆果的 行光合作 ...
  • 二次供水突发水污染事件案例分析
    <环境卫生学杂志>2014年10月第4卷第5期JournalofEnvironmentalHygieneOct.2014,Vol.4No.5 [调查研究] 二次供水突发水污染事件案例分析 刘成 摘要:目的 曾德才 高育明 陈夏 ...
  • 食品理化检验复习题
    食品理化检验复习题 1.正确采样的意义是什么? 答:样品是一批食品中的代表,是分析工作的对象,是决定一批食品质量的主要依据.所以采取的样品必须能够正确地反应出整批被检验产品的全部质量内容,因此样品必须具有代表性.否则即使以后的一系列分析工作 ...
  • 保健食品检测试验
    保健食品检测试验 一.保健食品卫生学检测 1.卫生学试验检验项目的确定: 根据产品的详细配方和原料组成.主要工艺.剂型及其他相关资料,依据保健食品和各类食品相关国家.行业标准,确定卫生学检验项目. 2.卫生学试验常用检验方法 <食品卫 ...
  • 生物降解塑料项目可行性研究报告
    生物降解塑料项目可行性研究 报告 生物降解塑料是指一类由自然界存在的微生物如细菌.霉菌(真菌)和藻类的作用而引起降解的塑料.理想的生物降解塑料是一种具有优良的使用性能.废弃后可被环境微生物完全分解.最终被无机化而成为自然界中碳素循环的一个组 ...
  • 灰分分析法测定羧甲基壳聚糖羧甲基取代度的改进
    第3卷 第2期2006年6月邵阳学院学报(自然科学版) Journal of Shaoyang University ( Science and T echnology ) V ol. 3. N o. 2Jun. 2006 文章编号:167 ...
  • 土地质量地球化学评估技术要求(发布稿)
    中国地质调查局地质调查技术标准 D D 2008-06 土地质量地球化学评估技术要求 (试行) 中国地质调查局 2008年10月 目 次 前 言 ............................................... ...