数据挖掘领域涉及的各种数学与统计学基础概念

加权平均、算数平均：

解释：

例子：

学校算期末成绩，期中考试占30%，期末考试占50%，作业占20%，假如某人期中考试得了84，期末92，作业分91，如果是算数平均，那么就是(84+92+91)/3=89；加权后的，那么加权处理后就是84*30%+92*50%+91*20%=89.4，这是在已知权重的情况下；那么未知权重的情况下呢？想知道两个班的化学加权平均值，一班50人，平均80，二班60人，平均82，算数平均是(80+82)/2=81，加权后是(50*80+60*82)/(50+60)=81.09.还有一种情况类似第一种也是人为规定，比如说你觉得专家的分量比较大，老师其次，学生最低，就某观点，满分10分的情况下，专家打8分，老师打7分，学生打6分，但你认为专家权重和老师及学生权重应为0.5:0.3:0.2，那么加权后就是8*0.5+6*0.3+7*0.2=7.2，而算数平均的话就是(8+6+7)/3=7。

数学期望：

解释：

期望值是对不确定条件的所有可能性结果的一个加权平均，而权数正是每种结果发生的概率。期望值测度了事件结果的总体趋势, 也就是我们所期望结果的平均值。例如你正在投资于一定从事海上石油开采的公司，如果它的开采计划成功，该公司每股股票将从30美元上升到40美元，而在开采失败时，其价格将跌至每股20美元。这样就产生了两种可能性价格结果：每股40美元或每股20美元。用P 表示概率，则在这一例子中期望值表示如下：

期望值=P（成功）*40+P（失败）*20=0.5*40+0.5*20=25美元

一般地，若某个事件有n 个结果，其值分别为X1，X2，...Xn, 可能发生的概率分别为P1，P2，...Pn, 则该事件结果的期望值为：

E(X)=P1*X1+P2*X2+...Pn*Xn

方差:

解释：

方差是各个数据与平均数之差的平方的和的平均数。在概率论和数理统计中，方差（英文Variance ）用来度量随机变量和其数学期望（即均值）之间的偏离程度。在许多实际问题中，研究随机变量和均值之间的偏离程度有着很重要的意义。

方差，一般应用在统计学和概率论中。一般来说主要用来衡量一批数据的波动大小，即这批数据偏离平均数的大小。方差越小，数据波动越小；反之，数据波动越大。计算公式如下：

s^2=[(x1-x)^2+(x2-x)^2+...+(xn-x)^2]/n （x 表示平均数）

方差，通俗点讲，就是和中心偏离的程度！用来衡量一批数据的波动大小（即这批

数据偏离平均数的大小）并把它叫做这组数据的方差。

标准差：（均方差）

解释：

标准差是方差的算术平方根（即把方差开平方就是标准差）。标准差能反映一个数据集的离散程度。

样本方差：

解释： s^2=[(x1-x)^2+(x2-x)^2+...+(xn-x)^2]/（n-1）

除以N 的是有偏样本方差，除以N-1的是无偏样方差。当N 很大的时候，N 》30的时候，两个样本方差没有什么区别，都可以用。但如果N 比较小，在15左右，20左右，那么就必须要用无偏的样本方差。除以N-1的。

如果要求的是样本的方差就除以（n-1），如果要求的是总体的方差就除以n ；样本方差的分母是n-1，而总体方差的分母却是n.

样本标准差：

解释：

样本方差的开方就是样本标准差。

正态分布：（又称：常态分布、高斯分布、钟形曲线）

解释1：

概率论中最重要的一种分布，也是自然界最常见的一种分布。该分布由两个参数——平均值和方差决定。【所有分布里均值都等于期望（数学期望）】概率密度函数曲线以均值为对称中线, 方差越小，分布越集中在均值附近。

解释2：

正态分布：靠近均数分布的频数最多，离开均数越远，分布的数据越少，左右两侧基本对称，这种中间多、两侧逐渐减少的基本对称的分布，称为正态分布。

标准正态分布：（u 分布）

解释：

标准正态分布是μ = 0, σ = 1的正态分布；标准正态分布又称为u 分布，是以0

为均数、以1为标准差的正态分布，记为N （0，1）。

均匀分布：（规则分布）

解释：

均匀分布或称规则分布。植物种群的个体是等距分布，或个体之间保持一定的均匀的间距。均匀分布在自然情况下极为罕见，而人工栽培的有一定株行距的植物群落即是均匀分布。

极限定理：

解释：

极限定律是概率论的基本定律之一, 在概率论和数理统计的理论研究和实际应用中都具有重要意义。在极限定律中，最重要的是：

大数定律和中心极限定律。

大数定律：(弱大数理论)

解释：

有些随机事件无规律可循，但不少是有规律的，这些“有规律的随机事件”在大量重复出现的条件下，往往呈现几乎必然的统计特性，

这个规律就是大数定律。

概率论历史上第一个极限定理属于伯努利，后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向常数收敛的定律。

概率论与数理统计学的基本定律之一，又称弱大数理论。

中心极限定律:

解释：

在随机变量的一切可能的分布中, 正态分布占有特殊重要的地位. 实践中经常遇到的大量的随机变量都是服从正态分布的. 就此提出这样的问题:

为什么正态分布如此广泛地存在, 从而在概率论中占有如此重要的地位? 应该如何解释大量随机现象中的这一客观规律呢？

概率论中有关论证随机变量之和的极限分布为正态分布的定理称为中心极限定理.

定理的解释

若被研究的随机变量可以表示为大量独立随机变量之和，且每个随机变量对总和只起微小的作用，则可以认为此随机变量服从正态分布.

例如, 进行某种观测时, 不可避免地有许多客观的和人为的的随机因素影响着我们的观测结果. 这些因素中的每一个都可能使观测的结果产生很小的误差, 然而由于所有这些误差共同影响着观测结果, 于是我们得到的是一个“总的误差”. 所以, 实际观测得到的误差可以看作是一个随机变量, 它是很多数值微小的独立随机变量的总和, 按林德伯格定理, 这个随机变量应该服从正态分布.

向量：（矢量）

解释：

在数学与物理中，既有大小又有方向的量叫做向量（亦称矢量），在数学中与之相对的是数量，在物理中与之相对的是标量。

既有方向又有大小的量叫做向量（物理学中叫做矢量），只有大小没有方向的量叫做数量（物理学中叫做标量）

矩阵：

解释：

在数学上，矩阵是指纵横排列的二维数据表格，最早来自于方程组的系数及常数所构成的方阵。

单位矩阵：

解释：

它是个方阵，除左上角到右下角的对角线（称为主对角线）上的元素均为1以外全都为0

数组：

解释：

所谓数组，就是相同数据类型的元素按一定顺序排列的集合。

数据框：

解释：

R 语言数据框：数据框可以用data.frame()函数生成，其用法与list()函数相同，各自变量变成数据框的成分，自变量可以命名，成为变量名。

例如：

> d

> d name age height

1 李明 30 180 2 张聪 35 162 3 王建 28 175

中位数：

解释：

把数从小到大排成一列，正中间如果是一个数，这个数就是中位数。

如：1,2,3,4,5,6,7中位数是4；

正中间如果是两个数，那中位数是这两个数的平均数。

如：1,2,3,4,5,6,7,8 中位数是(4+5)/2=9/2。

四分位数：

解释：

四分位数（Quartile ），即统计学中，把所有数值由小到大排列并分成四等份，处于三个分割点位置的得分就是四分位数。

第一四分位数 (Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2)，又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range,IQR）。

例子：数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49 一共11项

Q1 的位置=1+(11-1) × 0.25=3.5， Q2 的位置=1+(11-1) × 0.5=6， Q3的位置=1+(11-1) × 0.75=8.5

Q1 = 15+ (36-15）×（3.5-3）= 25.5，

Q2 = 40+ (41-40）×（6-6）= 40，

Q3 = 42+ (43-42）×（8.5-8）= 42.5

百分位数：

解释：

用99个数值或99个点，将按大小顺序排列的观测值划分为100个等分，则这99个数值或99个点就称为百分位数，分别以Pl ，P2，„，P99代表第1个，第2个，„，第99个百分位数。

百分位通常用第几百分位来表示，如第五百分位，它表示在所有测量数据中，测量值的累计频次达5%。

以身高为例，身高分布的第五百分位表示有5%的人的身高小于此测量值，95%的身高大于此测量值

复数：

解释：

数学名词。由实数部分和虚数部分所组成的数，形如a ＋bi 。其中a 、b 为实数，i 为“虚数单位”，i 的平方等于－1。

a 、b 分别叫做复数a ＋bi 的实部和虚部。当b ＝0时，a ＋bi ＝a 为实数；当b ≠0时，a ＋bi 又称虚数；当b ≠0、a ＝0时，bi 称为纯虚数。

实数和虚数都是复数的子集。如同实数可以在数轴上表示一样，复数可以在平面上表示，这种表示通常被称为“阿干图示法”，以纪念瑞士数学家阿干(J.R.Argand，1768—1822) 。复数x+yi以坐标黑点(x，y) 来表示。表示复数的平面称为“复数平面”。如果两个复数的实部相等，虚部互为相反数，那么这两个复数称为共轭复数。

复数的加减法是：实部与实部相加减；虚部与虚部相加减乘法：（a+ib）*（c+id）=ac+iad+ibc-bd=ac-bd+i(ad+bc) 除法：

先把分母化为实数，方法是比如分母为a+ib，就乘上它的共轭复数a-ib （同时分子也要乘上（a-ib ）分母最后化为a^2+b^2分子就变成乘法了

设z=a+ib 则z 的共轭为a-ib （共轭就是复数的虚部系数符号取反）

实数：

解释：

包括有理数和无理数。其中无理数就是无限不循环小数，有理数就包括整数和分数。数学上，实数直观地定义为和数轴上的点一一对应的数。

本来实数仅称作数，后来引入了虚数概念，原本的数称作“实数”——意义是“实在的数”。

分段函数：

解释：

对于自变量x 的不同的取值范围，有着不同的对应法则，这样的函数通常叫做分段函数. 它是一个函数, 而不是几个函数:

分段函数的定义域是各段函数定义域的并集, 值域也是各段函数值域的并集

1-x ,x =0

区间变量、名义变量、有序变量：

解释：

区间变量取连续的数值，可以进行求和、平均值等运算。

名义变量和有序变量取离散值，可以用数值代表，也可以是字符型值，其具体数值没有加减乘除的意义，不能用来计算，而只能用来分类或计数。

名义变量如性别、省份、职业。

有序变量如班级、名次等。

开区间、闭区间：

解释：

开区间指不包含端点的区间，而闭区间包含端点，在数学符号上，开区间用小括号表示，闭区间用中括号表示

上界、下界：

解释：

都是针对一个函数f(x)来说的。下界：存在实数M ，使得f(x)>M恒成立，则M 为该函数的下界。上界：存在实数M ，使得f （x ）

然后就是简单理解一下上界与下界的意义, 你可以将他们理解为最大植, 最小值, 比如[1,2]的上界就是2, 下界就是1, 准确的讲任何大于2的数都是这个区间的上界, 任何小于1的数都是这个区间的下界, 在高等数学中,1称为这个区间的下却界,2称为这个区间的上却界. 对于开区间(1,2),则可以理解1,2为他的下界与上界.

最小上界、最大下界：

解释：

大于等于集合中所有元素的数中的最小的就是最小上界. 最大下界是小于等于集合中所有元素的数中最大的. 举例来说（1,2,3）的最小上界是3, 最大下界是1.

多项式：

解释：

若干个单项式的和组成的式子叫做多项式（减法中有：减一个数等于加上它的相反数）。

多项式中每个单项式叫做多项式的项，这些单项式中的最高次数，就是这个多项式的次数。

多项式区别于单项式，是由几个单项式相加或相减连接而成的式子。如a 是单项式，b 也是单项式，而a+b就是多项式了，因为它们有加号相连。

二次多项式

解释：

就是一个多项式中，其中包含着最高次项是2次的单项式，这个单项式则是二次多项式，如a ×a （a 的二次方）＋b ＋c 就是二次多项式，其中单项式a 是最高的2次项

行列式:

解释：

n 阶矩阵的行列式是n*n的矩阵通过一种运算求出的值，这个值的几何含义是n 维向量张成的体积，

例如n=2时代表面积，n=3是代表体积等等，这是直观的含义。以2阶矩阵的行列式为例介绍算法：

a b

c d

其行列式为ad-bc ；

转置行列式：

解释：

行列式的行和列是相等的，即n*n，是不同行且不同列的元素之积的代数和，并且行列式结果是一个标量，简单说得到的是一个数值，表示为|A|或者det （A ），A 是一个N*N的矩阵。

而矩阵的行和列可以不相等，即m 行n 列排列的数据。

内积、外积：

解释：

内积是数量积，结果是数量，也叫点乘

外积是矢量积，结果是矢量，也叫叉乘比如两个矢量A ，B ，模分别是a,b ，角度是x,y A ，B 内积结果就是a*b*cos(x-y) A ，B 外积的结果是模为a*b，角度为x+y的向量

> x=c(1,2);y=c(3,4);x;y【定义两个向量】 [1] 1 2 [1] 3 4 > x*y [1] 3 8

> x%*%y【内积】

[,1]

[1,] 11

> crossprod(x,y)

[,1]

[1,] 11

> x%o%y【外积】 [,1] [,2] [1,] 3 4 [2,] 6 8 > outer(x,y) [,1] [,2] [1,] 3 4 [2,] 6 8

最小二乘拟合、QR 分解

量纲：

解释：

基本物理单位是基本物理量的度量单位，例如长短、体积、质量、时间等等之单位。这些单位反映物理现象或物理量的度量，叫做“量纲”。

时间的长短（秒、分、时）、质量的大小（g 、kg ）、速度的快慢（km/h、m/s）等等，都是量纲，它们反映特定物理量或物理现象的度量，在物理学或者计算上常常以物理量的单位来表示。

无量纲量：

解释：

无量纲就是没有单位的量。通常是比值或者概率。具体如下：

在量纲分析中，无量纲量，或称无因次量、无维量、无维度量、无维数量、无次元量等，指的是没有量纲的量。它是个单纯的数字，量纲为1。[1]无量纲量在数学、物理学、工程学、经济学以及日常生活中（如数数）被广泛使用。

一些广为人知的无量纲量包括圆周率（π）、欧拉常数（e ）和黄金分割率（φ）等。与之相对的是有量纲量，拥有诸如长度、面积、时间等单位。

无量纲量常写作两个有量纲量之积或比，但其最终的纲量互相消除后会得出无量纲量。比如，应变是量度形变的量，定义为长度差与原先长度之比。但由于两者的量纲均为L （长度），因此相除后得出的量是没有量纲的。

变异系数：

解释：

变异系数是极差、标准差和方差一样都是反映数据离散程度的绝对值，其数据大小不仅受变量值离散程度的影响，而且还受变量值平均水平大小的影响。

一般来说，变量值平均水平高，其离散程度的测度值也大，反之越小。

变异系数的计算公式为：

变异系数 C ·V =（标准偏差 SD ÷ 平均值 MN ）× 100%

例子：

已知某良种猪场长白成年母猪平均体重为190kg ，标准差为10.5kg ，而大约克成年母猪平均体重为196kg ，标准差为8.5kg ，试问两个品种的成年母猪，那一个体重变异程度大。

此例观测值虽然都是体重，单位相同，但它们的平均数不相同，只能用变异系数来比较其变异程度的大小。

由于，长白成年母猪体重的变异系数：C.V = 10.5 / 190 * 100% = 5.53%

大约克成年母猪体重的变异系数：C.V = 8.5 / 196 * 100% = 4.34%

所以，长白成年母猪体重的变异程度大于大约克成年母猪。

注意，变异系数的大小，同时受平均数和标准差两个统计量的影响，因而在利用变异系数表示资料的变异程度时，最好将平均数和标准差也列出

极差：

解释：

全距(Range)，又称极差，是用来表示统计资料中的变异量数(measures of variation)，其最大值与最小值之间的差距；即最大值减最小值后所得之数据。

极差是指总体各单位的标志值中，最大标志值与最小标志值之差。它是标志值变动的最大范围。极差也称为全距或范围误差，它是测定标志变动的最简单的指标。

换句话说，也就是指一组数据中的最大数据与最小数据的差叫做这组数据的极差。极差英文为range ，简写为R ，表示为：R=Xmax-Xmin。

移动极差（Moving Range）是其中的一种

四分位极差：（半极差）

解释：

上、下四分位数之差称为四分位极差（或半极差）：

R1=Q3-Q1,

它也是度量样本分散性的重要数字特征，

特别对于具有异常值的数据，它作为分散性的度量具有稳定性，因此在稳健性数据分析中具有重要作用。

标准误：

解释：

标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。标准误，即样本均数的标准差，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度，反映的是样本均数之间的变异。标准误不是标准差，是多个样本平均数的标准差。

间断点:

第一类间断点：

解释：

跳跃剪短点与可去间断点统称为第一类简短点

第二类间断点：

解释：

如果f(x)再点x0处的左右极限至少有一个不存在，则称点x0为函数f(x)的第二类间断点。

第二类间断点包括：无穷型、震荡型。

函数的有界性：

解释：

设函数f(x)的定义域为D ，如果存在正数M

|f(x)|≤M ，其中任一x ∈D

成立，则函数f(x)为（在D 上的）有界函数，即函数f(x)（在D 上的）是有界的。

单调函数：

解释：

一般地，设函数f(x）的定义域为I ：

如果对于属于I 内某个区间上的任意两个自变量的值x1、x2，当x1>x2时都有f(x1)≥f(x2).那么就说f(x）在这个区间上是增函数(另一种说法为单调不减函数) 。

如果f(x1)>f(x2)，那么就说f(x）在这个区间上是严格增函数（另一种说法是增函数）。如果对于属于I 内某个区间上的任意两个自变量的值x1、x2，当x1>x2时都有f(x1)≤f(x2).那么就是f(x）在这个区间上是减函数(另一种说法为单调不增函数) 。

如果f(x1)

为了回避歧义，下文采取单调不减函数，严格增函数，单调不增函数，严格减函数等术语。

性质：

如果函数y=f(x）在某个区间是增函数或减函数。那么就说函数y=f(x）在这一区间具有（严格的）单调性，这一区间叫做y= f(x）的单调区间，在单调区间上增函数的图像是上升的，减函数的图像是下降的。

注意：

函数的单调性也叫函数的增减性；

函数的单调性是对某个区间而言的，它是一个局部概念；

可积函数：

解释：

如果f(x)在[a,b]上的定积分存在，我们就说f(x)在[a,b]上可积。即f(x)是[a,b]上的可积函数。

函数可积就是看函数在一个区间上的定积分是否存在! 如果存在则称为可积! 如果不存在则为不可积!

如果一个函数在某区间上连续且有界那么这个函数在该区间上一定可积! 这是可积的必要条件!!!!

函数可积的充分条件：定理1设f(x)在区间[a,b]上连续，则f(x)在[a,b]上可积。定理2设f(x)在区间[a,b]上有界，且只有有限个第一类间断点，则f(x)在[a,b]上可积。定理3设f(x)在区间[a,b]上单调有界, 则f(x)在[a,b]上可积。

微积分：

解释：

微积分的两大部分是微分与积分。微分实际上是求一个已知函数的导数，而积分是已知一个函数的导数，求原函数。所以，微分与积分互为逆运算。

积分分类：不定积分和定积分

不定积分（Indefinite integral）

解释：

即已知导数求原函数。若F ′（x)=f(x)，那么[F(x)+C]′=f(x).(C∈R). 也就是说，把f(x)积分，不一定能得到F(x），因为F(x)+C的导数也是f(x）（C 是任意常数）。

所以f(x）积分的结果有无数个，是不确定的。我们一律用F(x)+C代替，这就称为不定积分。即如果一个导数有原函数，那么它就有无限多个原函数。

定积分（definite integral）

解释：

定积分就是求函数f(X）在区间[a,b]中图线下包围的面积。即由 y=0,x=a,x=b,y=f(X）所围成图形的面积。这个图形称为曲边梯形，特例是曲边三角形。

设函数f(x) 在区间[a,b]上连续，将区间[a,b]分成n 个子区间

[a,x0],(x0,x1],(x1,x2],„,(xi,b]，可知各区间的长度依次是：△x1=X0-a，△x2=X1-x0,„，△xi=b-xi.在每个子区间（xi-1,xi ）任取一点ξi(i=1,2,„,n ），作和式（见右下图），设λ=max{△x1，△x2, „，△xi}(即λ属于最大的区间长度），则当λ→0时，该和式无限接近于某个常数，这个常数叫做函数f(x) 在区间[a,b]的定积分，

记为（见右下图）：

其中：a 叫做积分下限，b 叫做积分上限，区间[a，b]叫做积分区间，函数f(x) 叫做被积函数，x 叫做积分变量，f(x)dx 叫做被积表达式，∫ 叫做积分号

之所以称其为定积分，是因为它积分后得出的值是确定的，是一个数，而不是一个函数。

极限:

解释：

极限在数学中是用来描述一个序列的指标（index ）愈来愈大时，序列中元素的性质变化的趋势。

限也可以描述函数的自变量接近某一个值的时候，相对应的函数值变化的趋势。

极限是微积分和数学分析的其他分支最基本的概念之一，如连续和导数的概念都是通过极限来定义的。

极限可分为数列极限和函数极限.

数列极限标准定义：

解释：

对数列{xn}，若存在常数a ，对于任意ε>0，总存在正整数N ，使得当n>N时，|xn-a|

ε成立，那么称a 是数列{xn}的极限。

函数极限标准定义：

解释：

设函数f(x),|x|大于某一正数时有定义，若存在常数A ，对于任意ε>0，总存在正整数X ，使得当x>X时，|f(x)-A|

数据挖掘领域涉及的各种数学与统计学基础概念

相关内容

热门内容