信息论先例
信息理论的研究内容是量化信号中包含的信息量。
所用的定量指示剂优选满足两个条件。
(1)事件发生的可能性越小,包含的信息就越多。
(2)独立事件具有增量信息(即,对于多个独立事件同时生成的信息量等于每个信息量的总和)。
遵循先前的原则,用于定义事件的自我信息$ \ mathsf{x}= x $是$$ I(x)= - \ logp(x)$$如果日志的下半部分是e,则单位为nat。下面是2。单位有点或香农。
香农熵用于量化整体概率分布中变量的不确定性。$$ H(\ mathsf{x})= E _{\ mathsf{x}\ simP}[I(x)]= -E _{\ mathsf{x}\ simP}[\ logP(x)]$$Shannon熵的含义是满足$ p $分布的事件生成的预期信息的总量。
第二
KL分歧(Kullback-LeiblerDivergence)
如果随机变量$ \ mathsf{x}$有两个可能的分布$ P(\ mathsf{x})$和$ Q(\ mathsf{x})$,那么KL分歧来衡量这两个分布你可以用$$ \ begin{align *}D_{KL}(P || Q)= E _{\ mathsf{x}\ simP}\ left[\ log \ frac{P(x)}{Q(KL分支是不要做x)}\ right = \ \ = E _{\ mathsf{x}\ simP}\ left[\ logP(x) - \ logQ(x)\ right]\ end{align *}with $$ P只有当Q具有相同的分布时,KL的偏差才为零。
如果你有$ p(x)$的分布并且你想使用$ q(x)$近似的另一个分布,你可以选择最小化两者之间KL的分歧。
但要注意$ D_{KL}(p || q)
eqD_{KL}(q || p)$,首先表示选择q使q具有高概率。这里,p的概率很高。后者意味着如果概率低,则q被选择为低。

交叉熵
交叉熵定义如下。
$$ \ begin{align *}H(P,Q)= H(P)+ D_{KL}(P || Q)\\ = -E _{\ mathsf{x}\ simP}\ logQ(x)\ Fin{align *}$$
由于$ H(P)$独立于Q,因此最小化Q的交叉熵与最小化KL的发散相同。

最大似然估计
假设您有一个m个样本的数据集,这些样本由未知的实际数据分布$ p_{data}(x)$独立生成。
由$ \ theta $确定的概率分布是$ p_{model}(x; \ theta)$。$ p_{model}(x; \ theta)$将输入x x $映射到实数以估计真实概率。$ P_{data}(x)$。
也就是说,给定$ \ theta $,您可以获得数据的完整概率分布,并且可以计算观察采样数据的概率,即$ L(\ theta)$的概率。
如果$ \ theta $计算的样本可能性太低,则需要更改$ \ theta $的集合。
最大概率估计是选择$ \ theta $的集合,以便样本尽可能高。
$$ \ begin{align *}\ theta_{ML}= \ mathop{\ arg \ min}_{\ theta}p_{model}(x; \ theta)\ \ = \ mathop{\ arg \ min}_{\ theta}\ prod_{i = 1}^{m}p_{model}(x ^{(j)}; \ theta)\ end{align *}$$
日志通常转换为摘要形式,因为多个概率的乘积可能导致数字数据流。
$$ \ begin{equation}\ theta_{ML}= \ mathop{\ arg \ min}_{\ theta}\ sum_{i = 1}^ m \ logp_{model}(x ^{(i)}; \Theta)\ end{Equation}$$

MLE - 吉隆坡 - CE
从$$ E到{_ \ mathsf{x}\ simp_{data}}[\ logp_{model}(x)]= \ sum_{i = 1}^{m}p_{data}\ cdot \ logp_{model}(最大概率估计x;))$$可以被缩放以表示与训练数据的经验分布相关联的预期值。$ p_{data}$:$$ \ begin{Equation}\ theta_{ML}= \ mathop{\ arg \ min}_{\ theta}E \{\ mathsf{x}\ simp_{data}}\ logp_{模型}(x ^{(i)}; \ theta)\ end{Equation}$ estimate是经验分布$ p_{data}$与最小化训练集熵的模型分布之间的差异,换句话说,它可以看作是两者之间KL差异的差异。$$ D_{KL}(p_{data}|| P_{model})= E _{\ mathsf{x}\ simp_{data}}\ left[\ logp_{data}- \ logp_{model}(x)\ right]$$ KL在发散和最小化分布之间的等效交叉熵$$ - E _{\ _数学运算{x}\ simp_{数据}}[\ logp_{model}(x)]$$