数学分析 - 数列
极限
数列:α1,α2,…,αn,…\alpha_{1},\alpha_{2},\dots,\alpha_{n},\dotsα1,α2,…,αn,…这样排成一列的实数称为数列。
如果 ana_{n}an 随着 nnn 充分增大,逐渐接近为一个实数 α\alphaα 时,称,数列 {αn}\{\alpha_{n}\}{αn} 收敛于α\alphaα,记为
limn→∞{αn}=α\lim_{ n \to \infty } \{\alpha_{n}\}=\alpha
n→∞lim{αn}=α
但是,“充分增大”,“逐渐接近”这些词是模糊不清,缺乏严谨的,应该避免使用。
我们知道,如果 {αn}\{\alpha_{n}\}{αn} 收敛于 α\alphaα,说明,随着 nnn 的增大,αn\alpha_{n}αn 与 α\alphaα 的距离会越来越小,即,无论我们取多么小的一个正实数 ε\varepsilonε,随着 nnn 的增大,在某一项 NNN 后,αn\alpha_{n}αn 与 α\alphaα,的距离总会比这个数还小。
这样的表述很好的避免使用含糊不清的词 ...
EnsembleLearning
多个学习器被训练来解决同一个问题。往往比单个学习器好很多。
一般结构为:先产生一组“个体学习器”,再用某种策略将它们结合起来。集成学习大致可分为三大类:
Bagging(Bootstrap Aggregating):有放回的抽样原始数据集,分别训练多个学习器,将多个模型的输出加权平均作为最终结果。e.g. 随机森林
Boosting:通过在训练新模型实例时更注重先前模型错误分类的实例来增量构建集成模型。e.g. AdaBoost GBDT
Stacking:训练一个模型用于组合其他各个模型。
Bagging
随机森林
给定
数据集 D∈RND\in R^ND∈RN
树数量 MMM,树数量越多,泛化能力越强,但是过大训练速度慢提升也很小。
每棵树所能使用的最大特征数 kkk
算法过程:
循环训练MMM个决策树,{Tm}m=1M\{T_{m}\}^M_{m=1}{Tm}m=1M
从数据集 D∈RND\in R^ND∈RN 随机选取kkk个特征得到的子集 Dm′∈RND^\prime_{m} \in R^NDm′∈RN (显然数据集中可能会有重复的样本)
使用Dm′D^\p ...
Hello World
以前的 Blog 源码丢了,虽然手动复制一下html上的文字也挺方便的,不过自己去看以前写的那些笔记实在是写的太烂,干脆就全丢了算了。
blog markdown源码:https://github.com/tobyprime/PersonalBlog
gavatar:http://en.gravatar.com/tobyacml
长长长链:https://ooooooooooooooooooooooo.ooo/ooooοооoοᴏοoοᴏοoοᴏooοᴏoᴏoᴏооoоᴏᴏoоᴏᴏοᴏοoοоᴏᴏοоoоοᴏоοοᴏooοᴏoоοооοοоᴏοοоοοoоᴏоοᴏοoοоᴏᴏοᴏoo
聚类
一种无监督学习方法,通过无标签的训练样本,学习数据潜在规律,将数据集中的样本划分为多个不相交的子集(簇 cluster),每个子集可能会对应一个潜在的概念,为进一步数据分析提供基础。
聚类是个模糊且庞大的算法,几个常见的聚类模型:
质心聚类(原型聚类):每个聚类由一个中心向量表示,可以不属于数据集。
密度聚类:聚类被定义为密度高于数据集其余部分的区域,稀疏区域中的对象通常被认为是噪声和边界点。
分布模型聚类:被定义为最有可能属于同一分布的对象。这种方法可以捕获属性之间的相关性和依赖性,但对于许多真实数据集,可能没有简明定义的数学模型.
连通性聚类:根据一个样本附近样本的相似性,将他们连接起来,所有连在一起的样本被认为是一个簇
算法
k-means
是一种质心聚类。给定数据集DDD,需要kkk个原型(均值向量)μ={μ1,…,μk}\mu=\{\mu_{1},\dots,\mu_{k}\}μ={μ1,…,μk},来划分为 kkk 个簇C={C1,…Ck}C=\{C_{1},\dots C_{k}\}C={C1,…Ck}。
目标是:minμ∑in∑x∈Ci∣∣x−μj∣∣2\ ...
最优化 - 二次规划
目标函数是变量的二次函数,约束条件是变量的线性不等式:
minx12xTQx+cTxs.t.Ax≤b\begin{aligned}
\min_{x} \quad &\frac{1}{2} x^T Q x + c^T x \\
s.t.\quad &Ax \leq b
\end{aligned}
xmins.t.21xTQx+cTxAx≤b
其中,x∈Rn,c∈Rn,b∈Rn,A∈Rm×nx\in\mathbb{R}^n,c\in\mathbb{R}^n,b\in\mathbb{R}^n,A\in\mathbb{R}^{m \times n}x∈Rn,c∈Rn,b∈Rn,A∈Rm×n,Q∈Rn×nQ\in\mathbb{R}^{n \times n}Q∈Rn×n是一个对称矩阵。
例如:x=[x1,x2]Tx=[x_{1},x_{2}]^Tx=[x1,x2]T,Q=(a1a2a2a3)Q=\left(\begin{matrix}a_{1} \quad a_{2}\\a_{2} \quad a_{3}\end{matrix}\right)Q=(a1a2a2 ...
最优化 - 拉格朗日乘子法
是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,将原问题的约束条件吸收进目标函数中形成新的函数,简化为无约束优化问题以方便求解:
构造拉格朗日函数 L(x,y,…,λ)=f(x,y,… )+λg(x,y,… )L(x,y,\dots,\lambda) = f(x,y,\dots) + \lambda g(x,y, \dots)L(x,y,…,λ)=f(x,y,…)+λg(x,y,…),其中 f(x,y,… )f(x,y,\dots)f(x,y,…) 是原问题目标函数,g(x,y,… )g(x,y, \dots)g(x,y,…)$ 是约束条件。
求解方程组 ∂L∂x=0,∂L∂y=0,…,∂L∂λ=0\frac{ \partial L }{ \partial x }=0,\frac{ \partial L }{ \partial y }=0,\dots,\frac{ \partial L }{ \partial \lambda }=0∂x∂L=0,∂y∂L=0,…,∂λ∂L=0,得到所有可能的极值点 (x,y,…,λ)(x,y,…,λ)(x,y,…,λ)。
将极 ...
支持向量机
是一种二分类模型,目的是找到一个超平面,使得它能够正确划分训练数据集,并且使得训练数据集中离超平面最近的点(即支持向量)到超平面的距离最大。
硬间隔SVM
定义有三个超平面:
超平面: wTx+b=0w^Tx+b=0wTx+b=0,这个超平面用于在预测时,判断在两个超平面之间的样本点。
正超平面:wTx+b=1w^Tx+b=1wTx+b=1,优化时,保证正类都在其之上
负超平面:wTx+b=−1w^Tx+b=-1wTx+b=−1,优化时,保证负类都在其之下
样本中任意点到超平面wTx+b=0w^Tx+b=0wTx+b=0的距离可以写为:
ri=∣wTx+b∣∥w∥r_{i}=\frac{|w^Tx+b|}{\Vert w \Vert }
ri=∥w∥∣wTx+b∣
假设正超平面到超平面的距离为 r+r^+r+
{wTx+b=1∣wTx+b∣∥w∥=r+\begin{cases}
w^Tx+b=1 \\
\frac{|w^Tx+b|}{\Vert w\Vert }=r^+
\end{cases}
{wTx+b=1∥w∥∣wTx+b∣=r+
解得
r+=1∥w∥r^+=\f ...
决策树
用一棵树来表示数据的分类或回归规则。每个节点表示一个属性的判别,每个分支表示判别的结果,每个叶节点表示一个类别或一个数值。决策树的生成过程是不断地选择最优的属性来划分数据集,使得每个子集的纯度越来越高。
或者说,决策树是在不断的按照某个属性,把训练样本细分为多个子集,直到已经只含有某一类的样本。
决策树的纯度可以用信息熵或基尼系数等指标来度量,它们反映了数据集合中不同类别的混乱程度。
选择最优的划分属性
随着不断划分,我们希望决策树的结点纯度越来越高。
信息熵 Information Entropy
信息熵,可以表征随机变量分布的混乱程度,某个事件发生不确定度越大,熵越大,随机变量 XXX 中 iii 事件发生可能性为 pip_ipi,(或者说,样本集 XXX 中 iii 类样本所占比例为 pip_ipi),信息熵定义为:
Ent(X)=−∑i=1Npilog2piEnt(X)=-\sum^N_{i=1}p_i \log_2 p_i
Ent(X)=−i=1∑Npilog2pi
熵的计算只与事件概率有关,与值无关,且约定p=0p=0p=0时plogp=0p \log p= ...
线性回归
普通线性回归 Linear Regression
一般形式
f(x)=w1x1+...+wkxk+bf(x)=w_1x_1+...+w_kx_k+b
f(x)=w1x1+...+wkxk+b
需要优化的参数为权重wnw_nwn与偏置bbb,通常使用最小二乘法估计模型参数。
一般写作向量形式:
f(x)=wx+bf(x)=wx+b
f(x)=wx+b
其中 w=(w1,...,wk)Tw=(w_1,...,w_k)^Tw=(w1,...,wk)T,x=(x1,...,xk)x=(x_1,...,x_k)x=(x1,...,xk)
优化(最小二乘法)Least Square Method
目标是求出一组参数w,bw,bw,b,使得对于所有输入的预测值与输出值的 MSE 最小。
定义MSE为:
E=∑in(f(xi)−yi)E = \sum_i^n(f(x_i)-y_i)
E=i∑n(f(xi)−yi)
优化目标是
w∗,b∗=arg minw,bEw^*,b^*=\argmin_{w,b} E
w∗,b∗=w,bargminE
一元线性回归的最小二乘法推导
如 ...
XMem
使用了三种类型的特征记忆(感官记忆,工作记忆,长期记忆)使得可以处理长视频而不会导致显存占用量过大,同时在短视频上也有良好的性能。为了定期将工作记忆中的重要特征整合到长期记忆,还开发了一个记忆增强算法。
三种记忆简介
感觉记忆:短期存储的低层次信息,如物体位置,是通过每帧将模型中Decoder中的多尺度特征,馈送至一个GRU传递、更新得到一个的隐藏表示。每隔 r 帧,会通过将模型掩码经过 Value Encoder的输出与感觉记忆经过另外一个 GRU 来深度更新(Deep Update)感官记忆。
工作记忆:可以在几秒钟的范围内实现准确的匹配,由一个键与一个与之对应的值组成,每隔 r 帧,将当前帧中 QueryEncoder输出的Query 作为工作记忆的键,输出的掩码经过一个值编码器的输出作为工作记忆的值。
长期记忆:存储一些紧凑而有代表性的特征,从而提高分割质量,当工作记忆达到一个上限时,就会通过一个内存整合过程,从工作记忆(working memory)中选择一些原型,并用一个内存增强算法整合到长期记忆。过于久远的记忆也会被丢弃。
利用记忆
感觉记忆与长期记忆
感觉记忆与长 ...