深度聚类-Deep-for-Clustering

传统的聚类方法有很多了,K-means、HAC、DBSCAN、Mean-shift等等,目前深度学习已经在分类上取得很大的成就,但是在聚类方面的效果仍是差强人意,而“聚类,才是人类真正认知世界的方式”,所以还需要继续突破,看了一些经典文章,做好记录

前置内容

经典聚类算法

查看之前的blogClustering Algorithm各种Autoencoder自动编码器

其实已经了解了目前的一些深度聚类方案,怎么说呢,感觉没有特别颠覆,好多甚至是当前SOTA的方法,还是autoencoder和K-means的结合,基本思路都是通过深度学习+CNN+autoencoder提取特征,即完成降噪降维,而后在embeding space中通过K-means进行聚类

一方面,是我目前的理解还不够,看的文章还很少,所以这也是我写下这篇blog记录自己探索过程的初衷

另一方面,也证明是传统机器学习是真的强啊,K-means真的,虽然一堆问题(local convergence、group collapse),但就是简单易操作而且好用,自己之前花了很多时间去刨根问底一些machine learning的算法,虽然花了不少时间,但也增长了不少见识,希望今后能继续探索SOTA的同时,好好挖掘下传统算法的精华

CA / PCA / t-SNE / Autoencoder

都是降维的方法,前二者老算法了,主要是线性降维,通过特征矩阵提取特征向量,从而使用部分特征表征具体样本,早期算力紧张时,非常火热;

t-SNE(T-Distribution Stochastic Neighbour Embedding)是非线性降维,了解的比较少,具体可看 t-sne数据可视化算法的作用是啥?为了降维还是认识数据?- 微调的回答

Autoencoder就不多说了

维度灾难 The curse of dimensionality

怎样理解 Curse of Dimensionality(维数灾难)? - 微调的回答

维度灾难 - 柳枫的文章

高维数据带来高维的特征空间 导致 特征空间稀疏 可能导致 过拟合

DEC

0%