VQ-VAE与codebook
现在生成式 AI(特别是视觉和动作生成领域)有一个大趋势:把连续的物理信号(如pixel、3D关节坐标)变成像“文字”一样的离散符号(Token),然后再用大语言模型(如 Transformer/GPT)来生成它们。
VQ-VAE 和 Codebook 就是完成这第一步“文字化(Tokenization)”的魔法。
加载过慢请开启缓存 浏览器默认开启
现在生成式 AI(特别是视觉和动作生成领域)有一个大趋势:把连续的物理信号(如pixel、3D关节坐标)变成像“文字”一样的离散符号(Token),然后再用大语言模型(如 Transformer/GPT)来生成它们。
VQ-VAE 和 Codebook 就是完成这第一步“文字化(Tokenization)”的魔法。
Stable Diffusion + Text Inversion完整工作流程:
Flow Matching:
不同于Diffusion Model,FM步数少,每一步使用UNet去预测速度场
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities
Diffusion Model+text-guided + mask-conditioned生成,主要用于分割
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis 2025CVPR
使用Latent Drifting(LD)为预训练的Latent Diffusion Model(LDM)的反向扩散去噪阶段的均值增加校准,实现Counterfactual Medical Image Synthesis
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model 2024CVPR
Diff-Mix: 使用Textual Inversion(TI) + DB(用于微调U-Net)微调Stable Diffusion(SD),之后对采样图像(全训练集的跨类图像)进行前向加噪,再反向去噪(使用目标类TI)完成图像生成(跨类翻译) -> faithfulness and diversity
BEYOND OBJECTS: CONTEXTUAL SYNTHETIC DATA GENERATION FOR FINE-GRAINED CLASSIFICATION
BOB: 微调T2I构建真实图像的“background-pose”,再完全依赖“class-background-pose”生成图像
Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce Classification 2025CVPR
Diff-II: category learning(微调U-Net) + 随机采样(两张同类别)DDIM反转>Inversion Circle interpolatoin + 提示词coarse-fine去噪 -> faithfulness and diversity
DDIM反转:从干净图像反推高噪声潜向量,不同于DM加噪的正向加随机噪声破坏图像
DreamDA: Generative Data Augmentation with Diffusion Models
DreamDA: 在SD+TI基础上,在逆扩散的每一步,给 U-Net 的瓶颈层特征加高斯噪声
Generating Images of Rare Concepts Using Pre-trained Diffusion Models 2024AAAI
针对rare concept和类级概念生成,TI聚焦示例级生成,而论文提出的SeedSelect(随机噪声作为参数,反向传播确定固定文本向量的有效噪声区域)效果更好,由于论文要求对SD无微调,所以不使用TI
EFFECTIVE DATA AUGMENTATION WITH DIFFUSION MODELS ICLR 2024
早期的TI+SD生成
Synthetic Data Augmentation using Pre-trained Diffusion Models for Long-tailed Food Image Classification 2025CVPR
在TI+SD的基础上,通过CADS动态退火为正提示文本向量加噪,通过CCFG+正负prompt融合噪声(拉进同类、推远异类)
AUGMENTED CONDITIONING IS ENOUGH FOR EFFECTIVE TRAINING IMAGE GENERATION
采样为两张同类图像,通过CutMix + Mixup +Dropout方法增强图像,不使用TI微调SD,针对长尾/少样本数据集
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling
使用LLM为每张图生成多样的prompt,同类采样prompt和示例图,再经过CLIP->IP-Adapter(解耦交叉注意力,融合特征)->Diffusion Model->VAE decoder,其中所有模型都是冻结的
Interpolating between Images with Diffusion Models
采样为固定的两帧,主要目的是生成平滑过渡而非faithfulness+diversity,两帧示例图加噪之后球面线性插值+TI(Text Embedding)+Pose Guidance 输入到 DM
Flow Matching for Medical Image Synthesis: Bridging the Gap Between Speed and Quality MICCAI2025
使用Flash Attention优化医学图像,主要模型为FM,输入为纯高斯噪声+独热编码+mask(可选),输出为生成图
Contrastive Flow Matching
在Flow Matching中加入对比损失,即随机采样batch中的其他流做loss
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
FlowAR: 使用VAE构造多尺度latent -> 自回归Transformer生成多尺度语义条件 -> Spatial-adaLN融合语义条件和latent,输入FM,最后通过VAE输出生成图像
Metric Flow Matching for Smooth Interpolations on the Data Manifold NeurlPS2024
MFM: 插值函数从FM的线性插值改为非线性插值,目的是构建符合数据流形的概率路径,开销高
VoxelMorph是很经典的无监督学习图像配准,可以用来分割,但效果并不好,因为没有对图像内部结构进行特征提取,无法做到内部的对齐配准,CLMorph解决了这一问题.
Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,最初由 Google 在 2017 年的论文《Attention is All You Need》中提出,主要用于自然语言处理(NLP)任务,后来被广泛应用于计算机视觉(如图像分类、分割)等领域。它的核心优势是能高效捕捉输入数据中的长距离依赖关系(如文本中上下文的关联、图像中不同区域的关联性),且并行计算能力远超传统的循环神经网络(RNN)。
贝叶斯神经网络(BNN)是传统人工神经网络(ANN)与贝叶斯概率理论结合的产物。传统神经网络通过“点估计”学习模型参数(如权重和偏置),而BNN则将参数视为随机变量,学习其概率分布(而非单一固定值),从而天然具备量化不确定性的能力,是解决“模型不确定性”问题的核心方法之一。
此论文并不是基于迁移学习,理论基础是扩散映射。扩散映射(Diffusion Maps)是由 Coifman 和 Lafon 于 2006 年提出的一种非线性降维和数据结构分析方法,其核心思想是通过模拟高维数据上的 “热扩散过程”,捕捉数据的内在几何结构(如流形结构),并将高维数据映射到低维空间以保留关键的拓扑和几何信息。
高斯核(Gaussian Kernel)是一种常用的核函数(Kernel Function),广泛应用于支持向量机(SVM)、核主成分分析(KPCA)、聚类等机器学习任务中,尤其擅长处理非线性问题。其核心原理是通过“隐式映射”将低维空间中线性不可分的数据转换到高维空间,从而在高维空间中实现线性可分,同时避免了直接计算高维空间的复杂运算。
论文链接:Toward Accurate Cardiac MRI Segmentation With Variational Autoencoder-Based Unsupervised Domain Adaptation
论文主要解决了心肌分割的问题,提出无监督域适应方法,将bSSFP(源域)的知识迁移到LGE(目标域)中,实现无需目标域标注的高精度分割。
关于论文的前置知识,可见KL散度、ELBO、VAE等博客。