LOADING

加载过慢请开启缓存 浏览器默认开启

Ruthless's Blog

关于Ruthless的一些分享

2025/12/20

Stable Diffusion + Text Inversion完整工作流程:

  1. Text Inversion(TI)训练: 有监督训练,text_encoder一般是Transformer,输入为prompt+示例图,输出为文本嵌入向量,再经过扩散模型(预训练冻结的SD)生成图,对比示例图完成训练
  2. 逆扩散:生成一个纯随机高斯噪声,选择一个prompt经过TI生成文本向量,经过t步去噪,每步去噪输入为上一步潜噪声+文本向量+步数t,经过U-Net得到大小不变的预测噪声,最后经过scheduler得到新潜变量
  3. VAE解码:逆扩散得到的潜变量经过预训练的VAE decoder得到最终的生成图

Flow Matching:
不同于Diffusion Model,FM步数少,每一步使用UNet去预测速度场

  1. MRGen: Segmentation Data Engine for Underrepresented MRI Modalities
    Diffusion Model+text-guided + mask-conditioned生成,主要用于分割

  2. Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis 2025CVPR
    使用Latent Drifting(LD)为预训练的Latent Diffusion Model(LDM)的反向扩散去噪阶段的均值增加校准,实现Counterfactual Medical Image Synthesis

  3. Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model 2024CVPR
    Diff-Mix: 使用Textual Inversion(TI) + DB(用于微调U-Net)微调Stable Diffusion(SD),之后对采样图像(全训练集的跨类图像)进行前向加噪,再反向去噪(使用目标类TI)完成图像生成(跨类翻译) -> faithfulness and diversity

  4. BEYOND OBJECTS: CONTEXTUAL SYNTHETIC DATA GENERATION FOR FINE-GRAINED CLASSIFICATION
    BOB: 微调T2I构建真实图像的“background-pose”,再完全依赖“class-background-pose”生成图像

  5. Inversion Circle Interpolation: Diffusion-based Image Augmentation for Data-scarce Classification 2025CVPR
    Diff-II: category learning(微调U-Net) + 随机采样(两张同类别)DDIM反转>Inversion Circle interpolatoin + 提示词coarse-fine去噪 -> faithfulness and diversity
    DDIM反转:从干净图像反推高噪声潜向量,不同于DM加噪的正向加随机噪声破坏图像

  6. DreamDA: Generative Data Augmentation with Diffusion Models
    DreamDA: 在SD+TI基础上,在逆扩散的每一步,给 U-Net 的瓶颈层特征加高斯噪声

  7. Generating Images of Rare Concepts Using Pre-trained Diffusion Models 2024AAAI
    针对rare concept和类级概念生成,TI聚焦示例级生成,而论文提出的SeedSelect(随机噪声作为参数,反向传播确定固定文本向量的有效噪声区域)效果更好,由于论文要求对SD无微调,所以不使用TI

  8. EFFECTIVE DATA AUGMENTATION WITH DIFFUSION MODELS ICLR 2024
    早期的TI+SD生成

  9. Synthetic Data Augmentation using Pre-trained Diffusion Models for Long-tailed Food Image Classification 2025CVPR
    在TI+SD的基础上,通过CADS动态退火为正提示文本向量加噪,通过CCFG+正负prompt融合噪声(拉进同类、推远异类)

  10. AUGMENTED CONDITIONING IS ENOUGH FOR EFFECTIVE TRAINING IMAGE GENERATION
    采样为两张同类图像,通过CutMix + Mixup +Dropout方法增强图像,不使用TI微调SD,针对长尾/少样本数据集

  11. DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling
    使用LLM为每张图生成多样的prompt,同类采样prompt和示例图,再经过CLIP->IP-Adapter(解耦交叉注意力,融合特征)->Diffusion Model->VAE decoder,其中所有模型都是冻结的

  12. Interpolating between Images with Diffusion Models
    采样为固定的两帧,主要目的是生成平滑过渡而非faithfulness+diversity,两帧示例图加噪之后球面线性插值+TI(Text Embedding)+Pose Guidance 输入到 DM

  13. Flow Matching for Medical Image Synthesis: Bridging the Gap Between Speed and Quality MICCAI2025
    使用Flash Attention优化医学图像,主要模型为FM,输入为纯高斯噪声+独热编码+mask(可选),输出为生成图

  14. Contrastive Flow Matching
    在Flow Matching中加入对比损失,即随机采样batch中的其他流做loss

  15. FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
    FlowAR: 使用VAE构造多尺度latent -> 自回归Transformer生成多尺度语义条件 -> Spatial-adaLN融合语义条件和latent,输入FM,最后通过VAE输出生成图像

  16. Metric Flow Matching for Smooth Interpolations on the Data Manifold NeurlPS2024
    MFM: 插值函数从FM的线性插值改为非线性插值,目的是构建符合数据流形的概率路径,开销高

阅读全文

CLMorph

科研 2025/9/8

VoxelMorph是很经典的无监督学习图像配准,可以用来分割,但效果并不好,因为没有对图像内部结构进行特征提取,无法做到内部的对齐配准,CLMorph解决了这一问题.

阅读全文

首半马总结

随笔 2025/9/3

2025年8月31日,于山西省忻州市代州古城完成了人生中的第一场半马比赛。

阅读全文

Transformer架构学习

科研 2025/8/20

Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,最初由 Google 在 2017 年的论文《Attention is All You Need》中提出,主要用于自然语言处理(NLP)任务,后来被广泛应用于计算机视觉(如图像分类、分割)等领域。它的核心优势是能高效捕捉输入数据中的长距离依赖关系(如文本中上下文的关联、图像中不同区域的关联性),且并行计算能力远超传统的循环神经网络(RNN)。

阅读全文

贝叶斯神经网络

科研 2025/8/10

贝叶斯神经网络(Bayesian Neural Network, BNN)

贝叶斯神经网络(BNN)是传统人工神经网络(ANN)与贝叶斯概率理论结合的产物。传统神经网络通过“点估计”学习模型参数(如权重和偏置),而BNN则将参数视为随机变量,学习其概率分布(而非单一固定值),从而天然具备量化不确定性的能力,是解决“模型不确定性”问题的核心方法之一。

阅读全文

torch.nn常见函数总结

科研 2025/7/16

总结一些torch.nn的常见函数。

阅读全文

CUTS -- A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation

科研 2025/7/10

论文链接:CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation

此论文并不是基于迁移学习,理论基础是扩散映射。扩散映射(Diffusion Maps)是由 Coifman 和 Lafon 于 2006 年提出的一种非线性降维和数据结构分析方法,其核心思想是通过模拟高维数据上的 “热扩散过程”,捕捉数据的内在几何结构(如流形结构),并将高维数据映射到低维空间以保留关键的拓扑和几何信息。

阅读全文

高斯核

科研 2025/7/9

高斯核(Gaussian Kernel)是一种常用的核函数(Kernel Function),广泛应用于支持向量机(SVM)、核主成分分析(KPCA)、聚类等机器学习任务中,尤其擅长处理非线性问题。其核心原理是通过“隐式映射”将低维空间中线性不可分的数据转换到高维空间,从而在高维空间中实现线性可分,同时避免了直接计算高维空间的复杂运算。

阅读全文

Toward Accurate Cardiac MRI Segmentation With Variational Autoencoder-Based Unsupervised Domain Adaptation 论文复现

科研 2025/7/7

论文链接:Toward Accurate Cardiac MRI Segmentation With Variational Autoencoder-Based Unsupervised Domain Adaptation
论文主要解决了心肌分割的问题,提出无监督域适应方法,将bSSFP(源域)的知识迁移到LGE(目标域)中,实现无需目标域标注的高精度分割。
关于论文的前置知识,可见KL散度、ELBO、VAE等博客。

阅读全文

变分推理、ELBO与变分自编码器

科研 2025/7/3

变分推理与ELBO

定义

变分推理是一种近似推断方法,用于估计难以直接计算的概率分布(如贝叶斯后验分布)。其核心思想是:

  • 选择一个简单的参数化分布族 q(z;λ)(称为变分分布)
  • 优化参数 λ,使 q(z) 尽可能接近目标分布 p(z|x)
  • q(z) 作为 p(z|x) 的近似
阅读全文