肺炎

首页 » 常识 » 问答 » 基于飞桨复现图像分类模型TNT,实现肺炎
TUhjnbcbe - 2022/4/9 13:28:00
北京白癜风专家 https://wapjbk.39.net/yiyuanfengcai/ys_bjzkbdfyy/

本项目介绍了TNT图像分类模型,讲述了如何使用飞桨一步步构建TNT模型网络结构,并尝试在新冠肺炎CT数据集上进行分类。由于作者水平有限,若有不当之处欢迎批评指正。

TNT模型介绍

TNT模型全称是Transformer-In-Transformer,取名有些致敬NIN(NetworkinNetwork)的意思,提出了一种新颖的视觉识别神经网络结构,取得较好的性能,在当时表现SOTA。

TNT不再使用传统的RNN和CNN方法,而是使用基于注意力的sequence数据的处理,将图像均匀地分成一系列patches,这样的Patches序列构成视觉语句(visualsentence),每个Patch进一步切分成多个sub-patches,形成视觉词汇(visualword),同时结合视觉词汇下的像素级特征进行建模。核心要点有以下几方面:

用于对visualsentences和visualwords层级的特征进行建模;在每个TNTBlock中,outertransformerblock用于处理patchembedding,而innertransformerblock则从pixelembedding中提取图像局部信息,对visualwords关系进行建模;通过线性变换层将pixel级特征投影到patchembedding的空间,然后将其添加到patch的特征中;对于patch而言,每个patch有一个独立可学习位置编码,而对于sub-patches级的序列而言,使用其在patch中的相对位置编码,每个patch对应位置的sub-patchesl的位置编码是相同的。

TNT通过融合Patches和Sub-Patches两个层级的特征,相比只使用Patches层级特征的ViT及DeiT模型,在参数量和FLOPs相近的情况下精度更高。对比CNN模型,在相同的参数量和FLOPs下,精度表现优于ResNet和RegNet,接近EfficientNet的精度表现。

GitHub代码:

1
查看完整版本: 基于飞桨复现图像分类模型TNT,实现肺炎