LLM--VIT简介

张开发
2026/4/7 6:35:51 15 分钟阅读

分享文章

LLM--VIT简介
文章目录前言--CNN缺点论文内容概述VIT模型结构解析论文精度视频VIT论文精度这里做简要概述前言–CNN缺点CNN神经网络是ai算法中最重要最经典的算法之一在vit出现之前Resnet模型一直都是最好的视觉模型当然CNN也不是没有缺点其中有两个典型的缺点局部性和平移不变性。局部性这个即使有点也是缺点CNN认为最重要的信息是局部的像素点距离越近重要程度越高。这一点也是优点因为以一个物体的图像来说像素点越近重要程度肯定越高但是同时也是缺点如果需要找距离较长的关系那么就需要堆叠CNN网络使得感受野增大。平移不变性CNN认为一个物体无论在一张图片什么位置他的特征是一样的。论文内容概述VIT效果在大规模数据进行预训练再微调能和最好的CNN效果一样(ResNet)。Transformer参数量大1000亿参数 数据量也大。运用到视觉难点自注意机制时间复杂度高O(n^2)transformer序列长度不大如512视觉运用Transformer难点举例以一张单色图片参数为1224 * 224 为例。VIT解决方法VIT模型结构解析

更多文章