本期投资提示:
近期市场对于AIGC/ChatGPT 关注较高,投资者常见以下问题。
Q:大规模预训练模型(大模型)与小模型的核心区别?相比小模型,大模型有什么优势?
首先最核心区别在于参数量,例如GPT-3 参数量达到了1,750 亿个,是传统深度学习小模型参数量的至少一万倍以上。通过模型的扩大,可以带来提升包括:1)GPT-2 等大模型舍弃了小模型中常见的调参过程,转向无监督训练;2)在NLP 中常见小模型需要对不同的任务使用不同模型分别训练解决,而GPT-3 等大规模预训练模型不再规定任务,而是对不同任务都有较好效果;3)GPT-3 先使用海量数据预训练大模型,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。大幅降低后续对数据量的需求。
Q:GPT-3等大模型和Transformer 的关联?GPT/Bert 等大模型都在自然语言领域应用。
而Transformer 是目前NLP 领域效果较好的深度学习模型,因此GPT/Bert 等都使用了Transformer。Transformer 最大的特点是,可以让每个单元都可以捕捉到整句的信息,这也是RNN/LSTM 等更早期NLP 模型无法做到的一点。
Q:Transformer 对于CV 机器视觉可以有类似NLP 的提升吗?实际上2017 年transformer 推出之后,2018 年就有学者将其应用于CV 图像领域,但当时应用效果未发现相比传统CNN 等算法有较大提升。但在2021 年后,随着swin transformer、mae 等论文推出,transformer 在CV 和跨模态等应用增加。因此国内擅长CV 的AI 公司,在2022年前对于基于transformer 的大模型关注投入较少,但是我们认为随着VIT 等效果提升,应用类的CV 公司也会开始关注并投入大模型。
Q:国内transformer 大模型做的怎样?如何看待中美技术差距。首先需要承认这一类大模型底层创新在美国开始。中国在2021 年后加速追赶。此前国内大部分视觉类AI 公司都以小模型路线为主,投入大模型研发较多的包括百度、华为等。百度推出文心大模型,基本实现跨模态和多下游应用。华为推出最大中文语言预训练模型盘古大模型。
Q:怎样的公司有机会参与大模型底层技术研发?我们认为大模型对存储、算力要求极高,且对于开发者对深度学习框架使用也有要求,普通机构难以复现。
Q:上市公司中有哪些机会呢?计算机:泛AI 领域是相关主线。稳健标的如AI 领军、科大讯飞、万兴科技、虹软科技,弹性标的为云从科技、汉王科技、博彦科技、商汤科技(H)。
互联网:看好国内AIGC 市场,持续跟进AIGC 的技术发展和文本、音频、图像等单模态的应用落地。重点关注技术驱动的初创代表企业、科研院所,以及与应用场景关联的A 股上市公司。相关标的:中文在线、汉仪股份、视觉中国、蓝色光标。
风险提示:大模型技术中美仍存在差异,部分技术尚处于早期实验室阶段,存在落地风险;实体清单等可能对训练硬件产生影响。