近日,OPPO语音语义研究部融智团队提出的中文预训练大模型CHAOS (Chinese Hierarchical Language Model Systems for Knowledge Transforming) 在中文自然语言理解测评基准CLUE1.1上登顶,以30亿参量同时刷新了CLUE1.1总排行榜、CLUE1.1分类任务排行榜和CLUE1.1阅读理解排行榜的最好成绩。 在CLUE1.1总排行榜的9个赛道中,共取得5个赛道第一,1个赛道第二,2个赛道第三的好成绩,并且在4个赛道的成绩超过了人类识别精确准确度 (AFQMC,TNEWS,CSL,CHID1.1),总成绩距离超越人类表现仅差0.1。 同期,在业界首个大规模中文多模态评测基准MUGE(Multimodal Understanding and Generation Evaluation)上,融智团队自主训练的中文多模态预训练模型也在综合图文检索,看图说话,文本到图像生成三个赛道的总成绩上位列总榜第一名。
图1 CLUE 1.1总榜,共9个子任务(截止到2022-11-9)
图2 CLUE分类排行榜1.1,共6个子任务(截止到2022-11-9)
图3 CLUE阅读理解排行榜1.1,共3个子任务(截止到2022-11-9)
图4 MUGE多模态总榜,共3个子任务(截止到2022-11-9)
1 预训练语言模型
CLUE (Chinese Language Understanding Evaluation) 是中文自然语言理解权威测评榜单[1],包含了文本分类、阅读理解、句间关系等众多语义分析和语义理解类子任务,对学术界和工业界都产生了较大的影响。
CLUE 1.1总排行榜旨在结合预训练语言模型通用和强大的泛化能力,探索学习模型在语义理解上的能力和在中文上的实践,并致力于推动中文预训练大模型前沿技术的进一步发展和应用落地[2-4]。 CLUE 1.1发布后吸引了众多企业与高校的关注与参与。对比目前CLUE 1.1 上位于排行榜前列的百亿级参量大模型解决方案,OPPO语音语义研究部融智团队提出的30亿CHAOS模型框架登顶,也为大规模预训练语言模型技术的低参量落地提出了新的解决思路。
从BERT到T5,再到后来的GPT3,预训练语言模型的发展速度得到了极大的提升。迄今为止,将近有84,357个不同的预训练模型在huggingface上开源[5]。倘若将每个预训练模型比作宇宙中的行星,他们在自己的特定轨迹运行,特别像一个复杂的混沌系统,英文即Chaos。这就是CHAOS模型的灵感来源,其中包含两层意义:一方面,CHAOS希望能在这个庞大且复杂的预训练模型体系中,找到一种泛化能力强,学习能力强的规则框架;另一方面,CHAOS也寄托了OPPO语音语义研究部融智团队将“预训练模型的高效落地”作为目标的美好愿景。
2 CHAOS方法介绍
2.1 数据
大规模预训练模型的基础是高质量的预训练语料。我们本次预训练语料范围包含百科、社区问答、新闻、娱乐、历史等,通过特定的规则结合模型进行筛选,从原始的7.9TB语料中过滤并最终得到约490GB高质量语料进行预训练。
2.2 预训练词表
为了融入先验知识到模型中,CHAOS模型提出一种高效快速的方法,即将知识图谱的实体,融入到预训练词表中,方便模型快速学习知识。具体步骤如下:首先,我们清理获取了3亿个三元关系的开放域知识图谱,里面包括多种多样的三元组关系,例如:(足球,别名,蹴鞠)。然后进行图谱与语料的对齐,以往的方法是从语料中遍历知识图谱,寻找相匹配的实体;我们提出一种高效方法,先是对中文语料进行切词,然后再进行频率统计,快速获得高频词,再取前10%,进行实体匹配。最后,直接将对应的实体嵌入到预训练词表中,为模型快速学习到知识,打下了夯实基础。
2.3 预训练模型架构
图5 CHAOS模型框架图和预训练策略。图a中,紫色箭头方向意味着attention计算方向,即双箭头是Fully-visible mask和单箭头是Causal mask。输出目标函数是Denoising objective。图b展示了预训练每个步骤的策略。
基于类似于T5的Encoder-Decoder的框架,中文预训练模型CHAOS使用Denoising Spans的掩码策略进行预训练,目标函数是Denoising objective,类似于BERT的MLM目标函数。CHAOS大概需要完成430亿中文 tokens预训练,而BERT大约需要1370亿中文 tokens, RoBERTa 大约需要2.2万亿中文tokens,DeBERTa 大约需要10万亿中文tokens [6-9]。
2.4预训练加速
在预训练过程中,CHAOS模型应用Deepspeed和Megatron的加速框架,选择了Zero-stage 2加速方式,实现了30亿轻量级中文大模型的预训练的加速训练。在我们的实验中,对比DDP方案,速度上提升了2.5倍左右。最终,我们通过24张A100,在筛选的490 GB高质量语料上以384的batch size训练了22万个step。
2.5Fine-tuning策略
在预训练模型从训练到应用的系统工程中,除了要求有良好表征特性的模型框架外,还需要结合面向下游任务的各种fine-tuning策略。 融智团队结合自身的业务实践经验,面向文本分类、信息提取,语义相似度计算等下游任务场景,在提出的CHAOS模型架构中使用了数据增强[10],Mixup[11]、Manifold-Mixup[12]和R-drop[13]等提升微调性能的方法。
3 图文融合---多模态
除了在自然语言理解评测CLUE上取得的成绩外,融智团队也图文融合的多模态任务评测上进行了探索。目前学术界和工业界的多模态工作主要集中在建立图像模态和文本模态的联系,通过语言模型框架(LSTM,Transformer等)和视觉模型框架(Resnet,ViT等)分别提取不同模态的特征,把学习到的表征映射到同一个多模态空间中,进而得到了一个更好的模型初始化以及多模态表征。下游任务主要包括视觉问答(visual question answer),看图说话(image captioning),图文检索(image-text retrieval)和以文生图(text-to-image generation)等。MUGE(Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,截止11.9日,融智团队在参与评测的以文生图,看图说话,图文检索三个赛道上分别取得了第1,第3和第4的成绩,并在三个赛道的总成绩上位列排行榜第一。
技术方案
电商场景的看图说话技术方案
图6:图像生成文本的预训练模型架构
借鉴BLIP[14] 模型的思想,如图6所示,我们选取了其中的两类预训练任务同时进行图像文本对比学习和以图像为条件的语言生成来建模,单模态编码器分别编码图像和文本,其中Image Encoder采用ViT模块,Text Encoder采用RoBerta模块,其中[CLS]标记添加在文本输入开头;CLIP模块是通过鼓励正图像-文本对与负图像-文本对相似的表示形式来对齐视觉Transformer和文本Transformer的特征空间。上图最右侧的是基于图像的文本解码器(image-grounded text decoder),通过在自注意力(SA)层和前馈网络(FFN)之间为文本编码器的每个Transformer块插入一个额外的交叉注意力(CA)层来注入视觉信息。用因果自注意力层(causal self-attention layer)替代编码器中的自注意力层。用[Decoder]标记来表示一个序列的开始,[EOS]表示结束。
图文检索技术方案
图7 CLIP中的图文对比示意图,图片来自Learning Transferable Visual Models From Natural Language Supervision [15]
在图文检索任务中,主要还是采用OpenAI的CLIP双流模型架构。数据上使用了wukong、laion、zero等开源的中文数据集[16, 17, 18],以及收集的不同品类的图文匹配对。在过滤筛选后,使用了超过2亿的高质量中文图文匹配对数据集用于预训练。模型上我们采用ViT-large作为图像编码器,Bert-base作为文本编码器,用多个同质的400M参量模型进行不同初始化和不同预训练,最后在MUGE的训练集上finetune。
文本到图像生成技术方案
算法模型主要遵循OFA[20] 和stable diffusion[21]的生成框架,在MUGE的训练集上进行finetune,再以多模型的集成方式给出最后的图像生成结果。除了MUGE的评测外,融智团队也以自主训练的中文模型为基础,在AIGC领域进行了进一步地尝试,以下是一些生成的实例:
天空中有颗巨大的心,光线柔和,心形光圈
水晶做的玉兔,镶嵌满钻石,高清美观,光照,高级藏品
老虎警官,肖像照,皮克斯动画的角色,未来感,光线美丽,蒸汽朋克风格
立绘 森林 游戏背景 左右循环 正视图
4 未来方向
“融合多种智能,研发统一的基础模型”是OPPO语音语义研究部融智团队的目标,也是“融智”二字的含义。在CLUE和MUGE的相关评测中验证知识增强的预训练语言模型和图文多模态的预训练能力只是我们在构建实现“融智”路上的一小步,未来融智团队将在融合符号化知识推进感知认知融合方面,更可控/可编辑的视觉生成方向,及促进工业化落地转化的模型小型化等方向上继续做出努力。
5 参考文献
[1] CLUE Github项目地址
[2] CLUE1.1总排行榜
[3] CLUE1.1分类任务排行榜
[4] CLUE1.1阅读理解排行榜
[5] Huggingface模型
[6] Raffel, Colin, et al. " Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer " arXiv preprint arXiv: 1910.10683 (2019).
[7] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[8] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
[9] He, Pengcheng, et al. "Deberta: Decoding-enhanced bert with disentangled attention." arXiv preprint arXiv:2006.03654 (2020).
[10] Wang, Sinong, et al. "Entailment as few-shot learner." arXiv preprint arXiv:2104.14690 (2021). Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[11] Zhang, Hongyi, et al. "mixup: Beyond empirical risk minimization." arXiv preprint arXiv:1710.09412 (2017).
[12] Verma, Vikas, et al. "Manifold mixup: Better representations by interpolating hidden states." International Conference on Machine Learning. PMLR, 2019.
[13] Wu, Lijun, et al. "R-drop: regularized dropout for neural networks." Advances in Neural Information Processing Systems 34 2021).
[14] Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arxiv: 2201.12086, 2022.
[15] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J.,et al. Learning transferable visual models from natural language supervision. arXiv:2103.00020, 2021.
[16] Gu J, Meng X, Lu G, et al. Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework. arXiv: 2202.06767, 2022.
[17] Schuhmann, Christoph, et al. "LAION-5B: An open large-scale dataset for training next generation image-text models." arXiv preprint arXiv:2210.08402 (2022).
[18] Xie, Chunyu, et al. "Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework." arXiv preprint arXiv:2205.03860 (2022).
[19] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. "Simcse: Simple contrastive learning of sentence embeddings." arXiv preprint arXiv:2104.08821 (2021).
[20] Wang, Peng, et al. "Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework." arXiv preprint arXiv:2202.03052 (2022).
[21] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.