谷歌诞生最大规模语言模型，人工智能的再精进一步-行业新闻-音视频展_2024深圳国际视听集成设备与技术展览会_视听展_官网

新闻中心

品牌展示

九江慧明电子科技有限公司

捷波朗

华为技术有限公司

联想

深圳市捷易科技有限公司

广东星神科技有限公司

大连语智星科技有限公司

东莞市三基音响科技有限公司

南京目视科技有限公司

东莞市恒胜电子科技有限公司

沈阳雅译网络技术有限公司

和美（深圳）信息技术股份有限公司

深圳同创音频技术有限公司

广州超预信息科技有限公司

瑞胜科信息（深圳）有限公司

深圳建豪科技有限公司

色幻技术（深圳）有限公司

ITC

广州市韵强电子有限公司

深圳市维海德技术股份有限公司

深圳云里物里科技股份有限公司

阿里云

上海容智信息技术有限公司

深圳市国华光电科技有限公司

江门市金丰贝卡音视频科技有限公司

网易（杭州）网络有限公司

北京北科智慧科技有限公司

西门子

篱笆墙集团

施耐德

宁波华笙人体工学科技有限公司

溧阳市宏大电子电器绝缘材料有限公司

深圳市贝美互动科技有限公司

北京搜麦联网络科技有限公司

中山市天启智能科技有限公司

杭州华会通科技股份有限公司

佳能（中国）有限公司

奇酷软件（深圳）有限公司

科大讯飞股份有限公司

安徽奇智科技有限公司

山东尖兵电子科技有限公司

ASCENSIO SYSTEMS PTE.,LTD.

深圳市成者云科技有限公司

深圳有方信息技术有限公司

广州市丰雷视讯电子科技有限公司

江苏楷文电信技术有限公司

您现在的位置：首页 > 新闻中心 > 行业新闻

谷歌诞生最大规模语言模型，人工智能的再精进一步

时间：2021/1/20 14:33:17 来源：

开发人工智能的语言模型，一直是人工智能的重要细分领域。人工智能语言模型应用包括搜索引擎、文字生成、个性化的对话工具以及软件生成等。

2020年5月，OpenAI的一组研究人员发布了具有里程碑意义的AI模型GPT-3。GPT-3就是在570 GB的文本数据上训练的语言模型，因此，就训练数据和生成能力而言，GPT-3截至2020年都是最庞大的公开发布的语言模型。

此外，OpenAI的GPT-3一反之前死守基础研究的思路，将 GPT-3 做成了一个服务，提供可以调用的 OpenAI API，并且向开放了少量体验资格，使得拿到体验资格的业界人士或学者等，开发出了一众惊人的演示。

包括答题、翻译、写文章，甚至是数学计算和编写代码。而由GPT-3所写的文章几乎达到了以假乱真的地步，在 OpenAI 的测试中，人类评估人员也很难判断出这篇新闻的真假，检测准确率仅为 12%。

但现在，谷歌研究人员开发出一个新的语言模型，它包含了超过 1.6 万亿个参数，远超 Open AI 开发的 GTP-3 的规模（1750 亿个参数），成为迄今为止最大规模的人工智能语言模型，比之前谷歌开发过最大的语言模型 T5-XXL 的效率提高了 4 倍。

该语言模型使用 Switch Transformer 方法进行大规模训练，这是一种“稀疏激活”技术，它只使用模型权重的子集或在模型中转换输入数据的参数，以有效降低计算密集度。

尽管在部分实验中，该模型相比规模更小的模型得到了较低分数。但在相同的计算资源下，预训练速度提高了7倍。这些改进扩展到多语言设置中，我们在所有101种语言中测量mT5基本版本的增益。最后，我们通过在“巨大的干净的爬虫语料库”上预先训练多达万亿个参数的模型，提高了语言模型的当前规模，并实现了比T5-XXL模型4倍的加速。

研究人员认为，稀疏性可以在未来赋予该模型在一系列不同媒体下多模态的优势。这也为人工智能语言模型的深入研究提供了更多方向的参考。

上一篇：核心产业规模超万亿！人工智能发展进入快车道

下一篇：引领远程办公，二六三斩获智慧办公年度领军企业奖