12月22日,国内首个官方“大模型标准符合性评测”结果揭晓。百度文心一言、腾讯混元大模型、阿里云通义千问、360智脑四款国产大模型首批通过评测,符合《人工智能 预训练模型 第2部分:评测指标与方法》语言大模型的相关技术要求,通用性、智能性等维度达到国家相关标准。
首批通过“大模型标准符合性评测”的大模型,均有各自的特点与优势。
百度文心一言是中国市场第一个公开发布的基于大语言模型的生成式人工智能产品。自今年3月16日发布以来,其基础模型目前已经迭代到文心大模型4.0版本,实现理解、生成、逻辑、记忆四大能力显著提升。同时,通过飞桨与文心的协同优化,模型周均训练有效率超过98%,训练算法效率提升3.6倍。
据悉,腾讯混元大模型拥有超千亿的参数规模、超2万亿tokens的预训练语料,具备强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力。在9月正式发布混元大模型以前,腾讯云早在6月就召开了发布会,正式公布行业大模型研发进展,并发布面向B端客户的腾讯云MaaS(Model as a Service,模型即服务)解决方案。据介绍,腾讯云MaaS的技术底座是一系列的行业大模型,包括金融、政府、文旅、传媒、教育等。基于这些基础模型,腾讯云的客户只要加入自己的场景数据,就可以生成契合自身业务需要的专属模型。
本次通过评测的首批大模型中,阿里云通义千问是唯一的开源模型。据介绍,通义千问在全球拥有广泛的开发者用户和企业客户,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问72B在10个权威基准评测中取得开源模型最优成绩,并力压Meta公司的开源大模型Llama2登顶海外最具权威性的HuggingFace排行榜,此后又登上国内上海人工智能实验室OpenCompass榜首,成为业界公认的性能最强的开源大模型。
2023年7月,360被工信部电子标准院授予“国家人工智能标准化总体组大模型专题组”组长单位,积极发挥自身实践和经验优势,推动大模型国家标准体系建设,助力中国大模型产业发展。公开资料显示,360是国内较早布局人工智能大模型的企业,自研千亿规模通用大模型“360智脑”的核心能力位列国内第一梯队,并依托360在安全领域的积累和优势,成为全国首个原生安全的大模型。
据了解,“大模型标准符合性评测”由工信部中国电子技术标准化研究院发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名录,引领人工智能产业健康有序发展。
原标题:国内首个大模型标准符合性评测结果揭晓 百度、腾讯、阿里、360首批通过