每日报道:计算机:重视数据要素 AI与数字经济交汇点
(资料图)
AI三要素中,数据稀缺性明显
算法、算力、数据是AI核心三要素,当前AI大模型的训练,算法端向神经网络Transformer模型收敛,算力端依赖具备大规模并行计算能力的AI服务器集群,数据端则需要巨大数据量的大规模数据集投喂,我们认为AI三要素中数据是直接影响AI大模型在垂直行业落地效果的关键,而垂类数据通常由政府和行业机构掌握,相比于模型和算力,数据稀缺性明显。目前通用大模型的训练数据集多来自互联网文本数据,例如ChatGPT训练数据集来自维基百科、互联网新闻、社交媒体、电子书等。彭博社发布了针对金融领域的大型语言模型BloombergGPT,训练采用51.27%金融信息数据和48.73%的公共数据,在500亿参数规模下,BloombergGPT对金融任务效果好于通用大模型。
北京、深圳相继发布AI支持政策,强调公共数据开放
近期北京、深圳相继发布人工智能支持政策,且均在强调公共数据开放与共享。5月30日,《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》发布,提到“加强公共数据开放共享”、“加快构建高质量人工智能训练数据集,研究建立数据集开放共享机制”;5月31日,《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》,提到“培育高质量数据要素市场”、“2023年年底前出台公共数据开放管理办法、公共数据资源目录,制定公共数据开放计划”。数据流通是数据资源体系构建的关键,是数据要素建设重点方向,其中数据交易制度、公共数据流通体系是建设重点,我们认为,算力之外,重视数据要素在AI大模型中的价值。
数据要素是数字经济核心引擎,进入加速落地阶段
数据是数字经济时代新型生产要素,是数字经济深化发展的核心引擎。2023年3月,国家数据局成立,顶层框架文件+管理机构落地,数据要素进入加速落地阶段。2023年以来各地方积极推进数据要素落地,例如:2023年2月,《杭州市公共数据授权运营实施方案(试行)》(征求意见稿)发布;4月,广东省政务服务数据管理局局长在“2023数字经济峰会”主题发言中透露,《广东省数据条例》即将出台,广东研究将数据生产要素纳入国民经济核算体系,广州海珠、深圳南山已获批开展数据生产要素统计核算试点。
建议关注:
1)国家云:深桑达A、中国电信(通信组覆盖)、品高股份;
2)数据产品服务商:中科江南、上海钢联、通行宝、海天瑞声、中远海科;
3)数据平台与安全:安恒信息、启明星辰、信安世纪、三维天地、普元信息;
4)垂直行业AI应用:科大讯飞、同花顺、中科软、恒生电子、顶点软件、新致软件。