2000-2025年地市级数字技术创新水平
数字技术创新水平是衡量地级及以上城市在政府工作报告中系统提及数字技术相关词汇密度的综合指标用以反映该地区数字技术创新活动的活跃程度与发展态势。本数据集基于全国地级及以上城市的政府工作报告文本构建覆盖各年度、各城市的官方政策表述。核心指标包括省份、省份代码、城市、城市代码、年份、关键词频次、总词数、数字技术创新水平、关键词详情。数字技术创新水平定义为“数字技术创新关键词出现总频次”除以“报告清洗后的总词数”数值越大表明该城市政府在单位文字内对大数据、人工智能、区块链、物联网等数字技术议题的关注越密集、越系统化。本指标严格遵循词频比重法考虑了报告篇幅差异能够客观反映地方政府推动数字技术创新的政策注意力与战略导向。基于本数据集研究者可从以下三方面展开系统分析。一是数字技术创新的驱动因素与地区差异研究。将数字技术创新水平指标与城市经济发展水平、产业结构、人力资本、财政分权等变量匹配采用面板固定效应模型或空间计量模型检验不同区域、不同资源型城市在数字技术创新注意力上的异质性识别影响地方政府推动数字技术创新的关键因素。二是数字技术创新对高质量发展的影响机制研究。利用数字技术创新水平指标与城市全要素生产率、绿色经济效率、产业结构升级等高质量发展指标进行回归分析探究数字技术创新是否通过促进产业非空间集聚、扩大对外开放、提升交通运输效率、提高金融资源丰度等渠道赋能高质量发展并检验文化分割程度与人口资源丰度的调节作用。三是数字技术创新的政策效应评估。将数字技术创新水平指标与创新型城市试点、智慧城市试点等外生政策冲击变量关联采用多时点DID方法评估政策对数字技术创新的推动作用并结合知识产权保护强度分析制度环境对数字技术创新经济效果的调节效应为“数字中国”战略下的地方科技政策提供量化依据。本数据集的数字技术创新水平指标通过Python代码计算完成。首先参考吴非等2021、戚聿东和肖旭2020的研究选择64个词汇作为数字技术创新关键词。使用jieba分词库对各地级市政府工作报告文本进行预处理加载自定义关键词词典与停用词表749个词。其次遍历收集到的报告文本对每篇报告进行清洗保留中文、英文、数字然后分词并去除停用词统计每篇报告中关键词出现总频次keyword_freq以及去除停用词后的总词数total_words。最后计算数字技术创新水平digiino_ratio (keyword_freq / total_words) × 100单位为百分比。若某年某城市的报告文本为空或无法提取有效内容则跳过该观测值。计算结果按城市和年份排序后保存为Excel文件。本数据严格遵循胡久凯和王艺明2022的词频比重法确保指标在不同报告长度间具有可比性。数字技术创新关键词大数据、数据挖掘、增强现实、混合现实、虚拟现实、数字孪生、数据可视化、云计算、云平台、量子计算、征信、物联网、射频识别、红外感应器、定位系统、激光扫描器、导航系统、区块链、数字货币、人工智能、机器学习、机器人、专家系统、智能技术、计算机视觉、决策支持系统、商业智能、深度学习、人脸识别、语音识别、自动驾驶、自然语言处理、移动互联网、工业互联网、移动互联、互联网医疗、电子商务、移动支付、第三方支付、智能能源、B2B、B2C、C2B、O2O、网联、智能穿戴、智慧农业、智能交通、智能医疗、智能家居、智能环保、智能营销、数字营销、无人零售、互联网金融、数字金融、金融科技、网络安全、4G、5G、6G、通信、卫星、数字技术。数据指标数据截图参考文献[1]席增雷, 杨永君, 梁佳林. 数字技术创新对高质量发展的影响机制研究——来自地级及以上城市政府工作报告的经验证据[J]. 经济研究, 2025(10).顶部专栏分享更多内容来源Paper数据分析