企业数据资产信息披露水平变量是依托文本分析技术通过年报内容挖掘与关键词识别方法测算企业年度数据资产信息披露强度并在跨期比较基础上构建对数化与相对比例两种衡量指标作为量化判断企业数据资产信息披露透明度的分析视角。核心是通过关键词出现的绝对频次、对数化变换与相对比例揭示企业在年报中对数据资产相关概念、应用与战略的披露强度与透明度。基于此可展开多方面研究一是数据资产信息披露的驱动因素研究分析不同产权性质、融资约束、管理层背景、行业特征与数字化转型环境下企业披露数据资产信息的影响因素差异探究数据资源禀赋、数字化投入、竞争压力、监管要求与治理结构对企业披露行为的差异化影响机制二是数据资产信息披露的经济后果研究验证数据资产信息披露对企业价值、资本市场定价效率、融资成本、经营绩效与创新能力的促进作用分析其通过信息透明度提升、降低信息不对称、增强投资者信心与改善决策质量等中介路径产生影响的条件与边界三是数据资产信息披露的动态演进与行业差异研究追踪企业数据资产信息披露在时间序列上的演变趋势与结构特征揭示不同行业、不同规模企业在数据资产披露内容、深度与广度上的异质性规律四是数据资产信息披露的治理效应研究探索高质量数据资产信息披露如何通过完善内部治理、强化外部监督、优化资源配置等渠道提升企业治理水平与风险管理能力五是数据资产披露政策的评估与优化研究考察会计准则完善、信息披露指引、数据要素市场建设等政策环境对企业数据资产披露行为的引导效果与结构影响为构建科学合理、激励相容的数据资产信息披露体系提供循证依据。本数据在参照李世刚,邵宏彬等(2025)的基础上对识别方法进行了优化基于上市公司年度报告文本数据构建企业数据资产信息披露水平数据集即通过文本挖掘、关键词识别与面板数据处理方法提取标准化企业数据资产信息披露强度信息步骤如下1、构建基于扩展关键词集的数据资产信息披露识别规则在初始种子词数据资产和数据资源的基础上利用FastText词向量模型在全体样本年报语料库中训练语义相似度扩展获取语义最相近的前23个关键词形成最终的数据资产相关关键词词典以全面捕捉企业年报中与数据资产相关的各类表述2、对企业面板年报文本数据进行清洗、解析与公司-年度匹配收集20010至2024年全部A股上市公司年度报告经解析转换为仅有MDA部分的纯文本格式并按公司与年份进行匹配对齐3、进行文本分析并计算最终指标对每份年报文本进行中文分词并加载自定义关键词词典以确保关键词不被误分在分词后的文本中统计数据资产相关关键词的出现总频次TDA计算年报文本的总词数过滤掉长度小于2个中文字符的词。按企业与报告年度分组计算以下两个最终指标LNDA Ln(1 数据资产相关关键词年度总频次)PERDA 数据资产相关关键词年度总频次 / 年报文本总词数。数据信息数据来源人工整理全部内容真实有效数据范围上市公司年报时间跨度2010-2024数据格式Excel数据字段数据截图顶部专栏分享更多内容来源Paper数据分析