基于电商平台大数据的特征价格指数研究
作者:雷泽坤,辽宁大学经济学院,清华大学中国经济社会数据研究中心;郑正喜,上海财经大学统计与管理学院,清华大学中国经济社会数据研究中心;许宪春,清华大学中国经济社会数据研究中心,清华大学经济管理学院。
原文刊发: 《统计研究》2020年第8期,原标题为《基于电商平台大数据的特征价格指数研究》。 作者感谢京东大数据研究院提供的数据支持和首席数据官刘晖等同志提供的宝贵建议。二、研究发现
信息技术快速发展,以大数据、物联网、云计算等为代表的新兴技术方兴未艾,对特征价格指数的发展产生了新的机遇与挑战,特征价格法需要不断地完善与创新以适应新时代的发展特征。在系统地梳理传统特征价格理论与实践研究的基础上,发现传统特征价格法存在以下几点不足:一是数据来源不足阻碍了传统特征价格法的应用;二是传统特征价格法面临模型设定不足的偏差;三是传统特征价格法面临模型权重缺失的偏差;四是传统特征价格指数面临链式漂移的问题。 针对传统特征价格法面临的诸多问题,本文结合电商平台大数据,提出一种全面、系统的优化方案。一是基于兼具扫描数据和网络爬虫数据优点的电商平台大数据,采用特征价格估计法,最大限度地利用现有的数据样本,降低指数估计中产生的随机误差,并分步实现规格品的质量调整和特征价格指数的编制,保证了价格指数公式选择的灵活性;二是通过引入样本权重更好地反映和刻画了模型的经济意义;三是基于特征价格估计模型基本原理,通过对截面数据排序过滤出变量间隐含的规模效应,构建精度更高的加权—ADL特征价格估计模型;四是采用RYGEKS指数有效地抑制了特征价格指数的链式漂移,并结合特征价格估计模型避免了跨期样本匹配度低而导致数据样本的代表性偏差。 通过智能手机特征价格指数的试算结果可以看到:①加权—特征价格估计模型的拟合优度提升了12.70%,而加权—ADL特征价格估计模型的拟合优度提高了25.40%,说明经过改进的特征价格估计模型的精确度和解释力明显增强。②样本轮换的时滞性和规格品质量调整不足导致传统智能手机价格指数被高估,前者作用导致降幅被低估约20%,后者造成降幅被低估约8%。③由于权重缺失导致传统特征价格指数降幅被高估约2%,而由于模型设定偏误导致传统特征价格指数降幅被高估约5%。④通过编制RYGEKS价格指数有效地降低了链式漂移,提升了特征价格指数的综合质量。 三、研究展望 特征价格法的思想和理论方法均起源于国外,国内对特征价格法的研究起步较晚,且主要借鉴西方的特征价格理论和实践展开。近年来,我国电子商务和网上支付发展速度空前,为完善和创新特征价格指数提供了重大机遇。本文基于电商平台大数据,针对目前特征价格指数存在的多重问题,尝试提出一个系统的优化方案,希望能够起到抛砖引玉的作用。 本文的研究思路和方法还可以进一步拓展到线下交易的场景中,并作为线上电商平台数据样本的一个补充。由于线上智能手机的消费额仅占我国零售总额的一部分,且容易受平台统一定价行为的影响,指数可能存在一定的片面性和局限性。因此,可结合线下数据弥补数据渠道单一引起的样本代表性不足的缺陷,从而促进线上、线下数据的有效融合。 在条件允许的情况下,针对扫描数据与网络爬虫数据的特点,可形成一套优势互补的“匹配数据”。扫描数据涵盖精确的交易数量信息,但对产品特征的描述相对粗糙。而网络爬虫数据能够抓取详细的产品特征,但无法获得产品的实际交易数量。因此,结合两者的优点,将扫描数据与网络爬虫数据进行匹配,可有效地提高数据样本的质量,丰富数据来源。感谢您的阅读,欢迎关注:
清华大学中国经济社会数据研究中心
(Tsinghua China Data Center, CDC)!