随着越来越多的用户在网上开展商业交易、上传个人信息以及跟踪经济活动,互联网数据持续迅猛增长。Statista 报告指出,2020 年创建、采集、复制和消耗的数据总量达到 64.2 ZB(64.2 万亿 GB),预计到 2025 年将增长至三倍多,达 180 ZB。领先的网络数据采集解决方案提供商 Oxylabs 阐释如何使用这些数据。
电子商务活动、财务和经济报告、卫星图像以及涉及投资估值的其他信息在这些数据中占很大一部分。投资组合经理在作出投资组合决策时就利用了这些信息,以期打败市场,这催生了“替代数据”(alternative data)这个词,用来描述这些投资情报的新来源。
此外,还有一项很有前景的投资情报新来源,就是 ESG 数据。这些数据大部分归类为替代数据,因为目前仍然缺乏普遍的标准。许多投资情报就是如此,从新闻报道、有关 ESG 的社交媒体帖子甚至是卫星图像收集得来。
替代数据超越了传统的信息来源,例如公司年报以及每年、每月或每周发布的经济预测。由于互联网随时会动态更新,替代数据可带来更及时、更独特、更精细的数据,彻底改变投资专业人士预测未来结果和作出投资决策的方式。
投资者如何使用替代数据进行预测
最常见的替代数据来源包括网络流量、信用卡交易、销售终端交易、地理位置数据和卫星图像。但是,替代数据的效用在很大程度上取决于其来源、收集时间和收集质量等多个因素。在这一点上,并不是所有替代数据对于预测都具有同等重要意义。
替代数据类型还可能在不同行业的各个部门内呈现显著差异。例如:
· 房地产:现有产品、是否可出租、房屋售价、当地商业评论、营建许可、能源消耗
· 电子商务:最新产品信息、SEO 趋势、客户意见和评论、社交媒体情感分析
· 企业数据:员工流动率、招聘广告、公司登记信息、员工满意度分数、并购情报
· 大宗商品:油轮、农业活动、矿业工程的卫星图像
使用替代数据进行短期与长期预测
在大部分情况下,长期预测通常比短期预测更复杂,因为前者涉及的变量更多,这些变量会随时间推移而频繁变化。收集与长期预测相关的数据也更加困难,需要更多时间和分析来评估做出可靠预测所牵涉的相关因素。
瑞士金融学院(Swiss Finance Institute)的最近一篇论文考察了这种“地平线”效应,其中研究人员研究了替代数据会对短期和长期金融预测的有益程度带来怎样的影响。鉴于替代数据在短期内通常成本较低,研究人员提出了一个设想,认为预测人员应把更多精力放在收集短期信息上,而不是收集长期数据,这样可带来更佳的短期预测。
为了证明这种效果,研究人员分析了第三方短期和长期预测的大型样本,这些预测使用了来自 StockTwits 的数据,StockTwits 是一个数据聚合平台,旨在采集社交媒体中提及股票、加密货币、期货和外汇的情况。他们发现,收集长期数据的机会成本太高,迫使分析师专注于短期替代数据,并断定,提供这些数据来源可以带来更有效的短期预测。
替代数据的其他用例
随着在线数据量的增加,使用替代数据进行短期预测的用例也持续增多。专门进行短期预测的一些常见用例包括:
出口跟踪器
高盛的分析师创建了一个出口跟踪器,以便更直接地了解很短时间范围内的出口商品价值。相较于政府机构发布的传统出口报告,出口跟踪器可为分析师提供更直接的数据来源,带来最新的信息。此外,其数据集的地理区域跨度比传统数据集更大,后者通常受限于生成报告的监管机构。
此外,出口跟踪器提供的信息更详细,可分离出经济冲击的影响,让分析师能够深刻理解突发的经济变化如何影响经济的各个领域。
建筑卫星图像
投资经理使用卫星图像来获取有关建筑行业的信息,从而了解农用机械工程和投资的数量。机器学习也应用于这一情况,为经济预测模型提供全新的非常规输入信息。
信用卡花费
信用卡公司提供的数据集可提供关于行业起伏的关键数据。这些数据集不仅可以深入了解需求因素,还能提供人口统计信息,包括客户年龄、收入水平、地点以及花费最高的时段。
在线投资社区
Reddit 社交媒体平台上的 WallStreetBets 社区等在线投资小组可帮助投资者预测股票、大宗商品和其他投资工具价格的投机性上涨。这些信息通常通过网络抓取获得,这是从公开网站提取数据的一个过程。
网络抓取的工作原理
网络抓取使用脚本或机器人来搜查网站并提取数据。这些脚本旨在读取 HTML 并提取相关数据,然后这些数据会转换或“解析”为分析师可以阅读的格式。为了防止出现服务器问题,爬虫会使用 AI 和 ML 驱动的代理,以在提取过程中分散请求并保持匿名性。
网络抓取还可以用于生成其他替代数据类型,包括社交媒体见解、产品定价和股票信息、SEO 关键字数据以及来自在线目录的企业信息。
作者:Gediminas Rickevicius,Oxylabs.io 的全球伙伴关系与商务拓展部副总裁