大数据不断成为头条新闻,但它究竟是什么,为什么它既是准确受众测量的天赋,又是潜在的障碍?我们将深入探讨大数据的优点、缺点以及使其发挥作用的方法。
什么是大数据?
在线性媒体领域,大数据通常是指由向终端用户提供节目的系统所产生的两类数据流:来自有线电视或卫星机顶盒(如 Dish 或 DirecTV)的回路数据(RPD),以及来自联网智能电视(如三星或 Vizio)的自动内容识别(ACR)。
ACR 数据
ACR 技术不是记录频道变化,而是监控电视屏幕上的图像。这些图像就像指纹一样,与大型参考库进行比较,以确定节目或广告的实际内容。图像带有时间戳,可了解播放发生的时间。
RPD 数据
记录机顶盒调到哪个频道,以及频道更换的时间。这些数据可与电视时间表相匹配,以确定在特定时间播放的节目,并与供应商的广告服务器或其合作伙伴的数据相匹配,以确定家庭接触到的广告。
在这两种情况下,最终用户都允许在其设备上收集数据。合作程度相对较高,因为数据收集不仅能推动测量工作,还能推动用户偏好和内容推荐等亟需的功能。一个 RPD 或 ACR 数据集可能涵盖 3000 多万台设备。
为什么大数据是件大事?
曾几何时,人们只有屈指可数的几个频道可供选择。家庭收视率1超过60(如1983年《M*A*S*H》的大结局),甚至超过40(如1998年《宋飞正传》的大结局),对于今天的剧本节目来说是难以想象的。我们生活在一个更加支离破碎的世界,节目选择非常多、非常长。
这对电视观众来说是件好事,但对基于小组的研究来说就复杂了:在一个有 10.1 万人的全国性小组中,收视率为 0.2 的电视节目会有 80 个家庭收看,而在亚特兰大或达拉斯大都会区可能只有一个家庭收看。有了数以千万计的受测设备,大数据使研究公司有可能以更细化的方式报告电视使用情况,为更多受众人数少且往往各不相同的节目提供覆盖面。但就其本身而言,大数据从来都不是用来测量受众的。
挑战 1:大数据不具代表性
媒体买家和卖家需要一种能够反映人口多样性的测量解决方案,才能放心地进行交易:所有年龄组、种族、民族和许多其他关键的人口和行为特征都需要出现在基础数据中,并与之成正比。
但规模并不能保证代表性。在分析尼尔森全国电视面板中的安装数量时,我们发现使用 RPD 的家庭与普通家庭相比年龄偏大,种族多样化程度较低。例如,西班牙裔家庭的比例大约低30%,25 岁以下的户主几乎完全不在 RPD 数据集中。另一方面,ACR 数据集比一般人口更年轻,家庭成员也更多。在大数据中使用统计加权法可能会掩盖这一问题,但无法弥补代表性不足的受众独特的收视行为的缺失。
更糟糕的是,完全依赖 RPD 和 ACR 数据的测量解决方案会漏掉空中2和仅使用流媒体的家庭,而这部分家庭的数量正在不断增加。
挑战 2:大数据可能无法捕捉到所有观看行为
即使包含了具有代表性的家庭,RPD 和 ACR 数据集也无法捕捉家庭中每台机顶盒或家庭中其他非智能电视机的收视情况。这些额外的电视机可能会向不同的家庭成员播放不同的节目(如厨房里的烹饪节目或游戏室里的儿童节目),因此不仅大数据家庭不能代表人口,而且大数据本身也不能代表这些家庭中可能发生的所有收视情况。
对于依赖 RPD 的研究公司来说,一个令人沮丧的问题是,当连接的电视机关闭时,机顶盒往往仍处于开启状态。这种 "幽灵 "调谐会将实际收视率夸大145% 至 260%,具体取决于提供商。有一些模型可以对其进行补偿,但如果没有一个参考点,比如一个由真实收视情况提供信息的小组,就很难开发出正确的启发式方法。
ACR 也无法避免数据质量问题。某些智能电视流媒体应用程序会阻止 ACR 捕捉正在使用的屏幕内容。看起来电视机关闭了,但实际上内容已被应用程序屏蔽。而且大多数供应商只监控所有可用节目中的一小部分。在最近的一项分析中,我们发现 ACR 提供商目前仅监控了所有可用电视台的 31%,而 23% 的录制分钟数仍来自未被监控的电视台。由于没有可比的参考指纹,这些收视情况没有被报告。
挑战 3:大数据缺少观众人口统计数据
RPD 和 ACR 提供商从数百万台设备中获取调谐数据,但他们不知道谁在观看,而这正是广告商的最终要求。
弥补这一缺陷的方法之一是与第三方人口统计供应商合作。这些公司保存着全国每个家庭的人口构成记录,研究公司可能会试图根据特定家庭的调谐数据和该家庭的人口构成的总和来模拟谁在看什么。
儿童节目?那一定是家里的孩子说的。摔跤比赛?那一定是来自男性观众。如果没有现实生活中的参考点来辅助机器学习算法,你很容易就能发现这种建模可能会出现的问题。不出所料,随着家庭规模的扩大,这种算法的可靠性也会逐渐降低,最终会损害有孩子、非白人和年轻观众等大家庭数据的准确性。
面板数据的持久价值
对于正在寻找稳定、可靠的受众测量解决方案的品牌和媒体公司来说,上述挑战是不可能克服的。小组数据对于克服这些局限性至关重要。
在尼尔森,当我们分析 RPD 或 ACR 数据时,我们能够确定哪些家庭和设备属于我们面板的一部分,并将这些家庭中的调谐数据与我们仪表捕获的收视行为进行比较。通过使用我们的面板作为这些家庭的真实数据源,我们可以精确定位大数据偏离真实情况的地方,并开发强大的模型来调整这些异常情况。
例如,我们开发了一种方法来确定设备在房屋内的位置,并将其调谐数据与特定观众相匹配。另一个模型可以帮助我们确定机顶盒打开时电视机是否处于关闭状态。还有一个模型可以将设备更新登记为额外调谐,以及设备同时返回多个调谐事件的情况进行分类。
人,而不是设备
毋庸置疑,大数据是媒体研究人员的利器。它为更精细的报道打开了大门,这在过去是不可能实现的。但是,大数据本质上是错误的、有偏见的,最根本的是短视的:它捕捉的是调整数据,而不是观看数据。
要发挥其潜力,就需要对其进行清理、填充、校准,并用相关的人口统计数据加以充实。这就是面板数据的作用所在。有了强大的训练和验证数据,机器学习才能发挥最大的作用,而业内最好的训练数据莫过于作为当今媒体研究业务核心的全国代表性面板数据。
尼尔森需要了解回顾受众测量的基本原理,揭开媒体行业最热门话题的神秘面纱。阅读每篇文章 这里.
备注
1家庭收视率是指全国所有家庭中收看特定节目的百分比。
2 通过天线 "信号 "提供的节目。空中(OTA)广播是最早的电视类型。