Page 1 of 1

线性数据可视化

Posted: Mon Mar 24, 2025 6:06 am
by rakibhasanbd47
可视化数据

问题立即显现出来:这幅图没有集中趋势测量(或者说没有集中趋势测量)。如果多个页面对的差异与传统指纹和 simhash 测量的差异相同,则绘图软件会简单地将第二个红点精确地放置在第一个红点之上。对于第三个、第四个、第一百个甚至可能是第一千个相同的数据点,依此类推。

解决这个问题的一种方法是根据点 波斯尼亚和黑塞哥维那电话号码列表 所代表的页面对数为点着色。那么,如果我们使用与我们在同一点上绘制点的次数相对应的光波长来选择颜色,会发生什么?这种策略为我们提供了一个图,其中红色(长波长)表示最多的数据点,向下到橙色、黄色、绿色、蓝色和紫色(实际上,在这个尺度上是洋红色)仅表示一个或两个值:


真令人失望!几乎没有任何变化。但是,如果你仔细观察,你会发现洋红色海洋中有几个蓝点,最重要的是,最左下角的点是红色的,代表所有实例中最多的。这里发生的事情是,红点代表的计数比所有其他计数高得多,以至于它和代表最低数字的颜色之间的大多数其他颜色最终都没有使用。

解决方案是分配颜色,使大多数颜色最终用于编码较低的计数,并随着计数的增加逐渐减少分配的颜色。或者,用数学术语来说,根据对数尺度而不是线性尺度分配颜色。如果我们这样做,我们最终会得到以下结果: