幂次分布的社会性标签

随机从del.icio.us中找了8条记录,对收录它们的人数和各个标签出现的次数(del.icio.us给出)做了最粗糙的分析(只是为了验证一个印象,对于所用方法,没有严格的论证,比如没有考虑标签之间的关系并非独立的,而是多个标签在一起使用):将标签的次数除收录的人数,然后从高到低排列,获得一张曲线,之后使用excel的趋势线分析得到公式和R平方值。拟合度指标的R平方值均在95%以上,幂在-1左右,有-0.8,也有-1.5。

是不是可以说,在对同一个内容的标注的选词上,存在着幂次分布。

高度集中的标签反映了该内容本身的标志性的特性,而分散的标签,更多的和个人的知识信息系统的需求的不同相关。

由此是否可以推论,在社会性的标签系统中,并不存在一些人所想象的混乱,和专业分类系统的高成本相比,它以很低的成本获得了高准确(?或命中率?)的分类系统。

Flickr Related Tag Browserdel.icio.us中的链接

de.lirio.usdel.icio.us中的链接)