Optimizing,optimizing

内容算法时代,如何引爆用户流量?

Optimizing,optimizing


对于算法分发很多人会有所误解,这或许源自远观而缺乏了解,才会觉得算法猛如虎 。而当你走近了算法分发,有了一定的了解之后,可能会有重新的认知:算法如虎,细嗅蔷薇 。一、算法分发知多少?尽管算法分发中应用了各种高深的算法,但其基础原理却是朴素的:更好地了解待推荐的内容,更好地了解要推荐给的人,才能更高效的完成内容与人之间的对接 。
从这个角度来看:断物识人,是一切推荐行为的起点 。对于断物识人,我们可以将它理解为打标签的过程 。标签是对高维事物的降维理解,抽象出了事物更具有表意性、更为显著的特点 。在不同的业务场景下,我们会选择不同的标签进行使用,来对内容和用户进行标注 。在内容画像层面,以音乐为例,最典型的有两种标签产出的方式:专家系统:潘多拉(Pandora)的音乐基因工程(Music Genome Project) 。
在这项工程中,歌曲体系被抽离出450个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等等 。每一首歌曲都会被经由工作人员耗时30分钟左右,有选择性标注一些标签,并以从0到5的分值代表这一标签的表征程度 。UGC产出:在豆瓣,给音乐打标签的活则从专家产出,转为了普通网友贡献 。群体的力量为豆瓣积累了大量具有语义表意性的标签 。
当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一化才能投入使用 。在用户画像层面,可以分为静态和动态两部分 。用户画像中静态的部分比较好理解,即你的设备信息、地理位置、注册信息等等,这些可以被理解为是业务无关的信息 。具体到业务场景中,用户产生了更多的行为,就生成了业务相关的动态信息,即利用人的各种显式和隐式行为来对用户的偏好性进行的猜测 。
以知乎读书会为例,你的显式行为是点击、收听、评分、评论等等;隐形行为则是收听完成度、是否有拖拽快进、页面停留时长等等 。通常,由于显式行为不够丰富,我们往往需要使用隐式行为来扩充我们对于用户的理解 。完播率、是否快进、详情页停留时长等指标,都会被系统统计,用来判断你是否真的喜欢某个人的讲解、喜欢某本书的内容 。
在内容画像的部分,可以看到一篇文章通过文本分析进行了一级和二级分类,并抽取出文章内的关键字、实体词,进一步的还会通过聚类的方式,将这篇文章与其相似的内容聚成一个簇类 。之所以会有聚类,是因为专家系统的分类体系一定是对于变化不敏感的,响应不及时的,而聚类能够挖掘出更多内容的隐含信息 。在用户画像的部分:(摘录自今日头条推荐算法原理全文详解——曹欢欢博士)内容画像和用户画像,是一个相互影响的循环系统 。
内容画像决定人的画像,自然是最容易理解的 。在音乐场景下,你收听、收藏、评分了很多爵士类的音乐,那么系统就会判定为你是一个喜欢爵士音乐的用户 。在读书的场景下,你阅读、收听了哪些书籍,哪些书籍听完了、哪些书籍重复收听了很多遍,都会影响系统中,你的用户画像 。因此,“你的选择决定你的画像”可以说丝毫不为过 。而反过来,人的画像也会影响内容的画像 。
我们可以看作是基于用户的行为,对内容做出的后验投票 。在一个大体量的视频上传体系里,我们基本放弃了依赖人工打标签的方式,而转而利用用户的播放行为来试图猜测内容属于哪一类 。一个典型的Case:死神来了 。看标题的文本信息,最大概率就是一部电影,但事实上观看这个视频的大面积是喜欢猎奇类视频的用户,深挖内容才会知道,这其实是一个车祸视频集锦 。

推荐阅读