人生倒计时
- 今日已经过去小时
- 这周已经过去天
- 本月已经过去天
- 今年已经过去个月
youtube网友评中国功夫(中国功夫国外表演视频)
「干货」YouTube 基于深度神经网络推荐系统剖析
YouTube推荐系统的三大难点:
(使用浏览器扫码进入在线客服窗口)
复制联系方式
· 一是规模太大,简单的推荐算法在如此大规模数据量上可能是失效的;
· 二是实效性,即新数据不断产生,需要将其良好的呈现给用户,以平衡旧有的好内容以及新内容;
· 三是噪音问题,用户行为与视频描述均有噪音,并且只能获得充满噪音的用户隐含反馈,而不能直接获取用户满意度。
图1.YouTube基于深度学习推荐系统架构图
本文呈现的推荐系统解决方案分为两个部分:
· 一个是备选生成(Candidate Generation),其目标是初选结果,从海量数据中选择出符合其个人需求偏好的百级别数据;
· 一个则是排序(Ranking),通过更加丰富的用户,视频乃至场景信息,对结果进行精细化排序,得到呈现给用户的备选。
备选生成阶段,将推荐系统定义为一个多分类器,其职责是确定某个用户,在某个场景与时间下,将从系统的视频中选择消费哪一个视频。具体的方法是,将用户与视频全部转化为Embedding描述,即一个向量,最终用户消费某个视频的概率通过如下方式计算得到:
而构建用户与视频的Embedding,则是通过训练而来。将用户观看视频/搜索记录/其它信息如年龄性别等作为输入特征,部分稀疏特征首先进行Embedding化,中间为数层ReLU,最终一层用SoftMax进行分类。 换句话讲,是将用户与场景信息作为输入,预估用户下一个要看的视频,也就是将用户分到具体某一个视频作为其类别。 用户与视频的Eembedding,则是神经网络最后一层的对应矩阵。这种方法除了能利用用户行为信息外,其它信息例如设备,地理位置,性别等也可以作为输入,这是神经网络相对于普通MF类算法的优势之一。
图2.YouTube推荐备选生成阶段架构
备选生成的下一个阶段是排序。其网络结构跟备选生成阶段类似,将所有排序模型中的信息输入后,进入多层ReLU,最终进行优化的是一个加权逻辑回归损失函数,观看时间作为阳性样本权重。在这一层,也可以看到其推荐“代理问题”的转化:由点击行为预估转为了以观看时长为权重的点击行为预估,这样更佳贴近Youtube的产品优化方向。与备选生成阶段另一个不同在于,排序模块需要考量的特征要多得多:
· “场景”类特征,例如用户可能在某个地方某个时间愿意观看某一条视频,但是在别的地方别的时间则不会;
· 曝光信息:用户观看了某界面,但是并未在其上进行操作,那么随之应进行已呈现内容降级;
· 备选生成层输出:排序需要将各种备选结果联合起来;
· 更丰富的用户信息:例如用户最近的一次搜索词,用户最近观看的同一个主题下的视频数量,用户上一次观看同主题视频的时间,用户所使用的语言等;
图3.YouTube推荐排序阶段架构
除了整体设计与系统架构以外,本篇论文中陈述了很多“选择”,这些选择更多的是“艺术”而不完全属于技术范畴。这些选择往往是很多技术人员关注不多的点,但在笔者看来,这些都蕴含着YouTube技术与产品人员深入的思考与判断。
“Example Age” 特征
对于YouTube产品层来讲,鼓励内容产生毫无疑问是至关重要的,所以推荐系统也希望对用户上传的新内容的有所偏好。然而幸运的是,即使损失一部分相关性,视频的消费者也偏好新内容。也就是说,新内容的价值可以良好的通过其带来的吸引力呈现出来,并不需要平台刻意而为之。
由于系统使用一个时间窗口的训练样本进行训练,如果没有视频的上传时间信息,那么模型会认为这个时间窗口内用户对视频的偏好是稳定的,然而事实远非如此。将视频的上传时间加入到特征集合后,预估更加准确,尤其是视频刚上传阶段的强烈便好被成功捕捉到。
图4.无时间特征预估/有时间特征预估/真实情况 三者对比
优化目标选择
图5.优化对象的选择
算法系统的设计首先要明确优化对象,这不仅仅涉及到损失函数的形式,同样也是评判系统成功与否的标准。YouTube是视频平台,更是富含“价值”的长视频平台,其观看行为比点击行为意义更大。(当然,笔者认为没有任何一个简单指标可以完全代表一个产品)
“正样本”定义
图6.何为正样本的设计选择
训练数据来源
图7.关于训练数据来源的设计抉择
训练数据应该只来源于推荐界面的曝光吗?YouTube认为不然。如果只考虑推荐界面曝光,则无法对用户便好进行 探索 ,更加无法捕捉用户偏好的变化,因为用户偏好的变化往往首先会对应着搜索与浏览行为。所以YouTube将各个界面例如搜索,导航等用户行为全部纳入其中。
训练数据窗口
图8. 训练数据收集方式的设计选择
Youtube将所有用户等而视之,每个用户收集一定量的样本。而不是惯常可见的直接收集一个时间窗口内的所有用户行为,作为训练样本。这样的好处是避免系统收到少数行为过多用户的影响,使得系统更多的为大众设计。这样的设计理念与近期阿里Gai Kun的论文中评测方法(用户AUC)设计有异曲同工之妙。
用户行为序列处理
图9.用户行为序列信息处理的设计选择
在系统中,用户往往会顺着一个检索结果页或者用户发布者浏览页进行顺序观看,如果系统捕捉到了用户看了检索界面的前三个结果,那么预估用户将看第四个结果就会很容易。但是这样真的好吗?将检索结果页面或者用户发布视频界面直接作为推荐结果呈现给用户是并不友好的--抢了别的界面应该干的活嘛。所以此处YouTube对用户行为序列做了处理,在模型输入中选择放弃用户行为的序列信息,将其打散成词袋Embedding,即使这样的信息有利于模型的离线训练效果。
预估对象的选择
图10.关于预估对象的设计选择
用户的行为往往是有顺序的,用户在系统中“热身”后,在一个频道下面,往往先看大众喜欢的热门,然后逐步找到自己的兴趣点,聚焦看一块内容。那么,训练数据则应该收集用户前段时间行为,预估此后的行为。而不是收集时间前后段的行为,预估中间时间段的用户行为。这样模型更加接近用户习惯。
除此之外,Youtube根据系统设计了对应的实验,结果非常简单:深度网络层数越高,效果越好。
YouTube的推荐系统,已经为其贡献了70%的用户播放时长,搜索与导航在PC时代的主导地位在移动时代已经完全被颠覆掉。希望大家在其中学到一些东西。笔者水平所限,若有错误不当之处,敬请指正。
另外,个人用TensorFlow模拟Youtube的推荐系统,做了一个简单实现。其实就是一个多分类器外加一个单分类器,远谈不上成熟,可以供大家参考。
——END——

乡民秘技:YouTube网址加一个「.」 就无广告
乡民SkyPlus在PTT八卦版上分享了如何在YouTube网站上看影片无广告的方式,而且不是装AD Block等外挂方式,只要在影片网址上加上一个「.」就会无广告。破解的源头是来自Reddit,详细讨论可以参考这篇。
为了实证这个密技,我们随机找到一个影片「15年,76万人给出8.4的高分,周星驰集大成之作《功夫》中细节、隐喻和致敬! | 日常不常」的网址:youtube/watch?v=zsXlIz5FxyE
如首图显示,出现了投资界最有名的两个人史蒂夫和戴夫广告。接下来我们使用SkyPlus提供的密技,在上面影片网址后面上加上一个点,网址变成:youtube./watch?v=zsXlIz5FxyE
如下图所示,真的没有广告了!而且影片会停留在0:00的时间线,等待使用者按下播放才会开始播。
▲按下播放按钮后确实也没有广告!
▲实测在手机浏览器上播放也没有广告,不同的地方是影片会自动播放:
从实测的情况来说,这个秘技做法没有问题,估计判断是YouTube的一个小漏洞,未来一定会修补好。另外现在使用者观看YouTube影片应该多以App的方式观看,这个秘技无法解决App的问题,况且没有广告努力的内容创作者也不会有收益,这对平台的发展不是好处。如果真的不喜欢看YouTube广告的话,还是推荐购买YouTube Premium方案,不论在任何平台都无广告、还可以下载、看原创影片以及透过YouTube Music聆听音乐,订阅的费用仍然会分润给每个月观看影片的创作者,属于平台、使用者、创作者多赢的状态。
作者从YouTube Premium在台湾上架后第天就开始试用,试用结束后果决购买家庭方案和家人共享,平均每个人1个月不到100元的价格,使用YouTube的体验会大幅上升,推荐给大家。
YouTube Music、YouTube Premium台湾版上线:最多免费试用4个月、个人与家庭8大费率懒人包
YouTube Premium 在台上线实测:手机背景播放、无广告、离线下载、独立YouTube Music App 以及原生影片可看
成龙在好莱坞男演员里能排在什么位置?
在美国的时候正赶上成龙的Rush Hour上映,那个时候几乎我认识的每个年轻男性,不分肤色种族,都在谈论成龙。常常看到年轻小孩模仿成龙的动作。我不知道当年李小龙有多么火,但是成龙在美国家喻户晓的实况,我是亲眼看到了。
作为一个非欧美非白人非美国出生的演员在好莱坞大片担任主角并且口碑流传很广男女老幼无人不知的男演员,成龙是我见的独一份。李连杰也不错,知名度也很高,但是比成龙还差不少。现在大家都说国际章怎么牛逼。我可以告诉你,很多人不知道谁是章子怡,但是我认识的各国人民,从美国科学院士到咖啡店打工小妹,只要谈论过电影话题的,没! 有! 人! 不! 知! 道! 成! 龙!有时候我私下怀疑成龙的知名度是不是已经超越李小龙了。
看了成龙电影很久以后,我在YouTube看了一部纪录片,惊的下巴都掉下来了。很多我以为是特技的镜头,竟然都是真打真摔。不禁对成龙的敬业精神又有了新的认识。
成龙的很多言论我都不赞同。他的私德,我不认识他所以无从评论。但是作为一个演员,他的成就和敬业精神,绝对是第一流的。
王家卫的御用演员梁朝伟好歹还是演过《东成西就》的,喜剧效果那就不用说了,还真有点周星驰的感觉。但是一般演员谁能玩出成龙的风格?
就不说动作多么玩命了,光是那种打斗方式就不是别人能模仿好的。成龙还是出名的完美主义者,一个镜头可以重拍几十上百次,说实话一般人到不了这咖位做不了主,也没那么大耐心。成式动作喜剧,再加上成龙电影独特的动作节奏和剪辑方式,丰富的面部表情,可以说他已是一代动作电影宗师,在整个世界电影史上都有一席之地。
相比之下,如今比较火的那些好莱坞动作演员都远远不及(纽约每日新闻曾将成龙评为影史上最伟大的动作巨星)。
22. 从Youtube的默认推送中思考的一些事情
我个人平时经常看Youtube,一般都是看娱乐,教育类的视频。
如果按照我的浏览履历,一般给我推送的视频,应该都是与此相关。
但是,Youtube不知为何,直到现在还偶尔推送一些关于政治类的视频。
刚刚来日本那会儿,被标题吸引,看过一些辱华视频,但是后来发现这些讽刺视频,大多非常缺乏逻辑,以及真正的对中国的了解。
完全是为了辱骂而辱骂,耍一些文字游戏,拿一些完全站不住脚的论据,在那儿反复讲述。看了后,都觉得自己的智商被侮辱了。
在评论区留言,指出视频的无知,结果反而会被评论区的那些崇洋媚外的人所辱骂,最后反而惹了自己一肚子气。
所以后来,我就删除了旧账号。注册新账号,凡是关于政治类内容,全部屏蔽。
但是Youtube的推送算法,依然偶尔推送给我相关的内容。
我猜测,是不是Youtube可以从我看视频的内容中推测出我是中国人,然后就把那些视频默认的推荐给我。
而Youtube的算法又计算出,在海外的华人中,有一定比例的人是热衷于看此类视频的,所以导致,他就会把这一类相关视频,按照比例不定期的投放给所有华人,这样我就莫名其妙的被推送了这类视频。
现在我一旦发现有此类视频推荐,就会直接点举报,并且选择不关心此类视频。
Youtube因为会更具客户的反馈来优化人工智能算法,所以当自己非常厌恶或者不喜欢相关视频的时候,一定要选择不关心以及举报。
只有越来越多的人进行举报,或者选择不关心,才可以让这一类人无法从Youtube频道赚取到利益,从而断了这些人做此类视频的念头。
就好比,打击猎杀野生动物,获取皮毛的罪犯,只指望警察去抓,是不可能杜绝的。
只有通过让人们不再去购买皮毛,从而让皮毛市场无利可图,这样才可能让那些罪犯放弃去捕杀野生动物。

