3分钟了解今天标题推荐算法的原理(视频+PPT)

  • 时间:
  • 浏览:4
  • 来源:幸运飞艇-首选幸运飞艇计划微信群

来源:大数据摘要

总结:2018年1月,博士 今天头条的高级算法架构师曹欢欢终于第一次公开了今天头条的算法原理,以推动整个行业的查询算法和建议算法,希望消除各界对算法的误解。


今天的标题内容分发算法相当神秘和低调。自12年开发运营以来,已经经历了四次修订,从未披露其核心内容。


2018年1月,博士 今天头条的高级算法架构师曹欢欢终于第一次公开了今天头条的算法原理,以推动整个行业的查询算法和建议算法,希望消除各界对算法的误解。


据报道,今天的头条推荐算法目前为全球数亿用户服务。


以下是曹欢欢在《今日头条算法原理》(今日头条授权)上的分享内容:


data-vid type = " 2 " allow full screen = " frame border = " 0 " data-ratio = " 1。7647058823529411 " data-w = " 480 " rolling = " no " class = " video _ iframe " data-src = " http://v。qq。com/iframe/player。html?vid = g 05349 lb80 j & width = 670 & height = 376。875 & auto = 0 " style = " display:none;宽度:670像素!重要;身高:376。875px!重要;" width="670" height="376。875" data-vh="376。875" data-vw="670" src="http://v。qq。com/iframe/player。html?vid = g 05349 lb80 j & width = 670 & height = 376。875&auto=0"/>▲3分钟了解今天标题推荐算法的原理


这一分享将主要介绍当今标题推荐系统的概况以及内容分析、用户标注、评估分析、内容安全等原则。



我…… 系统概述



推荐系统,如果以正式的方式描述,实际上是一个符合用户对内容满意度的函数,这个函数需要输入三维变量。第一个维度是内容。标题现在是一个全面的内容平台,包括图片、文本、视频、大学教育资助委员会视频、问答和微型标题。 每个内容都有自己的许多特点。 有必要考虑如何提取不同内容类型的特征并提出建议。第二个维度是用户特征。包括各种兴趣标签、职业、年龄、性别等。,也有许多隐含的用户兴趣模型。第三个维度是环境特征。这是移动互联网时代推荐的功能。 用户随时随地移动,他们的信息偏好在不同的场景中被抵消,如工作场所、通勤、旅游等。结合这三个维度,模型将给出一个估计,即在这种情况下推荐的内容是否适合这个用户。


还有一个问题,如何引入无法直接衡量的目标?


在推荐模型中,点击率、阅读时间、表扬、评论、转发(包括表扬)都是可量化的目标,可以直接与模型相匹配进行预测,是否做得好可以从在线推广中得知。然而,一般推荐系统有大量的服务用户,不能完全用指标来评价。 引入数据指标以外的要素也很重要。



例如广告和特殊内容频率控制。问答卡是一种特殊的内容形式。 它的推荐目标不仅是让用户浏览,还考虑吸引用户回答问题并向社区贡献内容。需要考虑如何将这些内容与普通内容混合,以及如何控制频率控制。


此外,由于内容生态和社会责任的考虑,如抑制低俗内容、抑制主题派对和低质量内容、顶层设置、加权、重要新闻的强插入和低层次账户内容的减少,算法本身无法完成,需要对内容进行进一步的干预。


接下来,我将简要介绍如何实现基于上述目标的算法。



上述公式y=F(Xi,徐,Xc)是一个非常经典的监督学习问题。可以实现的方法有很多,如传统的协同过滤模型、监督学习算法的逻辑回归模型、基于深度学习的模型、因式分解机和GBDT等。


一个优秀的工业推荐系统需要一个非常灵活的算法实验平台,能够支持多种算法组合,包括模型结构调整。因为很难为所有推荐的场景建立一个通用的模型框架。现在,将LR和DNN相结合非常受欢迎,几年前,脸书也将LR和GBDT算法相结合。今天标题下的几个产品正在使用相同的强大算法推荐系统,但是模型架构将根据不同的业务场景进行调整。



模型完成后,查看典型的推荐功能。 主要有四种类型的功能将在推荐中发挥重要作用。


第一种类型是相关性特征,即评估内容的属性以及它是否与用户匹配。主导匹配包括关键词匹配、分类匹配、源匹配、主题匹配等。调频模型中也有一些隐含的匹配,可以从用户向量和内容向量之间的距离得到。


第二类是环境特征,包括地理位置和时间。这些是偏置特征以及一些匹配特征。


第三类是热特性。包括全局热、分类热、主题热和关键词热等。内容热信息在大型推荐系统中非常有效,尤其是当用户冷启动时。


第四类是协作特征,它可以部分地帮助解决所谓的算法越来越窄的问题。协作功能不考虑用户的现有历史。然而,不同用户之间的相似性是通过用户行为来分析的,如点击相似性、兴趣分类相似性、话题相似性、兴趣词相似性,甚至向量相似性,从而扩展了模型的探索能力。



在模型的培训中,标题部门的大多数推荐产品都采用实时培训。实时培训节省资源,反馈速度快,这对信息流产品非常重要。模型可以快速捕获用户所需行为信息,并反馈给下一个画笔的推荐效果。目前,我们基于风暴聚类实时在线处理样本数据,包括点击、显示、采集、共享等动作类型。模型参数服务器是内部开发的一套高性能系统,因为标题数据规模增长过快,不能满足类似开源系统的稳定性和性能。 然而,我们自主开发的系统底层做了许多有针对性的优化,提供了完善的操作和维护ance tools, and is more suitable for existing business scenarios.


At present, the headline recommendation algorithm model is relatively large in the world, including tens of billions of original features and billions of vector features.整个训练过程是在线服务器记录实时特征,将其导入卡夫卡文件队列,然后进一步导入风暴集群消耗的卡夫卡数据,客户端发回推荐标签构建训练样本,然后根据最新样本进行在线训练更新模型参数,最后更新在线模型。这个过程中的主要延迟是用户的动作反馈延迟,因为用户可能不会在文章被推荐后立即查看它。 不管这段时间,整个系统几乎是实时的。



然而,由于当前大量的标题和数千万级的小视频内容,推荐系统不可能通过模型来估计所有内容。因此,有必要设计一些召回策略,以便在每次推荐时从大量内容中过滤出数千个级别的内容库。召回策略最重要的要求是最高的性能,通常超时不能超过50毫秒。



回忆策略有很多种,我们主要采用逆向安排的思想。离线维护一个倒排,倒排键可以分类,主题,实体,来源等。、考虑热度、新鲜度、动作等的排名。在线召回可以根据用户的兴趣标签快速截断倒排列表中的内容,并有效地从大型内容库中过滤相对可靠的部分内容。



二. 内容分析


内容分析包括文本分析、图片分析和视频分析。起初,标题主要集中在信息上。 今天,我们主要讨论文本分析。文本分析在推荐系统中起着非常重要的作用,即用户兴趣建模。没有内容和文本标签,就无法获得用户的兴趣标签。例如,只有当用户知道文章标签是互联网时,他们才能知道用户有互联网标签和其他关键字是相同的。



另一方面,文本内容的标签可以直接帮助推荐功能,例如,魅族内容可以推荐给关注魅族的用户,这就是用户标签的匹配。如果推荐主频道的效果在一段时间内不理想并且推荐范围缩小,用户会发现在阅读特定频道推荐之后(例如g. 科技、体育、娱乐、军事等。),它们将返回主提要,推荐效果会更好。由于整个模型是开放的,子通道的探索空间较小,更容易满足用户的需求。仅通过单通道反馈很难提高推荐的准确性,子通道做好推荐非常重要。这也需要良好的内容分析。



上图是今天头条的真实案例。如您所见,本文具有文本特征,如分类、关键词、主题、实体词等。当然,这并不是说没有文本功能推荐系统就不能工作。 推荐系统最早应用于亚马逊甚至沃尔玛时代,包括视频推荐的Netfilx,没有直接的带有文本功能的协同过滤推荐。然而,对于信息产品来说,大部分都是消费当天的内容。 没有文本功能的新内容很难冷启动。 协作特性不能解决文章冷启动的问题。



今天的标题推荐系统提取的文本特征主要包括以下几类。第一个是语义标签类特性,它用语义标签显式地标记文章。标签的这一部分由人定义,每个标签都有明确的含义,并且标签系统是预定义的。另外,还有隐含的语义特征,主要是话题特征和关键词特征,其中话题特征描述的是没有明确意义的词的概率分布。 然而,关键字特征将基于一些统一的特征来描述,而没有明确的集合。



此外,文本相似性特征也非常重要。在头条新闻中,用户反馈的最大问题之一是为什么他们总是推荐重复的内容。这个问题的难点在于每个人对重复有不同的定义。例如,一些人认为这篇关于皇家马德里和巴塞罗那的文章昨天已经看到了相似的内容,今天他们还说这两个球队是重复的。但是对于一个狂热的球迷,尤其是巴塞罗那球迷,我希望我能阅读所有的报道。要解决这个问题,我们需要判断相似文章的主题、写作风格和主体,并根据这些特点制定网络策略。


同样,还有时空特征、发生地点的内容分析和时效性。例如,将武汉的限制推给北京用户可能毫无意义。最后,应考虑质量相关特征,以确定内容是低俗的、色情的、软的还是鸡汤。


上图显示了标题语义标签的特征和使用场景。它们有不同的层次和不同的要求。



分类的目标是涵盖所有方面,希望每个内容和视频都将被分类。 实体系统需要精确,相同的名称或内容应该能够清楚地区分它所指的人或事物,但不需要涵盖所有的人或事物。概念系统负责解决更精确和抽象概念的语义。这是我们的初步分类。 在实践中,我们发现分类和概念可以在技术上一起使用。 后来,我们使用了统一的技术框架。



目前,隐式语义特征已经可以非常有助于推荐,而语义标签需要不断标注,新名词和新概念不断出现,标注也需要不断迭代。做得好的难度和资源的投入远远大于隐含的语义特征。 那我们为什么需要语义标签?还有一些产品需求,比如渠道需要有明确定义的分类内容和易于理解的文本标注系统。语义标签的效果是检验公司自然语言处理技术水平的试金石。



今天的标题推荐系统使用典型的分级文本分类算法进行在线分类。顶层根和底层第一层被分为科技、体育、金融、娱乐和体育等类别。 然后是足球、篮球、乒乓球、网球、田径、游泳等。 分为国际足球和中国足球。 中国足球分为中国甲、中国超级联赛和国家队等。 与单独的分类器相比,分层文本分类算法能更好地解决数据偏斜问题。有些例外。 如果我们想提高召回率,我们可以看到我们已经连接了一些飞线。这个框架是通用的,但是每个元分类器可以根据问题的不同难度而不同。 例如,一些分类器与SVM配合得很好,一些应该与美国有线电视新闻网结合,一些应该与RNN治疗。



上图是实体词识别算法的一个例子。根据分词结果和词性标注选择候选词可能需要根据知识库进行一些拼接。 有些实体是几个单词的组合,有必要确定哪些单词可以映射实体的描述。如果结果映射了多个实体,则需要通过词向量、主题分布甚至词频本身进行消歧,最后计算出相关模型。


三. 用户标号


内容分析和用户标签是推荐系统的两个基石。内容分析涉及更多的机器学习内容。 与此相比,用户标签项目更具挑战性。



今天标题中常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车辆类型、运动队、股票等)。)。还有性别、年龄和地点等信息。性别信息通过用户的第三方社交账户登录获得。年龄信息通常由模型、模型、阅读时间分布等来预测。永久位置来自用户访问位置信息的授权。 基于位置信息,通过传统的聚类方法获得永久位置。基于其他信息,常驻站点可以推断用户的工作地点、营业地点和旅行地点。这些用户标签对推荐非常有帮助。



当然,最简单的用户标签是已经查看过的内容标签。然而,这里涉及一些数据处理策略。主要包括:首先,过滤噪声。通过短时间点击来过滤主题派对。第二,热点惩罚。用户对一些流行文章(如前一段时间的PG One新闻)的行为会受到功耗降低的影响。理论上,对于传输范围较大的内容,置信度会下降。第三,时间衰减。用户的兴趣将会转移,因此该政策更偏向于新的用户行为。因此,随着用户动作的增加,旧的特征权重将随时间衰减,新动作所贡献的特征权重将更大。四、惩罚秀。如果未点击推荐给用户的文章,相关功能(类别、关键词、来源)的权重将受到处罚。当然,与此同时,我们也应该考虑全局背景,是否有更多的相关内容的推动,以及相关的关机和不喜欢信号等。



用户标签挖掘通常相对简单,主要是由于刚才提到的工程挑战。标题用户标签的第一版是批处理计算框架。 这个过程相对简单。 在过去两个月中,每天提取昨天的日常用户的日常行为数据,并在Hadoop集群上批量计算结果。



然而,问题是随着用户的快速增长,兴趣模型和其他批处理任务的类型也在增加,涉及到太多的计算。2014年,为数百万用户批量处理标签更新的Hadoop任务在那天才刚刚完成。集群计算资源的短缺容易影响其他工作,对分布式存储系统的集中写入压力也越来越大,用户兴趣标签更新延迟越来越大。



面对这些挑战。2014年底,今天的头条新闻发布了暴风集群流式计算系统,一个用户标签。更改为流后,只要有用户操作更新,标签就会更新。 中央处理器成本相对较小,可以节省80%的中央处理器时间,大大降低计算资源的成本。同时,每天只需要几十台机器来支持数千万用户的兴趣模型更新,特征更新速度非常快,基本上可以实现准实时性。该系统自推出以来一直在使用。



当然,我们也发现并不是所有的用户标签都需要流媒体系统。不需要实时重复计算用户的性别、年龄和居住地等信息,并且每天的更新仍然保持不变。


四. 评估和分析


以上描述了推荐系统的总体架构,那么如何评价推荐效果呢?


有句谚语说得很明智,“没有评估就无法优化一件事”。推荐系统也是如此。



事实上,许多因素都会影响推荐效果。例如,候选集的改变、召回模块的改进或增加、推荐特征的增加、模型架构的改进、算法参数的优化等。 不是作为例子给出的。评估的意义在于,许多优化最终可能是负面影响,而不是优化上线后效果会有所改善。



综合评价和推荐系统需要完整的评价体系、强大的实验平台和易于使用的实证分析工具。所谓的完整系统不是用单一指数来衡量的。 它不能只看点击率或停留时间等。 它需要全面的评估。在过去几年里,我们一直试图将尽可能多的指标综合成一个单一的评价指标,但我们仍在探索。目前,由对各种业务更有经验的学生组成的评审委员会进行深入讨论后,我们仍有必要作出决定。


许多公司在算法方面做得不好,不是因为他们的工程师不够称职,而是因为他们需要一个强大的实验平台和方便的实验分析工具,能够智能地分析数据指标的可信度。



一个好的评价体系的建立需要遵循几个原则。 首先,它应该考虑短期和长期指标。当我在前一家公司负责电子商务时,我注意到许多策略调整短期内对用户来说是新鲜的,但从长期来看却没有帮助。


其次,用户和生态指标都应该考虑。今天的标题,作为一个内容子创作平台,应该在为内容创作者提供价值的需求和满足用户的义务之间取得平衡,这样他才能更有尊严地创作。广告商的利益也应该被考虑。 这是一个多方博弈和平衡的过程。


此外,应注意协同效应。实验中很难实现严格的流动隔离。 应该注意外部影响。



一个强大的实验平台的直接优势是,当有多个同时在线的实验时,平台可以自动分配流量,无需人工通信,实验结束后可以立即恢复流量,提高了管理效率。这有助于公司降低分析成本,加快算法的迭代效果,使整个系统的算法优化快速向前推进。



这是模拟实验系统的基本原理。首先,我们要做好将用户分成离线时段的工作,然后在线分发实验流量,在时段中标记用户,并将其分发给实验组。例如,打开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略与在线市场相同,另一个是新策略。



在实验过程中,用户的动作将被收集,基本上是准实时的,并且每小时都可以看到。然而,因为每小时的数据波动,所以它通常从一天开始被视为时间节点。收集到动作后,会有日志处理、分布式统计和写入数据库,这非常方便。



在该系统下,工程师只需设置流量需求、实验时间、定义特殊过滤条件和定制实验组标识即可。系统可以自动生成:实验数据对比、实验数据可信度、实验结论总结和实验优化建议。



当然,只有实验平台远远不够。在线实验平台只能通过数据指标的变化来预测用户体验的变化,但数据指标与用户体验之间存在差异,许多指标无法完全量化。许多改进仍然需要手动分析,主要改进需要手动评估和重新确认。


V. 内容安全



最后,我想在今天的头条新闻中介绍一些内容安全措施。标题现在是中国最大的内容创作和发布规则。 社会责任和行业领导者的责任越来越受到重视。如果1%的推荐内容有问题,将产生更大的影响。


因此,标题从一开始就将内容安全放在公司的最高优先级队列中。在其成立之初,成立了一个专门的审计小组负责内容安全。当时,研究和开发所有客户端、后端和算法的学生不到40人。 标题非常重视内容审计。



目前,今天头条的内容主要来自两个部分,一个是内容生产能力成熟的PGC平台,另一个是UGC用户内容,如问答、用户评论和微格头条。这两部分需要通过统一的审计机制。如果是相对少量的PGC内容,将直接进行风险审查,不会大规模推荐任何问题。教资会的内容需要通过风险模型进行过滤,有问题的将进入第二次风险审查。通过考试后,内容会被真正推荐。此时,如果您收到超过一定数量的评论或报告负面反馈,您将返回到审核流程,如果您有任何问题,可以直接离开。整个机制相对健全。 作为行业领导者,今天的头条新闻一直要求自己在内容安全方面达到最高标准。



共享内容识别技术主要包括黄色模型、滥用模型和粗俗模型。今天头条的庸俗模型是由深度学习算法训练的。 样本库很大,图片和文本同时分析。模型的这一部分更加注重召回率,甚至可以牺牲准确率。滥用模型的样本基数也超过一百万,召回率为95%以上,准确率为80%。如果用户经常发表直言不讳或不恰当的评论,我们有一些惩罚机制。



泛低质量鉴定涉及很多情况,如虚假新闻、黑稿、题字不一致、主题派对、内容质量低等。 这部分内容很难被机器理解,需要大量的反馈信息,包括其他样本信息的比较。目前,低质量模型的准确率和召回率不高,需要人工审核来提高门槛。目前,最终召回率已经达到95%,这实际上还有很多工作要做。头条人工智能实验室教师李航目前正在与密歇根大学共同建设一个研究项目,以建立一个谣言识别平台。


未来智能实验室(Future Intelligence Laboratory)是人工智能、互联网和脑科学的跨学科研究机构,由人工智能科学家和科学院相关机构共同建立。由《互联网进化》一书的作者 计算机科学家刘枫,中国科学院虚拟经济与数据科学研究中心的石勇教授和刘颖教授。


未来智能实验室的主要任务包括:建立人工智能系统的智商评价体系,发展世界人工智能的智商评价;开展互联网(市)云脑研究计划,构建互联网(市)云脑技术和企业地图集,为提高企业、行业和城市的智力水平服务。

如果您对实验室研究感兴趣,欢迎加入未来的智能实验室在线平台。扫描以下二维码或点击本文左下角的“阅读原文”。

猜你喜欢

一只带红包的猫读全文

◇红包猫的版权属于作者4211。它只是作者观点的代表,与阅读书籍和小说的地位无关。当图书爱好者沉迷于“红包猫”时,图书网精心准备了一只手写的红包猫。◇红包猫是作者四儿-易的都市爱情小说,其章节全部由书友会增

2019-09-11

再次购买!成为第一的雄心韩国的一家娱乐公司?

再次购买!成为第一的雄心韩国的一家娱乐公司?据韩国媒体报道,KakaoM已经采取了另一项举措,收购宋仲基朴槿惠旗下花卉经纪公司的计划即将结束。消息人士称,隶属于宋仲基、朴博古姆(ParkBogum)等公司的布鲁姆娱乐经纪公司目前正就收购事宜与卡考姆进行最后谈判,收购计划预计最迟将于2

2019-09-11

城乡居民基本医疗保险基金从2020年开始征收

记者从市医保局了解到,2020年城乡居民基本医疗保险基金征缴工作于本月正式启动。今年,在征缴对象范围、保险登记缴费时间、缴费标准、缴费渠道等方面都发生了变化。变更1:添加两种类型的被保险人记者了解到,与往年相比,2020年城乡居

2019-09-11

在收集了100个微信公众号后,我终于在我的灵魂中找到了一个平静的地方。

2019年5月,我读完了日本死刑专家山下英子的《死刑》。"我决定做出改变。我尝试了一个新的实验和项目-信息断开,我试图简化一些联系信息,并切断屏幕滚动信息的各种干扰。《离家出走》一书中提到了这一点。做出改变的第一步是学会积极观察。,观察自己的思想,了解自己的行为习惯、感受和当

2019-09-11

最新的国家高温炉清单已经公布,看看谁是霸主?

(原标题:最新发布的国家热风炉清单,看看谁是三伏的主宰?)目前,为期40天的豪华版“三伏”已经结束。随着时间的推移,北方的高温季节越来越远,秋天越来越强。然而,南方的高温并没有停止。中央气象站在过去十天发出高温警告后,将于今日(八月二十一日)继续发出黄色高温警告。那么在今年的三个三伏天里,哪个省会城市才是真正的高温霸主?秋季过后哪些地区

2019-09-11