利用神经网络和TensorFlow预测黑客新闻文章的成功

通过埃文Sangaline|2017年5月23日

黑客新闻标题工具

输入一个潜在的冠军黑客新闻提交如下,看看它成功或被标记为死亡的可能性有多大。

一旦你玩了一会儿,你就可以继续读下去,了解这些预测究竟是如何做出的。

背景

提交了一篇文章,黑客新闻可能会有点紧张,如果你在写它投入了大量的时间。一篇文章的成功确实取决于在得到初始四,五票,将其推到前面的页面,它可以达到更广泛的受众。的re’s a fair bit of luck that goes into that but obviously things like the time of day when it’s submitted, the wording of the title, and the article itself also play a significant role (though I can say from experience that these first upvotes often come before someone could have possibly actually read the article). Whatever the factors, it’s in any content creator’s best interest to submit their stories in a way that will maximize their potential for success.

我偶尔会在Hacker News上看到评论者讨论发表意见的理想时间,而在工作日早上5点PST似乎是普遍的共识。这似乎是合理的,因为在东海岸的开发者开始他们的工作之前,他们就可以登上一整天的头版,但我很好奇数据是否真的支持这一说法,或者这只是一个老开发者的故事。我决定看一看所有提交给黑客的历史新闻,看看这个建议是否合理。

我主要对登上头版感兴趣,所以我把10分作为“成功”的启发式标准。“这有点武断,但我认为这是一个合理的接近,使它成为头版头条。通过观察达到这一成功门槛的故事比例,我们可以发现,周末提交的故事登上头版的可能性要高出近50%。

成功概率与VS提交时间

单凭这一点并不一定能反驳传统观点;这仍然完全有可能是周末头版的新闻获得的流量少得多,以至于增加的到达头版的可能性并不能弥补这一点。这可以通过查看提交的平均分数来测试,这些分数可能与流量更密切相关。

平均分数vs提交时间

这看起来颇为相似,随着时间的推移成功概率,它有力地表明,周末是更好的时间来提交故事不管你的目标是最大的流量还是你登上头版的机会。这其实让我很吃惊。当然,观点与投票的比例有可能在周末发生变化,但这很难确定。

当我们看这些的时候,放大看看24小时内的模式也是很有趣的。

成功概率与VS提交时间

太平洋标准时间早上6点、10点半和下午5点左右有一些明确的峰值。到底是什么导致了这些呢?是在不同时区的上班前/下班后和午餐时间的混合吗?

超越提交时间

在让自己质疑自己在工作日早上发表文章的习惯后,我开始好奇,流行语对一篇文章的成功有多大的影响。人们会盲目地给标题中含有TensorFlow的东西投票吗?嗯. .至少希望如此!

为了回答这个问题,我从一堆单词/朴素贝叶斯方法开始。这种方法很有效,但它不能解释我感兴趣的其他一些因素。如。资本计划,标点符号)。所以我摘掉了一个模糊的感觉,我应该做的实际工作,并找到了培养更高级的分类。

让我告诉你,那首先分类是难以置信的。它有三个辉煌的字符级卷积层,然后向前向后LSTMs。它的工作很大,拿起各种大范围的结构。

不幸的是,当我将这个不可思议的模型导入JavaScript时KerasJS我很快了解到它不支持Keras 2,然后更缓慢地了解到它不支持LSTMs(文档可能会告诉您不支持,但文档是撒谎的)。KerasJS,我爱你,但你却让我失望。所以我匆忙地拼凑了另一个网络,它的结构更简单,可以在浏览器中运行,下载大小相当适中(~2 MB)。

这第二个网络是什么样的力量在这篇文章的顶部的标题预测。唉,这不是我训练最大的网络......它只是贡品。

网络

模型的第二次迭代的架构看起来有点像这样。

模型架构

title_input取入表示标题80个值的序列。值0被用于填充,1溢出的字符的值,并且表示2-101中最常用的100个字符(这是eoatinrslcduhpgmyfSwbkTvACPMIDBWHFRENLGO:-0,.1x'U2YV JZK)(J'-534q69Q + 78" / $ Xا[]‘’Z&|لرمي%“و#بتنةد;سه如果你介意的话)。每个字符嵌入在102维空间中,其中嵌入初始化为一热编码,但允许在训练期间浮动。

在嵌入层之后,有一个卷积层,包含128个过滤器,内核大小为3个字符,最大池(max pooling)窗口为2。它的输出被送入4个并行卷积层,每个层都有32个过滤器,内核大小分别为3,5,7,9。然后,在合并和平铺之前,每一个都分别用一个2的窗口进行池化。这里的基本思想是允许不同的并行卷积层有机会获取不同长度的特性。万博manbetx水晶宫

最后,这个扁平的输出通过3个紧密连接的层(64、32和2个节点)提供。除了最后两个节点具有sigmoid激活以将其限制为[0,1]的范围外,所有激活都是RELU。这些输出,high_score_outputflag_output,分别表示一个故事得分大于等于10的概率和一个故事被标记为死亡的概率。这些东西输入到页面顶部工具的guages中。

损失函数为二元交叉熵,在成功概率和旗帜概率之间的权重为90%/10%。我一般更关心预测成功,这也是两项任务中更困难的一项。

基本性能

如果有什么比图表更有趣的话,那就是两个并排的图表了。

预测分布

你可以马上看到,有许多被正确预测不会有任何真正机会进入头版的书籍。这些大多对应于非英语标题,全大写,明显的垃圾邮件,以及类似的东西。除此之外,关于成功概率的分布有明显的变化,但没有明确的分离。

在某些方面,成功概率的宽度实际上更告诉比峰之间的分离。散装典型的故事,或那些具有非零成功概率,具有一定的分布容易覆盖的2-3倍的因子在预测成功的概率。(非常)不严格地说,这可以被解释为标题至少这个大的一个典型故事的成功的机会产生影响。

该标志的概率确实有在高端市场,这意味着你可以过滤掉故事的显著比例极少误报更加清晰的分离。有,但是,故事的显著一部分,该网络不能区分有意义的,这意味着你将有一个相当大的假阴性率。

在丧失功能方面,成功概率具有0.3197的二进制交叉熵和标志概率具有0.4386之一。换一种方式:一个信息位可以让用户决定的2.17故事成功或1.58标志结果。总体而言,这实际上比我更期待。让我告诉你,虽然......你应该已经看到,原来LSTM网络上的二元杂交熵!

极端的例子

如果我没有将最好和最糟糕的游戏包含在数据集中,我将是一种疏忽,但我不得不承认它们有些令人印象不深刻。让我们从“最有可能成功的人”开始。

故事 成功概率 得分了
CarWoo(YC S09)推出CarWoo第2版保持购车者更明智 1.0000 29
Glassmap (YC S11)推出2.0版:社会化新闻Feed与实时地图的结合 1.0000 30.
Hipmob (YC W12)想要成为顶级的应用内部客户服务工具 1.0000 21
Talkray(YC W12),欠的雷达消息传递应用程序,起飞海外 1.0000 17
WePay(YC S09)推出WePay清除,条纹竞争对手有欺诈保护 1.0000 92

注意什么吗?如果你想要一张进入黑客新闻头版的保证票,你所需要做的就是首先进入Y Combinator。

同样的模式比比皆是,在最有可能失败的故事。

故事 成功概率 得分了
جديدفستانكيتزوجةالاميروليام2011年,صورفستانكيتزوجةالاميروليام2011 0.0000 1
صور+دينيه+2017+صور+ادعية+اسلامية+صور+دينية+جميلة+مصورة 0.0000 1
مشاهدةمباراةريالمدريدوبروسيادورتموندبثمباشركورةلايفيوتيوب 0.0000 1
صورثورة25يناير,صورثورةمصر,تجميعهصورايامصورة25يناير 0.0000 1
اهدافمباراةريالمدريدراسينغسانتانديراليومفيالدوريالاسباني2012 0.0000 1

我想知道这是否是由机器人提交,或者如果还有人在那里玩真正的赔率。

但是,如果一股不可阻挡的力量遭遇一个不可移动的物体会发生什么呢?预测工具给“DropBox (YC S07)رميبعيدامحركأقراصأوسبالخاصبك”成功得分为0.0分。所以,即使你是一家YC公司,也不要用阿拉伯语提交你的标题。

这是令人惊讶的乐趣在假设的标题插入和查看分数是什么。也就是说,我认为这将是低俗,我,包括我的“______已经死亡”成功预测表,以便我最好总结的事情了。我很好奇,看看其他有创意的名称有什么人来了,但!

结论

这主要是为了好玩,但也许有些人也会发现它的一些实际用途。我不得不承认,我可能会忍不住检查我的标题,即使完全意识到注意事项。

当然,如果你有兴趣在网络上寻找数据来做出明智的营销决策,那么请这么做请与我们联系。我们帮助企业获得他们需要的数据,并以有效和创造性的方式使用它。

建议文章

如果您喜欢本文,那么您可能也会喜欢这些相关的内容。

1Manbetx

通过埃文Sangaline
2018年11月6日

一个交互式的解释如何不公正划分选区是一个有风险的策略,允许蓝色浪潮的可能性。

1Manbetx

设计自由之路机加载动画

通过埃文Sangaline
2017年10月11日,

我们如何帮助互联网档案馆设计了一个新的加载动画的Wayback机器的概述。

阅读更多

检查网站或网址是否已提交给StumbleUpon

通过埃文Sangaline
2017年9月14日

一个简单的工具,检查在StumbleUpon的索引中的URL的状态,以及它如何工作的描述。

阅读更多

评论