传统搜索引擎涉及很多seo优化手段
当我们把一份seo相关数据给它时,它可以返回这样一份数据(限定返回TOP100个):TOP前的词汇一般都是正确的,但是这些词汇是按照概率返回的,不一定是seo领域主要的、常见的。
所以我们只需要再根据词频排序(领域常见的词频就比较高):
可以看到TOP前的大都是seo这个领域常见、重要、主要的词汇,即:这个领域聊来聊去都是在聊这些的词汇,提供的数据越多越丰富,结果越准确。
这个算法我有封装了一个小工具,给它数据(给一批也行),就返回相应的词汇,可以限制数量,可以做词汇过滤:
工具除了这个作用以外,还适合提取出大词,用于深挖领域长尾词,而新词发现的功能还可以用于其他地方,后续再介绍。
工具在文末领取。
ps:我们这里的演示数据是长尾词,然而新词算法的原始数据可以是长尾词、也可以是标题、文章,数据越多越丰富越准确。
步骤4
通过刚才的程序,我们得到了每一个领域的常见词汇,在我的测试数据里,限制返回词量50个,50份数据得到了2500个词汇分别保存:
接下来我们去除一些非目标词:
在返回的词汇里,我们可能会碰到“怎么”这样的词汇,类似“好像”这样的词虽然也不是目标,但是因为它在长尾词数据里的词频太低,一般不会被程序当成“可能的词汇”,至少没办法排在返回的数据里的top。
可是“怎么”这样的词汇是很有可能出现的,因为词频太高了,而我们显然不打算注册一个名称为“seo怎么”的公众号,因此这些词要去除。
下面是常见要去除的目标词,一般可以解决掉7788:
小部分不理会,我们只是尽可能的减少无效目标。
这个步骤在上述工具里可以事先设置,只是这里需要讲一下这个步骤。
步骤5
去除了无效词,接下来要组合出大词,也就是“seo”这个领域里出现“优化”,我们要把“seo”和“优化”组合起来形成组合大词。
新词算法根据提供的数据计算,它有可能直接计算出“seo优化”这样一个组合词(如果这个组合在数据里出现足够多的频率)。
因此我们需要挨个判断一下:如果seo这个领域返回的某个词有包含seo,那就不需要组合了,它一定是个常见组合词,反之,需要把“seo”组合进去。
但是这又会有个问题:当它出现“优化”这个词时,到底要让程序把“seo”放前面还是放后面呢?
人工显然知道放哪里,但这是程序自动执行的,需要给它判断条件才行,否则就可能会组合出“优化seo”,要是碰到“书籍”,出现“英语”,然后组合出“书籍英语”,这就很尴尬了。查站网
页:
[1]