第九节 分词挖掘和关键词挖掘
一、分词挖掘与匹配
找出适合宝贝的分词,是建立标题的第一步。
人工方式,一般是从淘词,搜索下拉条以及下方的“你是不是要找”,直通车流量解析等去找。先找关键词,再归纳出重要分词。这个过程中,人脑最重要的价值在于:判断这个关键词跟宝贝是否匹配。
对于软件自动生成标题来说,最大的挑战也在于如何识别:这个关键词跟宝贝是否匹配。
快优化,在匹配技术方面有突破。预填匹配的分词,跟宝贝匹配度一般都很高。少数不够匹配的,才需要人工剔除。其实我们又发现了新的匹配技术,但由于计算量太大,暂时还不能用上。
为了保证匹配度,有些宝贝就可能出现分词不够的情况。这时就需要人工挖掘、添加,或者从类目常用分词库中勾选。
快优化的分词预匹配技术,优势在于自动、方便,效果八九不离十。但也存在欠缺:如果有某些特殊分词对于这种宝贝很重要,软件可能错过。因此快优化比较适合数量大的普通宝贝。
精优化,采用了另一种完全不同的分词挖掘技术。它要求用户先输入宝贝的特征词,根据这些特征研究分词指纹关系:与这些特征词曾经出现在一起的分词有哪些?如果用户是熟悉宝贝的,输入了正确的特征词,用这个办法找出来的分词,基本不会有遗漏。对这个宝贝比较重要的分词,都能捕捉到。
分词挖掘功能目前也已经引入快优化,供有经验的用户使用。
二、关键词挖掘
传统优化方式是先找关键词,汇总出分词,然后部署分词顺序,尽量匹配主要关键词。
是先找分词,根据分词挖掘出关键词,再根据关键词计算,选择标题要保留的分词和顺序。
快优化采用的关键词挖掘方式是“收敛”方式,也就是关键词只包含预先确认匹配的分词,优化效果八九不离十。
精优化可选“收敛”方式和“开放”方式。开放方式是关键词可能包含新的分词,有机会挖掘出新的潜力关键词,但它需要对宝贝的充分了解,比较熟练的过滤技巧,新手用起来会感觉到无关词太多太累,老手才会快速找到自己想要的东西。因此我们一般不推荐采用“开放”方式。
三、关键词审核
标题计算,完全依赖于挖掘出来的关键词,因此挖掘的好坏(取决于分词的匹配度,以及有没疏漏),以及挖掘后的人工审核(剔除不合适的关键词),对于标题结果就有直接的影响。
关键词审核是快优化和精优化最费时间的一个工序。很多象我这样的洁癖狂,会花很多时间把不合适的关键词一一剔除,才交给系统去计算标题。
不过我们也知道二八原理。实际上,洁癖狂是没有必要的,完全可以降低要求。