2千万的知乎蓝海流量掘金机会（中）_经验分享

4. 突破认知局限

有些朋友们可能到这里就坐不住了，脑子里开始构思所在行业应该如何操作

可是，万一你所在的行业没有蓝海流量呢?为什么一定要在你熟悉的领域做呢?

流量高手的思维，从来都是大盘思维，即以全局的视野来思考问题

而此次，我们要分析知乎整体搜索流量的分布，哪里有蓝海流量，我们就去到哪，而不只局限于某个问题，某个行业

甚至知乎好物完全可以基于蓝海流量的思维

始终记住我们的目的只有一个，那就是赚钱

同时，这也是我写【TACE】(Traffic ACE，流量高手)这个公众号的主要思想，只不过后来去折腾项目，很少发文，咳咳….

前面讲了不少内容，那是因为我想把“道”这个层面讲清楚，即为什么这么干;而“法”是死的，规则发生变化，方法立即失效

举个例子：特斯拉诞生之初，电池成本比当时市面上低了10倍，CEO马斯克为什么能做到?

那是因为他的道是“物理学思维”，把事物拆解成最小单元寻求解决方案(TED有演讲)

但是，80%的人都喜欢直接得到方法，why?

爸爸说他听爷爷的姥爷说过，在几十万年前，人类还在狩猎阶段的时候，为了存活下去，才诞生了大脑

而大脑的进化需要上百万年，人类诞生历史不过才二十万年左右，也就是说现在我们还是用着“旧脑子”

其中“旧脑子”一个显著的特点是最小作用力原理，人类天生会默认做出消耗脑力低的行为，即能不用脑就不用脑，而道理的学习用脑程度较高

包括我，每当自己懒得动脑的时候，我就嘲讽自己是个原始人，咳咳…

那么下面，就让我们一步步的进入“战场”

5. 打造百万级词库

词库是用户搜索词和词属性的集合

我们尽可能的收集N个渠道的关键词，因为每个渠道或第三方平台都有他的局限性

在流量高手眼里，词库里躺的不是一个个的关键词，而是一张张的RMB

以搜索流量的视角来看，在大多数情况下，加词等于加流量

你能找到别人找不到的词，你就能拿到别人拿不到的流量，从而赚到别人赚不到的钱

关于数据的储存格式，个人建议直接使用csv形式，以逗号为分隔符的本地文件储存，相比于mysql类的数据库，用Bash shell来查询和分析不要太方便

拿词渠道：

5118，爱站，站长之家。

下面我用5118举例

5.1 母词获取

1)5118

分别下载百度PC关键词和移动关键词，分开处理

知乎蓝海：2000W流量机会掘金指南知乎流量经验心得第13张

没有会员的朋友自行淘宝，有企业版的朋友建议全量导出

接下来的步骤，我们会开始涉及一些编程知识：

Bash shell(Linux) + Python

因为此次数据计算的需求常规工具已经不能满足，所以我们要动用“神秘”的编程力量

我自己已经全部开发完毕，部分简单的Bash shell命令行直接在文章内给出

但是我相信就这一点会让80%的人知难而退，可是包括我，谁又不是从小白一步步走过来的呢?

编程真的没有那么难，trust me!如果可以，告诉自己做那20%

另外请记住，我们不是要成为一个专业的程序员，编程能力能满足我们当前所需就好

2)初始处理

转码(GBK > UTF-8)，因为5118给出的数据编码是GBK，而Linux里需要UTF-8

只输出关键词，不使用其他数据，因为第三方数据的准确度实在差强人意，像5118这种量级每天的更新量少说也要1亿，成本摆在这。

获取前100名第一因为数据准度低，后面我们要自己验证数据第二前面提到过动态排名 & 百度提权，在你获取数据和验证数据中间存在时间差，在时间差里排名可能已经发生了变化。

bash shell：
cat 输入文件名| iconv -c -f GB18030 -t utf-8| grep -Ev "整域百度PC关键词排名列表|百度指数|100以外"|awk -F, '{print $1}' > 输出文件名

3)关键词清理

特殊符号
[\s+\.\!\?\/_,$%^*()+\"\']+|[+——!，:：。√?、~@#￥%……&*()“”《》～]

非常容易忽视的一步，很多人天然信任不同渠道产出的关键词数据(包括百度)，但是“流量高手，”与“流量高手”的搜索量数据差了十万八千里

网址
www|com|cn|cc|top|net|org|net|cn|rog|cn|tv|info|wang|biz|club|top|vip

年份替换，例如2010年替换为2020年
中文长度 >=2 (可选)

4)去敏感词

非法词汇你懂得，这里我们使用了DFA算法，平均处理一个关键词不到0.1s

5) 去重

去重是非常重要的一步，但对内存要求比较高，也就是说你要去重的文件大小不能超过可使用内存大小

目前的解决方法是用sort + uniq，先用split将目标文件分割，然后用sort逐个排序，然后sort+uniq合并去重

虽然没有大幅减少内存使用大小，但提升了计算效率

bash shell 简版：
cat 输入文件名 | sort | uniq > 输入文件名
bash shell 大数据版：
#!/bin/bash#命令行参数：#$1 输入文件#$2 输出文件basepath=$(cd `dirname $0`; pwd)echo `date` "[wordsUniq.sh DEBUG INFO] 开始文件分割..."split -l300000 $1 ${basepath}/words_split/split_ #文件分割echo `date` "[wordsUniq.sh DEBUG INFO] 开始单个排序..."for f in `ls ${basepath}/words_split/`dosort ${basepath}/words_split/${f} > ${basepath}/words_split/${f}.sort #单个排序doneecho `date` "[wordsUniq.sh DEBUG INFO] 开始合并去重..."sort -sm ${basepath}/words_split/*.sort|uniq > $2echo `date` "[wordsUniq.sh DEBUG INFO] 删除缓存数据..."rm ${basepath}/words_split/*

使用方法：