文本切割
<p><strong>文本切割</strong></p>
<ol>
<li>指定概念名,预先设定过滤名单,最小分词长度</li>
<li>检查概念是否命名有效,如果无效结束</li>
<li>获取概念对应的所有主键obj_keys,遍历主键</li>
<li>将对象基本主键名进行切词
4.1 判断对象基本名是否长度小于4,如果是结束
4.2 将对象基本名进行特殊符号进行分割(如逗号,句号等特殊字符),得到一个列表text_li
4.3 遍历字典,如果字典中temp字符长度为小于等于1,跳过,判断temp长度除以基本名长度大于0.25,保存数据
或者是temp长度大于等4 保存数据</li>
<li>开始遍历text_li
5.1 检查text是否是中文或者英文,如果不是跳过
5.2 进行[1,2,3,5,7,10,15]这个长度的n个字符切词法
5.3 检查text是否小于最小切词长度,如果不是,继续
5.4 使用结巴切词,然后去重,按照长度从长到短排序,保存前5个文本</li>
</ol>
<p>英文 全部小写
词根
初始状态为 1 </p>
<p>词根全部写入到有序集合,统计次数</p>
<p>词根
[1,2,3,4,5,6,7,10,15]</p>
<p>映射分页</p>
<p>按照,长度进行排除,长会被排除</p>
<p><strong>codis</strong>
调整concept.py中
删除对象和删除概念
之前使用key(),遍历调用</p>
<p>cache.py中去除keys方法</p>