新Alpha前端页面

联想文本生成

<h3>联想文本生成20191024</h3> <ol> <li>前缀生成 1.1 对象标准名/别称，如果长度大于15，则跳过前缀切词 1.2 如果对象标准名/别称是特殊符号开头，则往后取，一直到文本不是有特殊符号开头。 1.3 取对象标准名和别称前四个字如撒哈拉的故事切词结果为：撒、撒哈、撒哈拉、撒哈拉的 1.4 将前缀切词的结果写入有序列表中，最多存储为4000个字，如果相同文本，按照权重进行淘汰，高权重淘汰低权重，如果存储文本大于4000，那么淘汰低权重文本</li> <li>切词 2.1 分别对对象基本名/别称使用结巴切词 2.1.1 对象基本名或别称长度小于4，则不进行结巴切词 2.1.2 每个文本，最多切10个词根 2.1.3 词根不能以特殊符号开头 2.1.4 词根长度如果等于1，必须满足1/文本总长达>0.2,否则不作为词根 2.1.5 词根必须属于中文、英文 2.1.6 词根长度等于，如果是英文和数字，不作为词根 2.2 词根保存（存储数量不限制） 2.2.1 对象基本名/别称长度小于6，则存储到联想文本短文本表中 2.2.2 对象基本名/别称长度大于6 小于15，则存储到联想文本中等长度文本表中 2.2.3 对象基本名/别称长度大15，则存储到联想文本长文本表中 <h3>联想文本生成</h3></li> <li>获取对象基本名字和别称</li> <li>进行前缀切词，最长为4 2.1 如果名字长度大于15，则没有进行前缀切词 2.2 如撒哈拉的故事切词结果为：撒、撒哈、撒哈拉、撒哈拉的 2.3 将前缀切词的结果写入有序列表中，最多存储为4000个字，如果相同文本，按照权重进行淘汰，高权重淘汰低权重，如果存储文本大于4000，那么淘汰低权重文本 2.4 Associate:Text_Min_Score:Hash 存储词根对应的最小权重值</li> <li>进行结巴切词 3.1 对象基本名和别称使用结巴切词 3.2 对象基本名和别称文本长度必须要大于等于5，如果小于不进行切词 3.3 切出来的词从长到短排序 3.3.1 注意事项，如果词根是纯数字、纯英文，最小长度需要大于等2</li> </ol> <p>陆洋对于逻辑的修改： 2.2 前缀词根不可以是特殊符号或者是空格。因此，任何单词在确定开始截取的时候，都要首先找到第一个非特殊字符的开始位置。 3.2 对象基本名和别称文本长度必须要大于等于5 改为大于等于4 3.3.1 对于中文或者英文的词根，如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一，绝对长度大于等于2，第二，所占的比例大于20%。特殊符号包括空格不作为词根出现。 3.3.1 保留的总切词词根数，上升为10个。</p>

页面列表