新Alpha前端页面


联想文本生成

<h3>联想文本生成20191024</h3> <ol> <li>前缀生成 1.1 对象标准名/别称,如果长度大于15,则跳过前缀切词 1.2 如果对象标准名/别称是特殊符号开头,则往后取,一直到文本不是有特殊符号开头。 1.3 取对象标准名和别称前四个字 如撒哈拉的故事 切词结果为:撒、撒哈、撒哈拉、撒哈拉的 1.4 将前缀切词的结果写入有序列表中,最多存储为4000个字,如果相同文本,按照权重进行淘汰,高权重淘汰低权重,如果存储文本大于4000,那么淘汰低权重文本</li> <li>切词 2.1 分别对对象基本名/别称使用结巴切词 2.1.1 对象基本名或别称长度小于4,则不进行结巴切词 2.1.2 每个文本,最多切10个词根 2.1.3 词根不能以特殊符号开头 2.1.4 词根长度如果等于1,必须满足1/文本总长达&gt;0.2,否则不作为词根 2.1.5 词根必须属于中文、英文 2.1.6 词根长度等于,如果是英文和数字,不作为词根 2.2 词根保存(存储数量不限制) 2.2.1 对象基本名/别称长度小于6,则存储到联想文本短文本表中 2.2.2 对象基本名/别称长度大于6 小于15,则存储到联想文本中等长度文本表中 2.2.3 对象基本名/别称长度大15,则存储到联想文本长文本表中 <h3>联想文本生成</h3></li> <li>获取对象基本名字和别称</li> <li>进行前缀切词,最长为4 2.1 如果名字长度大于15,则没有进行前缀切词 2.2 如撒哈拉的故事 切词结果为:撒、撒哈、撒哈拉、撒哈拉的 2.3 将前缀切词的结果写入有序列表中,最多存储为4000个字,如果相同文本,按照权重进行淘汰,高权重淘汰低权重,如果存储文本大于4000,那么淘汰低权重文本 2.4 Associate:Text_Min_Score:Hash 存储词根对应的最小权重值</li> <li>进行结巴切词 3.1 对象基本名和别称使用结巴切词 3.2 对象基本名和别称文本长度必须要大于等于5,如果小于不进行切词 3.3 切出来的词从长到短排序 3.3.1 注意事项,如果词根是纯数字、纯英文,最小长度需要大于等2</li> </ol> <p>陆洋对于逻辑的修改: 2.2 前缀词根不可以是特殊符号或者是空格。因此,任何单词在确定开始截取的时候,都要首先找到第一个非特殊字符的开始位置。 3.2 对象基本名和别称文本长度必须要大于等于5 改为 大于等于4 3.3.1 对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。 3.3.1 保留的总切词词根数,上升为10个。</p>

页面列表

ITEM_HTML