新Alpha前端页面

二级标题联想文本生成

<h1>新版20191008</h1> 键名字： 二级标题的切词 <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ '刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价' ] } {u'Associate:Secondary_Title:刘德华:Set':[ '刘德华( ^_^ )人物评价', ] }</code></pre> 联想文本生成 <ol> <li>判断对象的附属信息键如果排除系统属性键名，还有非内部使用的键名，则进入下一步</li> <li>获取对象基本名字和别称</li> <li>进行结巴切词 2.1 对象基本名字和对象附属名字称分别使用结巴切词 2.1.1 对象基本名字切词最多保留10个 2.1.2 对象附属名字切词数量保留10个（一般是1-3个） 2.2 切出来的词从长到短排序 2.2.1 注意事项对于中文或者英文的词根，如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一，绝对长度大于等于2，第二，所占的比例大于20%。特殊符号包括空格不作为词根出现。 2.2.2 保留的总切词词根数，上升为10个。</li> </ol> <h1>老版</h1> 键名字： 二级标题的切词 <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ '刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价' ] } {u'Associate:Secondary_Title:刘德华:Set':[ '刘德华( ^_^ )人物评价', ] }</code></pre> 用来存储所有二级标题前缀词 <pre><code>{u'Associate:Prefix_Text:All_Key:SortedSet': {'刘德':400} }</code></pre> 联想文本生成 获取对象基本名字和别称进行前缀切词，最长为4 2.1 如果名字长度大于15，则没有进行前缀切词 2.2 如刘德华附属信息——人物评价切词结果为：人、人物、人物评、人物评价前缀词根不可以是特殊符号或者是空格。因此，任何单词在确定开始截取的时候，都要首先找到第一个非特殊字符的开始位置。 2.3 将前缀切词的结果写入有序列表中，最多存储为4000个字，如果相同文本，按照权重进行淘汰，高权重淘汰低权重，如果存储文本大于4000，那么淘汰低权重文本 2.4 Associate:Text:Second_Title:Min_Score:Hash 存储词根对应的最小权重值进行结巴切词 3.1 对象附属名字称使用结巴切词 3.2 对象对象附属名字，如果以下划线开头或者是baike_id，baike_url，则不进行切词 3.3 切出来的词从长到短排序 3.3.1 注意事项对于中文或者英文的词根，如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一，绝对长度大于等于2，第二，所占的比例大于20%。特殊符号包括空格不作为词根出现。 3.3.2 保留的总切词词根数，上升为10个。

页面列表