新Alpha前端页面


二级标题联想文本生成

<h1>新版20191008</h1> <p><strong>键名字:</strong></p> <p>二级标题的切词</p> <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ '刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价' ] } {u'Associate:Secondary_Title:刘德华:Set':[ '刘德华( ^_^ )人物评价', ] }</code></pre> <p><strong>联想文本生成</strong></p> <ol> <li>判断对象的附属信息键如果排除系统属性键名,还有非内部使用的键名,则进入下一步</li> <li>获取对象基本名字和别称</li> <li>进行结巴切词 2.1 对象基本名字和对象附属名字称分别使用结巴切词 2.1.1 对象基本名字 切词最多保留10个 2.1.2 对象附属名字 切词数量保留10个(一般是1-3个) 2.2 切出来的词从长到短排序 2.2.1 注意事项 对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。 2.2.2 保留的总切词词根数,上升为10个。</li> </ol> <h1>老版</h1> <p>键名字:</p> <p>二级标题的切词</p> <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ '刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价' ] } {u'Associate:Secondary_Title:刘德华:Set':[ '刘德华( ^_^ )人物评价', ] }</code></pre> <p>用来存储所有二级标题前缀词</p> <pre><code>{u'Associate:Prefix_Text:All_Key:SortedSet': {'刘德':400} }</code></pre> <p>联想文本生成</p> <p>获取对象基本名字和别称 进行前缀切词,最长为4 2.1 如果名字长度大于15,则没有进行前缀切词 2.2 如刘德华附属信息——人物评价 切词结果为:人、人物、人物评、人物评价 前缀词根不可以是特殊符号或者是空格。因此,任何单词在确定开始截取的时候,都要首先找到第一个非特殊字符的开始位置。 2.3 将前缀切词的结果写入有序列表中,最多存储为4000个字,如果相同文本,按照权重进行淘汰,高权重淘汰低权重,如果存储文本大于4000,那么淘汰低权重文本 2.4 Associate:Text:Second_Title:Min_Score:Hash 存储词根对应的最小权重值 进行结巴切词 3.1 对象附属名字称使用结巴切词 3.2 对象对象附属名字,如果以下划线开头或者是baike_id,baike_url,则不进行切词 3.3 切出来的词从长到短排序 3.3.1 注意事项 对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。 3.3.2 保留的总切词词根数,上升为10个。</p>

页面列表

ITEM_HTML