二级标题联想文本生成
<h1>新版20191008</h1>
<p><strong>键名字:</strong></p>
<p>二级标题的切词</p>
<pre><code>刘德华( ^_^ )人物评价
{u'Associate:Secondary_Title:人物:Set':[
'刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价'
]
}
{u'Associate:Secondary_Title:刘德华:Set':[
'刘德华( ^_^ )人物评价',
]
}</code></pre>
<p><strong>联想文本生成</strong></p>
<ol>
<li>判断对象的附属信息键如果排除系统属性键名,还有非内部使用的键名,则进入下一步</li>
<li>获取对象基本名字和别称</li>
<li>进行结巴切词
2.1 对象基本名字和对象附属名字称分别使用结巴切词
2.1.1 对象基本名字 切词最多保留10个
2.1.2 对象附属名字 切词数量保留10个(一般是1-3个)
2.2 切出来的词从长到短排序
2.2.1 注意事项
对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。
2.2.2 保留的总切词词根数,上升为10个。</li>
</ol>
<h1>老版</h1>
<p>键名字:</p>
<p>二级标题的切词</p>
<pre><code>刘德华( ^_^ )人物评价
{u'Associate:Secondary_Title:人物:Set':[
'刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价'
]
}
{u'Associate:Secondary_Title:刘德华:Set':[
'刘德华( ^_^ )人物评价',
]
}</code></pre>
<p>用来存储所有二级标题前缀词</p>
<pre><code>{u'Associate:Prefix_Text:All_Key:SortedSet':
{'刘德':400}
}</code></pre>
<p>联想文本生成</p>
<p>获取对象基本名字和别称
进行前缀切词,最长为4
2.1 如果名字长度大于15,则没有进行前缀切词
2.2 如刘德华附属信息——人物评价 切词结果为:人、人物、人物评、人物评价
前缀词根不可以是特殊符号或者是空格。因此,任何单词在确定开始截取的时候,都要首先找到第一个非特殊字符的开始位置。
2.3 将前缀切词的结果写入有序列表中,最多存储为4000个字,如果相同文本,按照权重进行淘汰,高权重淘汰低权重,如果存储文本大于4000,那么淘汰低权重文本
2.4 Associate:Text:Second_Title:Min_Score:Hash 存储词根对应的最小权重值
进行结巴切词
3.1 对象附属名字称使用结巴切词
3.2 对象对象附属名字,如果以下划线开头或者是baike_id,baike_url,则不进行切词
3.3 切出来的词从长到短排序
3.3.1 注意事项
对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。
3.3.2 保留的总切词词根数,上升为10个。</p>