二级标题联想文本生成20191019
<p><strong>键名字:</strong>
二级标题的切词</p>
<pre><code>刘德华( ^_^ )人物评价
{u'Associate:Secondary_Title:人物:Set':[
'刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价'
]
}
{u'Associate:Secondary_Title:刘德华:Set':[
'刘德华( ^_^ )人物评价',
]
}</code></pre>
<p><strong>联想文本生成</strong></p>
<ol>
<li>判断对象的附属信息键如果排除系统属性键名,还有非内部使用的键名,则进入下一步</li>
<li>获取对象基本名字</li>
<li>进行结巴切词
2.1 对象基本名字和对象附属名字称分别使用结巴切词,cut_all=True
2.1.1 对象基本名字 切词最多保留10个
2.1.2 对象附属名字 切词数量保留10个
2.2 切出来的词从长到短排序
2.2.1 注意事项
对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。
。</li>
</ol>
<p><strong>优化</strong></p>
<ol>
<li>建立一个文本映射库,每一个完整的标题和完整的目录都有一个自己独有的10位数数字+字母组成的标志</li>
<li>去除掉文本中一些停用词、语气词</li>
<li>建立一个目录表 每个目录有一个自己标识</li>
<li>建立一个标题表 每个标题有一个自己标识</li>
</ol>
<pre><code>刘德华( ^_^ )人物评价
{u'Associate:Secondary_Title:人物:Set':[
'a123456789( ^_^ )a22222222','a111111111( ^_^ )a22222222'
]
}
{u'Associate:Secondary_Title:刘德华:Set':[
'a000000000( ^_^ )a22222222',
]
}</code></pre>
<p><strong>提取过程</strong></p>
<ol>
<li>先判断搜索文本中最右边是否有目录信息,如果没有,直接结束提取</li>
<li>
</li>
</ol>