新Alpha前端页面


二级标题联想文本生成20191019

<p><strong>键名字:</strong> 二级标题的切词</p> <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ '刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价' ] } {u'Associate:Secondary_Title:刘德华:Set':[ '刘德华( ^_^ )人物评价', ] }</code></pre> <p><strong>联想文本生成</strong></p> <ol> <li>判断对象的附属信息键如果排除系统属性键名,还有非内部使用的键名,则进入下一步</li> <li>获取对象基本名字</li> <li>进行结巴切词 2.1 对象基本名字和对象附属名字称分别使用结巴切词,cut_all=True 2.1.1 对象基本名字 切词最多保留10个 2.1.2 对象附属名字 切词数量保留10个 2.2 切出来的词从长到短排序 2.2.1 注意事项 对于 中文或者英文的词根,如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一,绝对长度大于等于2,第二,所占的比例大于20%。特殊符号 包括空格 不作为词根出现。 。</li> </ol> <p><strong>优化</strong></p> <ol> <li>建立一个文本映射库,每一个完整的标题和完整的目录都有一个自己独有的10位数数字+字母组成的标志</li> <li>去除掉文本中一些停用词、语气词</li> <li>建立一个目录表 每个目录有一个自己标识</li> <li>建立一个标题表 每个标题有一个自己标识</li> </ol> <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ 'a123456789( ^_^ )a22222222','a111111111( ^_^ )a22222222' ] } {u'Associate:Secondary_Title:刘德华:Set':[ 'a000000000( ^_^ )a22222222', ] }</code></pre> <p><strong>提取过程</strong></p> <ol> <li>先判断搜索文本中最右边是否有目录信息,如果没有,直接结束提取</li> <li> </li> </ol>

页面列表

ITEM_HTML