新Alpha前端页面

二级标题联想文本生成20191019

键名字： 二级标题的切词 <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ '刘德华( ^_^ )人物评价','陈龙( ^_^ )人物评价' ] } {u'Associate:Secondary_Title:刘德华:Set':[ '刘德华( ^_^ )人物评价', ] }</code></pre> 联想文本生成 <ol> <li>判断对象的附属信息键如果排除系统属性键名，还有非内部使用的键名，则进入下一步</li> <li>获取对象基本名字</li> <li>进行结巴切词 2.1 对象基本名字和对象附属名字称分别使用结巴切词，cut_all=True 2.1.1 对象基本名字切词最多保留10个 2.1.2 对象附属名字切词数量保留10个 2.2 切出来的词从长到短排序 2.2.1 注意事项对于中文或者英文的词根，如果满足一下两个条件之一则可以作为词根放入。注意是或者的关系。第一，绝对长度大于等于2，第二，所占的比例大于20%。特殊符号包括空格不作为词根出现。。</li> </ol> 优化 <ol> <li>建立一个文本映射库，每一个完整的标题和完整的目录都有一个自己独有的10位数数字+字母组成的标志</li> <li>去除掉文本中一些停用词、语气词</li> <li>建立一个目录表每个目录有一个自己标识</li> <li>建立一个标题表每个标题有一个自己标识</li> </ol> <pre><code>刘德华( ^_^ )人物评价 {u'Associate:Secondary_Title:人物:Set':[ 'a123456789( ^_^ )a22222222','a111111111( ^_^ )a22222222' ] } {u'Associate:Secondary_Title:刘德华:Set':[ 'a000000000( ^_^ )a22222222', ] }</code></pre> 提取过程 <ol> <li>先判断搜索文本中最右边是否有目录信息，如果没有，直接结束提取</li> <li> </li> </ol>

页面列表