新Alpha前端页面

混合切词

杉果国庆最后一天，这里有你没发现的好游戏推荐 h:最后一天|||杉果|||这里|||有你|||没发|||好游|||推荐 j:国庆|||最后|||一天|||这里|||发现|||游戏|||推荐 我报道︱大家各种积分都在兑换奖品，你知道汉阴党员积分制兑换什么吗？ h:你知道|||我报|||大家|||各种|||积分|||兑换|||奖品|||汉阴|||党员|||什么 j:报道|||大家|||各种|||积分|||兑换|||奖品|||知道|||汉阴|||党员|||什么 腾讯爱奇艺优酷20多部网剧集体扑街，《白夜追凶》之后再无爆款？ h:白夜追凶|||爱奇艺|||腾讯|||优酷|||20|||多部|||网剧|||集体|||扑街|||之后 q:腾讯|||20|||多部|||剧集|||集体|||扑街|||白夜|||追凶|||之后 《无敌破坏王2》不够无敌，“圈地自萌”的迪士尼无缘10亿+ h:无敌破坏王2|||圈地自萌|||迪士尼|||10亿|||不够|||无敌|||无缘 q:迪士尼|||无敌|||破坏|||不够|||圈地|||无缘|||10 12星座暗恋你的人会主动表白吗？ h:12星座|||暗恋|||人会|||主动|||表白 q:12|||星座|||暗恋|||会主|||主动|||表白 玩过《我的世界》中国版，我想今后玩家可能都不会再玩盗版了 h:我的世界|||玩过|||中国|||我想|||今后|||玩家|||可能|||不会|||盗版 q:世界|||中国|||今后|||玩家|||可能|||不会|||盗版 聪明的女人最好命 h:聪明的|||女人|||最好 q:聪明|||女人|||最好 新兵下连不适应怎么办？这6个锦囊拿走不谢！ h:怎么办？|||新兵|||下连|||不适|||锦囊|||拿走|||不谢 q:怎么办|||新兵|||不适|||适应|||怎么|||锦囊|||拿走 绝地求生又要凉凉?玩家最高在线跌破百万,海岛图还被改的面目全非 h:绝地求生|||面目全非|||凉凉|||玩家|||最高|||在线|||跌破|||百万|||海岛 q:面目全非|||绝地|||求生|||凉凉|||玩家|||最高|||在线|||跌破|||破百|||百万 还在等什么？薛之谦带你抢购618万元免单机会 h:618万|||什么？|||薛之谦|||还在|||抢购|||免单|||机会 ApplePay不是一种支付技术而是一个生态圈 h:applepay|||生态圈|||不是|||一种|||支付|||技术|||而是|||一个 q:applepay|||生态圈|||不是|||一种|||支付|||技术|||而是|||一个|||生态 注意！这里有网文拍烂片的5个大坑 h:注意！|||这里|||网文|||烂片|||大坑 q:注意|||这里|||网文|||烂片|||大坑 《千里江山图》后，故宫历代青绿山水画特展《江山秋色图》接棒 h:千里江山图|||江山秋色图|||青绿山水|||故宫|||历代|||特展|||接棒 q:山水画|||千里|||江山|||故宫|||历代|||青绿|||绿山|||山水|||特展|||秋色 两周100万人参与，新增40万用户，拆解支付宝小程序运营招式 h:100万|||40万|||支付宝|||小程序|||两周|||人参|||新增|||用户|||拆解|||运营 q:100|||支付宝|||两周|||人参|||参与|||新增|||40|||用户|||拆解|||支付 第248期｜真迹只能被认知，无法被证明 h:第2|||48|||真迹|||只能|||认知|||无法|||证明 爱上轻熟女，让男人更享受生活 h:爱上|||轻熟|||让男|||享受|||生活 j:爱上--轻--熟女--，--让--男人--更--享受--生活 Q:爱--上--轻--熟女------让--男人--更--享受--生活 是时候和孩子在2017年到来前，一起做个总结了词根问题是时候|||017|||孩子|||在2|||到来|||一起|||做个|||总结在2是一个对象 为什么你总是无法提高自己的情商？ h:为什么|||总是|||无法|||提高|||自己|||的情 修改的代码 PandoraSearch\SearchAndRecommentdation\SentenceSegmentation\MixedSegmentation.py <pre><code> def computeBlockScore(terms): scoresum = 0.0 counter = 0.0 temp_li=[] for t in terms: text = t.getRawText() if re.match(mapManager.pattern,text): continue if t.getConceptNumber() == 0 and t.getObjectNumber() == 0: weight=1000 else: weight = t.getWeight() temp_li.append(text) if weight > 20000: scoresum += 2000 else: tlen = len(text) factor = computeWordLenScoreFactor(tlen) scoresum += weight * factor counter += 1 score=0.0 if counter > 0: score= scoresum / counter # print ','.join(temp_li),score return score def computeWordLenScoreFactor(word_len): if word_len == 1: return 0.1 elif word_len == 2: return 1.0 elif word_len == 3: return 1.2 else: return 1.6 def mixedSentenceSegmentation(input_text, filterPSGList=None, isDebug=False): 145行 if len(or_term1) == 1 and get_primary_lang(or_term1[0].getRawText()) == 'english': score1 = 2 score2 = 0 else: score1 = computeBlockScore(or_term1) print 'or_term1-->', score1 score2 = computeBlockScore(or_term2) print 'or_term2-->',score2</code></pre>

页面列表