新Alpha前端页面


二级联想文本检测流程

<h3>二级联想文本检测流程20191108</h3> <table> <thead> <tr> <th style="text-align: left;">参数名</th> <th style="text-align: left;">必选</th> <th style="text-align: left;">类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td style="text-align: left;">obj_key</td> <td style="text-align: left;">是</td> <td style="text-align: left;">string</td> <td>对象主键</td> </tr> <tr> <td style="text-align: left;">concept_name</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>概念名</td> </tr> <tr> <td style="text-align: left;">obj_name</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象基本名</td> </tr> <tr> <td style="text-align: left;">obj_roots</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象基本名词根</td> </tr> <tr> <td style="text-align: left;">property_name</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象附属名</td> </tr> <tr> <td style="text-align: left;">property_roots</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象附属名词根</td> </tr> </tbody> </table> <p>概念范围:u'图片新闻,娱乐类文章,现代与历史类新闻,知识类文章,社会类新闻,人物新闻,热点事件' 总共对象数量:4641800 预计全部导出时间为:2天</p> <p>检查: 利用mysql模糊查询,先把查询的文本进行结巴切词,然后模糊查询词根,最后获取结果进行对比。</p> <h3>二级联想文本检测流程20191108</h3> <ol> <li>导出指定概念(如现代与历史类新闻、图片新闻等其中一个概念)所有对象的词根到mysql</li> </ol> <table> <thead> <tr> <th style="text-align: left;">参数名</th> <th style="text-align: left;">必选</th> <th style="text-align: left;">类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td style="text-align: left;">root</td> <td style="text-align: left;">是</td> <td style="text-align: left;">string</td> <td>词根</td> </tr> <tr> <td style="text-align: left;">obj_key</td> <td style="text-align: left;">是</td> <td style="text-align: left;">string</td> <td>对象主键</td> </tr> <tr> <td style="text-align: left;">concept_name</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>概念名</td> </tr> <tr> <td style="text-align: left;">obj_name</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象基本名</td> </tr> <tr> <td style="text-align: left;">obj_roots</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象基本名词根</td> </tr> <tr> <td style="text-align: left;">property_name</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象附属名</td> </tr> <tr> <td style="text-align: left;">property_roots</td> <td style="text-align: left;">否</td> <td style="text-align: left;">string</td> <td>对象附属名词根</td> </tr> </tbody> </table> <h2>检查二级联想文本数据结果正确性。</h2> <ol> <li>假设使用二级联想文本算法搜索&quot;金庸世界小说&quot; 得到结果A</li> <li>使用mysql语句,分别提取金庸、世界、小说这三个词根对应的文本,然后取交集数据,得到结果B</li> <li>检查结果 3.1 先判断A和B结果数量是否一致,然后判断A和B的结果是否一样,如果一样,代码算法没有问题。 3.2 如果不一样,标记是A的结果多了,还是少了,A的结果对的成功数量,错误数量。错误的明细,正确的明细。什么原因导致数据不一致,是词根问题,还是算法本身问题等。 3.3 数据不一致,调整联想文本算法,重新测试。</li> <li>记录算法每一次运行时间,准确率、输出结果,对比结果等数据。</li> </ol> <h2>算法验证开发流程</h2> <ol> <li>手动对比数据结果 少数据测试</li> <li>开发算法验证函数</li> <li>测试算法验证函数准确性</li> <li>小范围数据测试算法验证函数准确性</li> <li>使用联想文本算法和算法验证函数进行联动测试,检查算法准确性。</li> <li>输出测试报告 6.1 测试报告包含信息:搜素词,耗时,结果是否准确,二级联想文本算法结果,mysql提取结果。</li> </ol>

页面列表

ITEM_HTML