二级联想文本检测流程
<h3>二级联想文本检测流程20191108</h3>
<table>
<thead>
<tr>
<th style="text-align: left;">参数名</th>
<th style="text-align: left;">必选</th>
<th style="text-align: left;">类型</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align: left;">obj_key</td>
<td style="text-align: left;">是</td>
<td style="text-align: left;">string</td>
<td>对象主键</td>
</tr>
<tr>
<td style="text-align: left;">concept_name</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>概念名</td>
</tr>
<tr>
<td style="text-align: left;">obj_name</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象基本名</td>
</tr>
<tr>
<td style="text-align: left;">obj_roots</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象基本名词根</td>
</tr>
<tr>
<td style="text-align: left;">property_name</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象附属名</td>
</tr>
<tr>
<td style="text-align: left;">property_roots</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象附属名词根</td>
</tr>
</tbody>
</table>
<p>概念范围:u'图片新闻,娱乐类文章,现代与历史类新闻,知识类文章,社会类新闻,人物新闻,热点事件'
总共对象数量:4641800
预计全部导出时间为:2天</p>
<p>检查:
利用mysql模糊查询,先把查询的文本进行结巴切词,然后模糊查询词根,最后获取结果进行对比。</p>
<h3>二级联想文本检测流程20191108</h3>
<ol>
<li>导出指定概念(如现代与历史类新闻、图片新闻等其中一个概念)所有对象的词根到mysql</li>
</ol>
<table>
<thead>
<tr>
<th style="text-align: left;">参数名</th>
<th style="text-align: left;">必选</th>
<th style="text-align: left;">类型</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align: left;">root</td>
<td style="text-align: left;">是</td>
<td style="text-align: left;">string</td>
<td>词根</td>
</tr>
<tr>
<td style="text-align: left;">obj_key</td>
<td style="text-align: left;">是</td>
<td style="text-align: left;">string</td>
<td>对象主键</td>
</tr>
<tr>
<td style="text-align: left;">concept_name</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>概念名</td>
</tr>
<tr>
<td style="text-align: left;">obj_name</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象基本名</td>
</tr>
<tr>
<td style="text-align: left;">obj_roots</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象基本名词根</td>
</tr>
<tr>
<td style="text-align: left;">property_name</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象附属名</td>
</tr>
<tr>
<td style="text-align: left;">property_roots</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>对象附属名词根</td>
</tr>
</tbody>
</table>
<h2>检查二级联想文本数据结果正确性。</h2>
<ol>
<li>假设使用二级联想文本算法搜索"金庸世界小说" 得到结果A</li>
<li>使用mysql语句,分别提取金庸、世界、小说这三个词根对应的文本,然后取交集数据,得到结果B</li>
<li>检查结果
3.1 先判断A和B结果数量是否一致,然后判断A和B的结果是否一样,如果一样,代码算法没有问题。
3.2 如果不一样,标记是A的结果多了,还是少了,A的结果对的成功数量,错误数量。错误的明细,正确的明细。什么原因导致数据不一致,是词根问题,还是算法本身问题等。
3.3 数据不一致,调整联想文本算法,重新测试。</li>
<li>记录算法每一次运行时间,准确率、输出结果,对比结果等数据。</li>
</ol>
<h2>算法验证开发流程</h2>
<ol>
<li>手动对比数据结果 少数据测试</li>
<li>开发算法验证函数</li>
<li>测试算法验证函数准确性</li>
<li>小范围数据测试算法验证函数准确性</li>
<li>使用联想文本算法和算法验证函数进行联动测试,检查算法准确性。</li>
<li>输出测试报告
6.1 测试报告包含信息:搜素词,耗时,结果是否准确,二级联想文本算法结果,mysql提取结果。</li>
</ol>