主体抽取接口
<p><strong>简要描述:</strong> </p>
<ul>
<li>从一段文字中(长度足够长)分析出重要的主体词汇,以及词汇与词汇之间的关系。</li>
</ul>
<p><strong>请求URL:</strong> </p>
<ul>
<li><code>api/v1/xadmin/objects/tokenization/</code></li>
</ul>
<p><strong>请求方式:</strong></p>
<ul>
<li>POST </li>
</ul>
<p><strong>参数:</strong> </p>
<table>
<thead>
<tr>
<th style="text-align: left;">参数名</th>
<th style="text-align: left;">必选</th>
<th style="text-align: left;">类型</th>
<th>说明</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align: left;">target_text</td>
<td style="text-align: left;">是</td>
<td style="text-align: left;">string</td>
<td>查询文本</td>
</tr>
<tr>
<td style="text-align: left;">sent_splitter</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">string</td>
<td>句子与句子之间的切分正则,默认为回车以及中英文句号</td>
</tr>
<tr>
<td style="text-align: left;">max_sent_len</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">int</td>
<td>一个句子的最大长度,默认为100,超过这个长度,即使没有包含分隔符,也算一个独立的句子</td>
</tr>
<tr>
<td style="text-align: left;">token_number</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">int</td>
<td>最大的标签数量,返回的,默认全部返回</td>
</tr>
<tr>
<td style="text-align: left;">filter_psglist</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">list</td>
<td>一个包含所有需要过滤的词性的列表</td>
</tr>
<tr>
<td style="text-align: left;">max_match_number</td>
<td style="text-align: left;">否</td>
<td style="text-align: left;">int</td>
<td>每个文字的主键最大匹配数量</td>
</tr>
</tbody>
</table>
<p>注意:
filter_psglist,max_match_number暂时无效</p>
<p><strong>返回示例</strong></p>
<pre><code>{
"status": 1,
"message": "success",
"resultObj": {
"success_data": {
"selected_key_words": [
{
"raw_text": "独立宣言",//原始文本
"times":4,//该标签一共出现了多少次
"rank":1,//该关键词的顺序排名
"adjusted_weight":403,//该对象或者概念的调整后权重
"weight": 33.0,//该标签的原始权重
"psg": "n",//词性,由jieba切词提供的词性标记
"rel_words": [(u"美国",0.2,u"in"),(u"大陆",0.3,u"out")],//所有的相关关键词,关键词和关联的强度。
"is_newword": "true",//是否为被识别出来的新单词,如果是新单词则即不是对象匹配也不是概念匹配
"obj_number": 2,//对象数量,如果为0则没有对象匹配
"concept_number": 0,//概念数量,如果为0则没有概念匹配
"pkey": "c54_qzthn46n",//第一主键,如果匹配的是对象,则是第一个对象的主键
"cname": "人物",//第一主键对应的概念名,或者概念名本身如果是概念匹配,如果是没有内部匹配的情况,这里是none
"all_objs": [(c54_qzthn46n,u"人物",99),(....),],//全对象列表,所有匹配到的,并且没有被淘汰的对象信息,主键,概念,和权重。
},
{
...
}
],
"text_stream": [ //这里返回被切分后的段落列表
{
"raw_text": "独立宣言是美国第一个相当于想法的文件,",//原始文本
"key_words": [u"美国",u"独立宣言"],//在当前段落中,包含的主体关键词
"total_weight":33600,//段落包含的所有主体关键词的总权重
"startPos":0,//段落的开始位置
"endPos":24,//段落的结束位置
"setence_segmentation":[//这个句子的切分结果,结果的形态与一般匹配的接口的返回数据格式相同。
{},
{},
...
]
},
{
"raw_text": "起草的人包括杰斐逊,华盛顿等几十个开国元老,",//原始文本
"key_words": [u"杰斐逊",u"华盛顿"],//在当前段落中,包含的主体关键词
"total_weight":13600,//段落包含的所有主体关键词的总权重
"startPos":25,//段落的开始位置
"endPos":33,//段落的结束位置
"setence_segmentation":
},
....
],
},
}
}</code></pre>
<p>欢迎使用ShowDoc!~~~~</p>