新Alpha前端页面

文章分析接口

<p><strong>简要描述：</strong> </p> <ul> <li>将文章的中间格式，按照文章和段落以及句子的不同层次的结构进行分析，并将结果写回的接口</li> </ul> <p><strong>请求URL：</strong> </p> <ul> <li><code>api/v1/xadmin/objects/tokenization/</code></li> </ul> <p><strong>请求方式：</strong></p> <ul> <li>POST </li> </ul> <p><strong>参数：</strong> </p> <table> <thead> <tr> <th style="text-align: left;">参数名</th> <th style="text-align: left;">必选</th> <th style="text-align: left;">类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td style="text-align: left;">target_text</td> <td style="text-align: left;">是</td> <td style="text-align: left;">string</td> <td>查询文本</td> </tr> <tr> <td style="text-align: left;">max_word</td> <td style="text-align: left;">否</td> <td style="text-align: left;">int</td> <td>最大分析的文字长度，超出的部分将不予分析</td> </tr> <tr> <td style="text-align: left;">token_number</td> <td style="text-align: left;">否</td> <td style="text-align: left;">int</td> <td>最大的标签数量，返回的，默认全部返回</td> </tr> <tr> <td style="text-align: left;">filter_psglist</td> <td style="text-align: left;">否</td> <td style="text-align: left;">list</td> <td>一个包含所有需要保留的词性的列表，默认为保留所有名词</td> </tr> </tbody> </table> <p>注意：结果的数据直接在传入的json的结构基础上进行加工后返回。分为，文章的总体信息部分，和各个段落的信息部分，目前暂时仅仅开通文章整体的信息部分。</p> <p><strong>返回示例</strong></p> <p>result['articleInfo']中包含了所有文章一个级别的结果。</p> <pre><code>"articleInfo": { "title": "就在4月9日，世界发生了两件非同寻常的大事！", "source_kw": ["日本", "战斗机", "土耳其"],//员文章带有的标签 "ana_kw": ["钓鱼岛", "自卫队", "国防"],//经过分析获取的标签 "all_tags": [（"日本"，0.33）, （"战斗机"，0.25）, （"土耳其"，0.2）, （"俄罗斯",0.1）, ("钓鱼岛",0.12), ("自卫队",0.08)],//合并融合后的标签,带有标签的关联强度 "ccomp":[(u"社会",0.2),(u"国家",0.2),(u"军事",0.2),(u"政治",0.2)],//计算分析得出的概念分布，每一个概念后面的小数是百分数 "new_words": [("自卫队",2),("南海",3),("巡航导弹",4)],//本文章出现的新单词，即匹配中没有结果的词，后面是出现的次数 "time": "2019-04-10 09:23",//文章的时间，注意是文章内容所指定的时间不是抓取时间 "word_num": 2838, "image_num": 10, "paragraph_num": 22, }, "match_table"://匹配信息的查询表，里面记录了所有匹配到的单词的信息，为了节省空间，所有的单词的解释都会统一出现在这个地方。没有经过分析的时候，这个字典是空的 { "日本":{ //每一个单词都是显示了最基本很的匹配信息，不包括出现的具体位置，包括出现的 'pkey': u 'c1_QzD4oAvG', 'obj_number': 1, 'psg': u 'ns',//词性 'is_newword': 'false', 'concept_number': 0, 'cname': u '国家', 'freq': 6,//单词的出现频度 'adjusted_weight': 33948.0, 'weight': 1200, "objects":[(k1,f1),(k2,f2),....],//如果是对象匹配则会专门有一个列表显示主键 }, "美国":{....}, "战斗机":{....}, "航空母舰":{....}, }, "paragraph"://保存文章的段落，为了方便内容索引需求，文章的段落部分被组织成为一个字典， { "p1"://每一个段落使用段落的编号作为字典的键名字 { "id":"p1" "title": "就在4月9日，世界发生了两件非同寻常的大事！", "link": "http://p3.pstatp.com/large/", "class": "img",//class 代表段落的内容类型img,div }, "p2": { "id":"p2" "title": "就在4月9日，世界发生了两件非同寻常的大事！", "link": "http://p1.pstatp.com/large/pgc", "class": "img", "img_count": "1" }, "p3": { "id":"p3" "title": "按照惯例，重大新闻特朗普首发——作为",//段落的标题 "sentences": ["1865年的这一天，美国南北战争结束，南方总司令李将军投降；1936年的这一天，周恩来和张学良秘密会晤，后来就有了改变中国历史进程的西安事变。"], "class": "div",//段落的类型 "wc": 71,//段落的文字数 "sc": 3,//段落的句子数 "kw": [("日本",0.3), ("战斗机",0.22)],//段落标签，标签以及标签的关联强度 "tw":['1865年'],//段落中句子包含的时间对象 "ow":['第一节','第二节'],//段落中句子包含的序号对象 "match_info"://所有的句子的匹配结果，按照句子实际出现的顺序写入，记录了最为原始的匹配信息。每一个匹配项都包括匹配的开始位置，结束位置，匹配类型， [ {"st":0,"ed":5,"txt":"1865年","mtyhpe":"normal",}, {"st":6,"ed":7,"txt":"的","mtyhpe":"normal"}, {"st":8,"ed":10,"txt":"这一天","mtyhpe":"normal"}, ] }, } }</code></pre> <p>欢迎使用ShowDoc！~~~~</p>

页面列表