新Alpha前端页面


文章分析接口

<p><strong>简要描述:</strong> </p> <ul> <li>将文章的中间格式,按照文章和段落以及句子的不同层次的结构进行分析,并将结果写回的接口</li> </ul> <p><strong>请求URL:</strong> </p> <ul> <li><code>api/v1/xadmin/objects/tokenization/</code></li> </ul> <p><strong>请求方式:</strong></p> <ul> <li>POST </li> </ul> <p><strong>参数:</strong> </p> <table> <thead> <tr> <th style="text-align: left;">参数名</th> <th style="text-align: left;">必选</th> <th style="text-align: left;">类型</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td style="text-align: left;">target_text</td> <td style="text-align: left;">是</td> <td style="text-align: left;">string</td> <td>查询文本</td> </tr> <tr> <td style="text-align: left;">max_word</td> <td style="text-align: left;">否</td> <td style="text-align: left;">int</td> <td>最大分析的文字长度,超出的部分将不予分析</td> </tr> <tr> <td style="text-align: left;">token_number</td> <td style="text-align: left;">否</td> <td style="text-align: left;">int</td> <td>最大的标签数量,返回的,默认全部返回</td> </tr> <tr> <td style="text-align: left;">filter_psglist</td> <td style="text-align: left;">否</td> <td style="text-align: left;">list</td> <td>一个包含所有需要保留的词性的列表,默认为保留所有名词</td> </tr> </tbody> </table> <p>注意: 结果的数据直接在传入的json的结构基础上进行加工后返回。分为,文章的总体信息部分,和各个段落的信息部分,目前暂时仅仅开通文章整体的信息部分。</p> <p><strong>返回示例</strong></p> <p>result['articleInfo']中包含了所有文章一个级别的结果。</p> <pre><code>"articleInfo": { "title": "就在4月9日,世界发生了两件非同寻常的大事!", "source_kw": ["日本", "战斗机", "土耳其"],//员文章带有的标签 "ana_kw": ["钓鱼岛", "自卫队", "国防"],//经过分析获取的标签 "all_tags": [("日本",0.33), ("战斗机",0.25), ("土耳其",0.2), ("俄罗斯",0.1), ("钓鱼岛",0.12), ("自卫队",0.08)],//合并融合后的标签,带有标签的关联强度 "ccomp":[(u"社会",0.2),(u"国家",0.2),(u"军事",0.2),(u"政治",0.2)],//计算分析得出的概念分布,每一个概念后面的小数是百分数 "new_words": [("自卫队",2),("南海",3),("巡航导弹",4)],//本文章出现的新单词,即匹配中没有结果的词,后面是出现的次数 "time": "2019-04-10 09:23",//文章的时间,注意是文章内容所指定的时间不是抓取时间 "word_num": 2838, "image_num": 10, "paragraph_num": 22, }, "match_table"://匹配信息的查询表,里面记录了所有匹配到的单词的信息,为了节省空间,所有的单词的解释都会统一出现在这个地方。没有经过分析的时候,这个字典是空的 { "日本":{ //每一个单词都是显示了最基本很的匹配信息,不包括出现的具体位置,包括出现的 'pkey': u 'c1_QzD4oAvG', 'obj_number': 1, 'psg': u 'ns',//词性 'is_newword': 'false', 'concept_number': 0, 'cname': u '国家', 'freq': 6,//单词的出现频度 'adjusted_weight': 33948.0, 'weight': 1200, "objects":[(k1,f1),(k2,f2),....],//如果是对象匹配则会专门有一个列表显示主键 }, "美国":{....}, "战斗机":{....}, "航空母舰":{....}, }, "paragraph"://保存文章的段落,为了方便内容索引需求,文章的段落部分被组织成为一个字典, { "p1"://每一个段落使用段落的编号作为字典的键名字 { "id":"p1" "title": "就在4月9日,世界发生了两件非同寻常的大事!", "link": "http://p3.pstatp.com/large/", "class": "img",//class 代表段落的内容类型img,div }, "p2": { "id":"p2" "title": "就在4月9日,世界发生了两件非同寻常的大事!", "link": "http://p1.pstatp.com/large/pgc", "class": "img", "img_count": "1" }, "p3": { "id":"p3" "title": "按照惯例,重大新闻特朗普首发——作为",//段落的标题 "sentences": ["1865年的这一天,美国南北战争结束,南方总司令李将军投降;1936年的这一天,周恩来和张学良秘密会晤,后来就有了改变中国历史进程的西安事变。"], "class": "div",//段落的类型 "wc": 71,//段落的文字数 "sc": 3,//段落的句子数 "kw": [("日本",0.3), ("战斗机",0.22)],//段落标签,标签以及标签的关联强度 "tw":['1865年'],//段落中句子包含的时间对象 "ow":['第一节','第二节'],//段落中句子包含的序号对象 "match_info"://所有的句子的匹配结果,按照句子实际出现的顺序写入,记录了最为原始的匹配信息。每一个匹配项都包括 匹配的开始位置,结束位置,匹配类型, [ {"st":0,"ed":5,"txt":"1865年","mtyhpe":"normal",}, {"st":6,"ed":7,"txt":"的","mtyhpe":"normal"}, {"st":8,"ed":10,"txt":"这一天","mtyhpe":"normal"}, ] }, } }</code></pre> <p>欢迎使用ShowDoc!~~~~</p>

页面列表

ITEM_HTML