文本
<p>mysql中间件:
kingshard go开发,效率是mysql 80%
Mycat<br />
Gaea 小米开源</p>
<p><strong>文本数据库:</strong>
1.新闻爬取下来文章,经过初步加工后,直接写入文本表。
2.新闻处理成中间数据(json)后,直接写入到文本表。
3.通过新闻原文和新闻中间数据加工出app使用文章,直接写入到资源管理框架
<img src="https://www.showdoc.cc/server/api/common/visitfile/sign/316dd94edbe58ef71da0954b253b9c83?showdoc=.jpg" alt="" />
这样可以好处:</p>
<ol>
<li>减少请求资源框架次数</li>
<li>减少资源框架存储数量</li>
</ol>
<p><strong>文章段落表(待定)</strong>
<img src="https://www.showdoc.cc/server/api/common/visitfile/sign/2525ec86fdcf204cd0afcde34157ea15?showdoc=.jpg" alt="" /></p>
<p><strong>文章句子和关键词关联架构</strong></p>
<ol>
<li>把句子内容单独存储成一张表,是为了减少句子基本信息表大小,提高查询效率</li>
<li>句子基本信息表和关键词关联中文章id和段落id 待定,可以为空
<img src="https://www.showdoc.cc/server/api/common/visitfile/sign/2e4bc4466474deba029f9ae4a57d1134?showdoc=.jpg" alt="" /></li>
</ol>
<p><strong>百科表</strong></p>
<ol>
<li>将百科页面中主要内容单独拆成百科内容表,减少百科基本信息表数据,提高查询效率
<img src="https://www.showdoc.cc/server/api/common/visitfile/sign/0dd51066bac7047eaf05d0dfd818ab93?showdoc=.jpg" alt="" /></li>
</ol>
<p><strong>文本处理流程</strong></p>
<ol>
<li>新闻经过下载初步处理,写入文本数据表</li>
<li>新闻从文本数据表提取数据,经过主题分析,写入文本数据表</li>
<li>新闻通过1和2步骤,加工出app数据,写入文本数据表</li>
</ol>