NewsSpider/Frame.md at master · lzjqsdd/NewsSpider · GitHub

#新闻检索系统框架

##后端程序

抓取新闻

Step1:采集网易，头条和腾讯新闻，以json格式保存
Step2:由于抓取内容较大，对文件进行拆分，每个文件保存100个新闻文档 新闻在文件中的书序默认从1开始到结束

构建索引

根据tf-idf提取每篇新闻文档的关键词。
建立倒排索引，以小文件进行存储，因此需要维护两个词典
- 词项-编号，以json格式存储到文件，启动系统初加载到字典中。
- 词项-文档编号，（即倒排记录），查询时按需进行加载。
避免一次性读写，分批次读取新闻内容，建好索引写入文件，对于已经出现的词项更新倒排记录。

检索

Step1:对输入的词或句子进行拆分，分别查询每个词
Step2:对每个词返回的倒排记录进行合并，得到最终的查询记录。优化：按照文档频率从小到大进行合并
Step3:可以考虑对结果按时间进行排序。
Step4:返回内容摘要及url链接

###~~相似新闻推荐~~ 待定

##前段展示

暂定使用webpy轻量级框架进行开发。
页面结构
- 搜索首页
- 搜索结果展示页
- 新闻页（侧边包含推荐相似新闻部分）