首页 > 代码库 > NEWBE CRALWER 产品需求文档

NEWBE CRALWER 产品需求文档

1、产品概述

本产品是学霸软件系统的爬虫部分,由NEWBE团队负责。主要任务是从网上爬取出相关数据后提供给C705组使用。

2、产品的发展经历

2.1 产品的发展经历

描述产品的生命周期 \产品的更新换代策略以及产品的中长期发展规划,制定产品的发展蓝图。描述产品的一些突出优点,这些描述可成为产品将来的卖点,也是后面开发过程中,首先需要把握的部分。分析该产品的发展对企业成长的重要性,描述该产品在企业发展规划中的位置;

本产品从2014.10.29开始迭代,经历两轮迭代,发布了ALPHA和BETA版本后。最终基本圆满的满足了C705的需求,并顺利地与学霸下一组成功对接。

2.2 产品的版本

每个版本都需要有非常明确的目标和令人感觉明显的差别,并且在每个版本中都应该有突出的卖点。

(一般产品的第一个版本在于突出产品的卖点所在,之后的第二个版本在易操作性、友好性等方面进行加强,之后的版本可能是为了增强功能或性能,但都必须有一些明确地增强产品优势的卖点……。)

在ALPHA版本阶段,我们的产品方向略有偏移,重点没有放在学霸系统整个的体系下,而是将爬虫作为一个单独的程序而确立产品定位,因此设计了大量UI,URL热度排序,等比较高级,但不实用的功能。

  在BETA版本阶段,我们与C705团队进行了充分沟通,明确了我们程序的最重要需求,同时,分析产品定位并找到了关于稳定性、高效性的需求。将产品放回到学霸系统整个的模块下,产品定位更加明确,产品做的也更加实用高效。

3、产品研发规划

3.1 需求分析

1、重要度:重要            需求类型:改进

 需求描述:     限制爬取功能(quiz/pdf/doc/ppt) 

2、重要度:重要    需求类型:BUG修改

需求描述:      无法爬取数量巨大的网页,会因为谜之bug陷入死锁,解决相应的bug(bug数量可能比较多..多人参与解决..) 

3、重要度:重要    需求类型:新增

需求描述:      爬取ppt、doc功能

4、重要度:次重要      需求类型:新增

需求描述:      各个方法写好规格

5、重要度:次重要   需求类型:改进

需求描述:      quiz页面的过滤功能(C705组需求:stackoverflow、百度知道、知乎、搜狗问问、博问、德问)
6、重要度:一般    需求类型:新增

需求描述:存储文件名换成ID号(上版把过长的文件名过滤掉了,需要修改)
7、重要度:一般    需求类型:BUG修改

重复网址会存成两个id不同的数据项.需要修改

8、重要度:一般    需求类型:改进

无关页面过滤算法的优化

9、重要度:较不重要    需求类型:BUG修改

软件开始界面的的newbe logo消失,需要修改

3.2开发安排

每一天的研发规划都已经记录到DAILY SCRUM中,大家可以去每天的日志中看。

4、产品最终界面

ALPHA版本:

技术分享

技术分享

技术分享

 

BETA版本:

技术分享

技术分享

目前数据库中数据数目:约40w

技术分享

NEWBE CRALWER 产品需求文档