首页 > 代码库 > 文本自动摘要

文本自动摘要

1.引言  

  所谓自动摘要就是利用计算机自动的从原始文献中提取文摘。文摘还是准确全面的反映某一文献中心内容的简介连贯的短文。随着Internet的飞速发展, 人们越来越多地依赖于万维网来获取所需要的信息。如何更加有效地浏览和查阅万维网上的海量信息成了当前情报科学领域的研究热点。自动文本摘要技术对文档信息进行压缩表示, 更好地帮助用户浏览和吸收万维网上的海量信息。在万维网用户普遍面临信息过载问题的今天, 自动文本摘要技术无疑能够有效地降低用户的信息负载, 帮我们更好地从万维网获取各类科技情报信息。

2.研究现状

  自动文本摘要技术从20世纪50年代开始兴起,最初是以统计学为支撑, 依靠文章中的词频、位置等信息为文章生成摘要, 主要适用于格式较为规范的技术文档。从90年代开始, 随着机器学习技术在自然语言处理中的应用, 自动文本摘要技术中开始融入人工智能的元素。针对新闻、学术论文等主题明确、结构清晰的文档, 一些自动摘要技术使用贝叶斯方法和隐马尔可夫模型抽取文档中的重要句子组成摘要。到了21世纪, 自动文本摘要技术开始广泛应用于网页文档。针对网页文档结构较为松散、主题较多的特点, 页文档摘要领域出现了一些较新的自动摘要技术, 如基于图排序的摘要方法等。

  

文本自动摘要