摘要:该文的主要内容是描述如何实现一个PDF格式转换模块,并添加到一个通用文档预处理模块结构中来增强系统功能.本预处理模块目前应用于一个新闻自动摘要系统.该系统采用了仿人算法,模拟人在处理摘要时候的思维模式,实现了一系列算法,最终生成了主题明确,反映中心,语句连贯的摘要.而PDF模块的加入,使得整个文档预处理模块的功能大大增强,能够处理文档的范围更加广泛,为进一步的文档信息处理打下了牢固的基础.该文详细分析了该格式的特点和数据存储方式,并提出了合适的解析算法.最后文章还讨论了如何利用设计模式来实现系统的无缝集成以及功能模块的动态添加,使得软件的模块化和可维护性得到了质的飞跃.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社