锐研文本分析和挖掘系统(Ring BigResearch TextAnalyzer)
- 2016-02-06
- 萌泰科技
一、概述
锐研文本分析和挖掘系统(Ring BigResearch TextAnalyzer)是一套基于自然语言处理(NLP)技术的文本分析和挖掘软件,支持对采集的文本内容进行文本分析,包括文本分词,词性标注和词频统计。平台可集成多个中文处理引擎;支持结合系统和用户自定义的词汇字典库进行各类词频分析、文本分类、文本聚类、情感分析等。
二、产品功能
(1)系统集成
系统基于纯BS架构,作为子系统能集成到统一的大数据研究云平台,共享云平台的统一管理功能。
(2)文本分词
利用自然语言处理(NLP)分词算法对文本进行分词,词性标注;支持选择不同的分词算法;支持系统和用户自定义的词汇字典库。
(3)词频统计
支持对单篇文章分好的单词进行词频统计;支持批量词频统计;支持根据数据源、日期、地域等条件对所有文本进行词频统计,文本数量统计。
(4)文本分类
根据一个训练集,对新的文本进行数据分类。
(5)文本聚类
在没有训练集的情况下,根据算法对所有文本进行聚类分析。
(6)情感分析
支持根据情感字典库来判断某一个文章的正负情感。
三、特色和优势
(1)NLP自然语言处理技术
通过自然语义处理(NLP)技术对文本进行中文分词和语义识别及分析,通过机器学习方法对海量互联网文本进行分析学习建模,从而实现从分词、词性、句法、实体等一系列角度对文本的综合分析。(2)可配置的情感特征库
支持抓取主流门户、新闻、论坛、文献等各类数据源;基于可配置的情感特征语料库实现对特定领域的文本进行情感分析。(3)文本多维变量统计分析
提取文本的发布时间、地点、点击率、回复数以及其他可进行结构化转换的变量,以进行复杂的多维词频和数量统计分析。
发表评论
新闻动态