产品简介

数据智能采集平台全网捕获所需互联网公开信息,所见即所得式采集,为用户提供持续获取外部海量数据的服务。通过数据治理算法组件,对数据进行清洗、治理,保证数据质量,为数据应用提供有效支撑。

解决方案

顶层框架包括数据采集、自动清洗、智能分类、情报呈现、汇编报告、人工干预等6个部分。

产品功能

  • 数据源管理

    支持对定向网站、社交平台等数据源进行配置管理。

  • 任务分发

    将采集的定向网站、社交平台转换为采集任务,协调监控每个任务队列的情况。

  • 数据监控

    支持对采集任务异常情况进行监控预警。

  • 数据治理

    支持对信息进行初步处理后,将其结构化入库,数据治理算法组件包括:标题抽取、新闻正文抽取、人名地名抽取、热词发现、自动聚类等。

产品特色

  • 海量抓取

    数据采集采用先进的分布式架构集群部署,可以抓取海量的网页,消除单点抓取瓶颈。数据支持缓存处理和分库存储,保证采集系统稳定高效运行。

  • 智能调度

    采用流式计算技术,对用户的数据请求能够秒级快速响应。智能的调度机制,对于实时性要求较高的源网站优先调度处理。

  • 数据采集完整可靠

    采用先进的数据采集容错机制,确保数据传输的性能和正确性。对于传输错误的数据能够进行重传。

不展示!