当前流行的企业级搜索引擎Elasticsearch可为企业用户提供日志搜索、站内搜索、地图搜索等搜素服务。Hadoop具有批处理的优势。通过ES-Hadoop可以联接Elasticsearch与Hadoop生态间,融合Hadoop的批处理优势和Elasticsearch强大的全文检索引擎,为企业提供更优质的交互式数据搜索服务。

其中:

  • Elasticsearch是一个基于Lucene的分布式搜索引擎,具有分布式、全文检索、近实时搜索和分析、高可用、模式自由、RESTFul API等诸多优点,在实时搜索、日志处理(ELK)、大数据分析等领域有着广泛的应用。
  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构,核心组件有HDFS和MapReduce,分别提供海量数据存储和海量数据计算。
  • ES-Hadoop(Elasticsearch for Apache Hadoop)是一个用于Elasticsearch和Hadoop进行交互的开源独立库,在Hadoop和Elasticsearch之间起到桥梁的作用,完美地把Hadoop的批处理优势和Elasticsearch强大的全文检索引擎结合起来。

ES-Hadoop开辟了更加广阔的应用空间,通过ES-Hadoop可以索引Hadoop中的数据到Elasticsearch,充分利用其查询和聚合分析功能,也可以在Kibana中做进一步的可视化分析,同时也可以把Elasticsearch中的数据放到Hadoop生态系统中做运算,ES-Hadoop支持Spark、Spark、 Streaming、SparkSQL,除此之外,不论是使用Hive、 Pig、Storm、Cascading还是运行单独的Map/Reduce,通过ES-Hadoop提供的接口都支持从Elasticsearch中进行索引和查询操作。