SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.4.x)版本的更新内容。

JindoFS OSS扩展和支持

  • 新增OSS recoverable OutputStream功能,支持Flush和Recover API。适用于高可靠写入场景,例如Flume。
  • 优化OSS Rename操作性能,结合OSS服务端提升Rename操作的执行时间。
  • 优化OSS多版本下的List操作性能,避免Bucket多版本下大量临时文件影响目录的List性能。
  • 优化OSS多版本JindoMagicCommitter性能,新增JindoDirectCommitter。
  • 增强Credentials Provider框架,新增JindoCommonCredentialsProvider。
  • 优化文件Create操作的性能,去掉OSS写入时的冗余检查。

JindoFS存储优化

JindoFS Block模式支持数据加密,加密密钥支持阿里云密钥管理服务KMS(Key Management Service)和国际AES加密算法。

JindoTable计算优化

完善Native Orc Reader,Block模式支持新的免密方式。

JindoFS工具集

增强JindoDistcp,优化增量迁移场景。例如,迁移HDFS数据至OSS时,实现迁移路径的Checksum比对。

JindoFS生态支持

新增Python版本的Jindo OSS SDK,支持基本的OSS操作,兼容OSS2 Python库。