您的位置:首页 > 其它

SequoiaDB的 Kettle插件

2016-02-15 13:40 281 查看

缘起

近期公司有意向使用SequoiaDB,我也就对SequoiaDB的 Kettle插件做了一些测试,发现这个插件做的还是有点太简单了。所以着手对这个插件做了一些改动。

这里可以下载

由于时间关系我只对我用到的部分功能做了一些修改并不一定适用于所有需求

结构和原理

SequoiaDB的 Kettle插件 为两个转换的步骤(输入和输出),分别负责从SequoiaDB中加载数据和将数据写入SequoiaDB。插件的基本原理是在Kettle的框架下调用SequoiaDB的Java API 来实现和SequoiaDB的数据交互。

之前版本存在的问题

界面不太友好

在这个插件中可能是为了方便都使用了页签,这样在配置和查看的时候都不太方便

没有选择集合空间和集合的功能

在配置集合空间和集合是都要手工配置,这样很容易出错

在输出插件中自动获取字段时没有生成目标字段

这个不能算是一个问题,可能原开发者是考虑到,源字段和目标字段表示方式不同(后者是以类Json格式的)所以要手工配置,但是我们的需求是可以和源字段名一致,即使有少量的二级字段需要配置自动获取也会给配置工作带来方便。

不能有一个字段和其它字段前面部分重复

这个不太好说清楚,举个例子 如果有一个字段叫 alen 那到其它字段就不能以这个alen开头如 alen_add,alen_name都不可以。这个应该是为了防止配置有二级字段的和一级字段冲突,如配置了 alen.name 就不能再配置alen了。

其它问题

1、虽然在配置时使用的是变量文本框但是在使用时并没有做获取变量值的处理(如集合空间和集合的配置)。

2、脚本在保存到资源库时运行会报错

做的修改

根据上面的问题我做了以下的修改

-修改配置界面布局

-增加选择集合空间和集合的功能

-增加自动获取目标字段的功能(只针对输出且目标字段和源字段名一样)(仅输出)

-增加了集合空间和集合使用变量配置时的处理

-修复了脚本保存到资源库运行时出错

-修复了插件在步骤度量里没有显示读写和输入输出数据量的问题

-增加了提交量配置(仅输出)

-增加了输出前清空表(仅输出)

-修改了判断字段冲突的条件在之前基础上加了一个“.”(仅输出)

几点建议

1、在输入插件中不能加条件限制取出的数据

在大数据存储的情况下并不是所有数据都是我们需要的,如果能加条件限制取出数据,可以提高其效率。

2、数据源连接建议整合到Kettle的Database中

这样只需要为每个SequoiaDB配置一个连接就可以了,其它脚本使用时直接引用,提高脚本管理效率(目前可以用变量来间接实现)

修改前后对照(以输出为例)

修改前:



修改后:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: