分类: 大数据
2014-03-19 10:17:57
最有用的资料都在Impala的官网上:
,建议至少通读一遍,对于等章节要精读。
1. Impala编译
我写的一篇博客:http://blog.chinaunix.net/uid-21519621-id-3952587.html
2. Impala的远程调试
远程调试是学习代码最好的方式之一,Impala Server使用Java和C++的混合编程,本质上是二进制文件,使用JNI来调用Java程序,来帮助Impala SQL语法树的解析和生成。但是这种编程给调试带来了一些麻烦。远程调试的第一步是编译出调试信息的Impala Server,之后ImpalaServer的be部分就同一般的C++远程调试一样(通过gdbserver),但是调试里面fe部分的Java代码时,会有一种无从下手的感觉。最终我在下面这个帖子里找到了调试方法:。使用export JAVA_TOOL_OPTIONS="-agentlib:jdwp=transport=dt_socket,address=localhost:9009,server=y,suspend=y -Xcheck:jni" 来启动ImpalaServer。
3. 新版的1.2.4,在元数据修改后,比如创建表、插入表等,不再需要手动更新连接到其他Impala节点上的客户端(由于与元数据为了和Hive共享,存在Hive的Metastore里)。这个是由新的Catalog Server提供的功能。
4. profile命令是调试性能最好的帮手