Iceberg入门
Iceberg
为什么需要Iceberg/为什么需要Lakehouse
数据湖的最主要目的是为了解决Hive速度慢的问题, 利用表格式和索引实现细粒度的数据过滤. 数据湖可以将整个链路变为分钟级, 从离线链路转化为近实时链路并且提升查询速度. 当然, 数据湖还解决了一些其他问题, 如ACID, Schema Evolution, Partition Evolution, Time Travel等.
文件布局
具体查询流程就是从Catalog -> Table Metadata File -> Snapshot -> Manifest List -> Manifest File -> Data File. 如图所示
Catalog
Catalog 本质就是一个维护表元数据文件的目录(个人理解), 有多种实现方式:
HiveCatalog
Hive Metastore
表属性中key值为metadata_location的键值对
HadoopCatalog
文件系统
version-hint.text
JDBC Catalog
关系型数据库 ...
2025五六月生活记录
f33a6d5ec2003e353696027d8241bf51ad51c806b81b0f5d1a3eb4340de5971ab561ea411ef740820016d63e29f72a4621513196095778e83ee05da811794cf809b3662d99be898d0938cc8e62d6d2e0484c9efc9e3365988bfda6156d76a00df725cffe065576decd25de4a8482b7bd0b6dbb8500803ba82006a2b9874da39bc20122259c7b3c5d6eb8c2a05c7c995ff785b82b8c099052458d6e2af4ad1d797d6c89f72f6fc4b13f531f285ef301eaabb8cdeff0b3a60e38aff4b599fff344e975810b869e76dd15c52be93021991bb1d4a5633e886356928068ecd6c6b5afede8187251d83ae525e130aa16518d5798daff5de29a980bd ...
瑞士旅行记录
瑞士旅行记录
Day 1
周末的日内瓦没多少饭店还开门了, 随便找了家近的中餐, 没想到吃上了自助, 虽然菜不多, 但价格便宜还管饱, 狂炫3盘😋
联合国浅看一下
在前往采尔马特的行程中安排了一段坐船, 从洛桑坐到了圣金戈尔夫. 到了洛桑的码头我们人懵了, 没有之前看的那条线路了, 明明前一天官网上写的线路还是去蒙特勒的, 但幸亏总路程耗时没有太大区别. 圣金戈尔夫在瑞法边境, 只要过个桥就到法国了. 日内瓦湖很美, 坐船的体验非常好, 导致我们后面一致决定再加一段坐船的行程.
湖水清澈见底
船上拍的一些照片
圣金戈尔夫初印象和湖里的鸭子, 鸭子会潜水, 我是第一次知道
跨越边境的桥和在法国的一通乱拍
房子上的房子, 也许是个烟囱🤔
小镇上Jean Moulin的纪念碑
离开圣金戈尔夫的火车和空无一人的车厢
晚上住在tasch的民宿, 吃了麦当劳, 麦门🫡, 但一张照片都没拍🫣
Day 2
早上阳台的景色&泡面当早餐
火车上的大黄
采尔马特的viewpoint, 马特洪峰! ISO自动导致噪点有点多😅
一对情侣/ ...
2025三四月生活记录
f33a6d5ec2003e353696027d8241bf51ad51c806b81b0f5d1a3eb4340de5971ae0510f42b61767060646c2af5d64947df76f032fb0911a75e1b3636525615f197ceb22e1616ea1adff805373c75257f6840d6cb6a5e9c4f8f835aa05f1d0e85ced658ed91915709b741c09250faa21e21bcfa02eea64bcecdeb1077c29ca7eab0fc9296336a1aa69e36da62f84d61c4f1744bea53bc269d688c7739edb76c30d8b3a79e66f54dedc5c4277612e509e85acff6eded078f700c68eeeab799a7d5e141273cd8688d67bff6adf4f07f5a04cba2011a02834a7cbcc2a268b4e1287e02cdcb3acb33122b990c74d01d992247538d630fa97a8c56a3 ...
DolphinScheduler配置Seatunnel同步任务出错(从MySQL同步数据到Doris)
DolphinScheduler配置Seatunnel同步任务出错(从MySQL同步数据到Doris)
DolphinSScheduler版本3.2.0, Seatunnel版本2.3.4
错误日志
定义好工作流后, 上线运行报错, 关键日志入下:
12345678910111213141516171819202122[INFO] 2025-02-16 13:02:00.427 -0800 - tenantCode :root, task dir:/tmp/dolphinscheduler/exec/process/root/16670700117984/16677825236448_2/2/3[INFO] 2025-02-16 13:02:00.429 -0800 - generate script file:/tmp/dolphinscheduler/exec/process/root/16670700117984/16677825236448_2/2/3/seatunnel_2_3.conf[INFO] 2025-02-16 13:02:00.433 -0800 - SeaTun ...
安装Superst报错 Failed building wheel for python-geohash&Command errored out with exit status 1
安装Superst报错 Failed building wheel for python-geohash&Command errored out with exit status 1
具体报错如下图所示:
前置操作
123456789101112conda --version#conda 23.5.2#创建虚拟环境conda create -n superset python=3.6#激活conda activate superset#安装依赖pip install sqlalchemy==1.3.24 pip install dataclasses==0.8 pip install --upgrade cryptography==3.2#安装Supersetpip install apache-superset
分析与解决办法
看到报错判断出编译环境出了问题, 然后想到使用anaconda作为环境安装应该不会出现错误才对, 出于谨慎先检查gcc
12rpm -q gcc#gcc-8.5.0-3.el8.x86_64
gcc存在, 应该不是它的问题, 经过搜索发现可能是缺少 ...