[
  {
    "path": "README.md",
    "content": "# DPKB\n\n大数据相关知识库，主要包括：\n* 数据存储层、数据库（HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等）\n* 数据处理层、OLAP引擎（Spark、Flink、Presto、Trino等）\n* 数据湖（IceBerg、Hudi、Delta等）\n* 大数据开发、应用（主要包括ETL、调度、数仓、数据应用等，例如Seatunnel、Dolphinscheduler等）\n* 数据治理（元数据管理、数据模型、数据标准、数据质量、数据安全等）\n\n持续更新中（2024-12）\n\n\n\n\n\n## 一、数据存储层、数据库（HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等）\n\n### ▶ HDFS\n\n\n\n### ▶ Yarn\n#### 1）原理\n- [Hadoop Yarn 一文搞懂 Yarn架构原理和工作机制](https://www.cnblogs.com/liangzilx/p/14837562.html)\n\n\n\n### ▶ Hive\n#### 1）官网、社区、博客\n- [Hive 官网](https://hive.apache.org/)\n\n\n#### 2）专栏\n- [Hive 教程](columns/hive/hive教程.md)\n\n\n#### 3）大厂实践\n- [HiveCube 在有赞的实践](https://tech.youzan.com/cube/)    2019-11\n- [Hive Metastore Federation 在滴滴的实践](https://blog.didiyun.com/index.php/2019/03/25/hive-metastore-federation/)    2019-03\n\n\n\n\n### ▶ HBase\n#### 1）官网、社区、博客\n- [HBase 官网](https://hbase.apache.org/)\n- [hbasefly](http://hbasefly.com/) \n\n\n#### 2）专栏\n\n\n#### 3）大厂实践\n\n\n#### 4）其他\n- [HBase Bulkload 实践探讨](https://tech.youzan.com/hbase-bulkloadshi-practice/)    2019-12\n\n\n\n\n### ▶ Kudu\n#### 1）官网、社区、博客\n- [Kudu 官网](https://kudu.apache.org/)\n\n\n#### 2）专栏\n- [Kudu 原理 论文](columns/kudu/Kudu原理论文.md)\n- [网易云Kudu技术专栏](columns/kudu/网易云Kudu技术文章.md)\n\n\n#### 3）大厂实践\n- [Apache Kudu 在网易的实践](https://www.infoq.cn/article/kgwyqb5wer5wl8cquweq)   2021-08\n- [Apache Kudu 在网易实时数仓的实践](https://www.infoq.cn/article/QETxjyIu5tAJTZ9ksMdu)    2020-02\n- [Kudu架构介绍及其在小米的应用实践](https://www.modb.pro/db/119708)    2017-06\n\n\n#### 4) 其他\n- [我是如何成为Apache Kudu committer & PMC 的？](https://cloud.tencent.com/developer/article/1450749)    2019-06\n\n\n\n\n### ▶ Doris\n#### 1）官网、社区、博客\n- [Doris 官网](https://doris.apache.org/)\n- [Doris github](https://github.com/apache/doris)\n- [Doris 论坛](https://github.com/apache/incubator-doris/discussions)\n\n\n#### 2）专栏\n- [Doris全面解析](columns/doris/Doris全面解析.md)\n- [Doris最佳实践](columns/doris/Doris最佳实践.md)\n\n\n#### 3）案例实践\n- [Apache Doris在美团外卖数仓中的应用实践](https://tech.meituan.com/2020/04/09/doris-in-meituan-waimai.html)    2020-04\n- [Apache Doris 在韵达物流领域的应用实践](https://mp.weixin.qq.com/s/Z_PhWk92ctZ7slz4SrVZ9Q)    2021-07\n- [Apache Doris 在蜀海供应链的实践](https://mp.weixin.qq.com/s/SHuE-KCsIyh6jfo0DqLD6w)    2021-07\n- [京东物流基于 Doris 的亿级数据自助探索应用](https://mp.weixin.qq.com/s/qVFa40yMg0_N9Lsb10ACQA)    2021-07\n- [Doris on ES在快手商业化的最佳实践](https://mp.weixin.qq.com/s/5Pc5ewVFWPgauG4hNLH9xw)    2021-08\n- [基于Doris的有道精品课数据中台建设实践](https://mp.weixin.qq.com/s/Gz-au9CHJ4lHrs5MkzeAJg)    2020-12\n- [美团外卖实时数仓建设实践](https://mp.weixin.qq.com/s/-JPWqa_-at7F5hZ0zekVSQ)    2020-10\n- [Doris在作业帮实时数仓中的应用&实践](https://mp.weixin.qq.com/s/hjbMM8CbElO04VLN5cfJtQ)    2020-09\n- [基于Apache Doris的小米增长分析平台实践](https://mp.weixin.qq.com/s/WeNAItPJ4b7fsqW4kf0dSA)    2020-08\n- [Apache Doris在京东双十一大促中的实践](https://mp.weixin.qq.com/s/8XnwJXm4kzq56SvElwL6kA)    2020-03\n- [Apache Doris 在百度商业大规模微服务全链路监控的实践](https://mp.weixin.qq.com/s/k7CcCdHPTK1ZTDs_qKgh5w)    2020-02\n\n\n\n\n### ▶ StarRocks\n#### 1）官网、社区、博客\n- [StarRocks](https://www.starrocks.com/zh-CN/index)\n- [StarRocks文档](https://docs.starrocks.com/zh-cn/main/introduction/StarRocks_intro)\n- [编程小梦 康凯森](https://blog.bcmeng.com/)\n\n\n#### 2) 专栏\n- [StarRocks技术内幕](columns/starrocks/StarRocks技术内幕.md)\n\n\n\n\n### ▶ ClickHouse\n#### 1）官网、社区、博客\n- [ClickHouse 官网](https://clickhouse.com/)\n\n\n#### 2）专栏\n\n\n#### 3）大厂实践\n- [ClickHouse 在有赞的实践之路](https://tech.youzan.com/clickhouse-zai-you-zan-de-shi-jian-zhi-lu/)    2021-01\n\n\n#### 4）其他\n\n\n\n\n## 二、数据处理层、OLAP引擎（Spark、Flink、Presto、Trino等）\n\n### ▶ Spark\n#### 1）官网、社区、博客\n- [Spark 官网](https://spark.apache.org/)\n\n\n#### 2）专栏\n- [Apache Spark 的设计与实现](columns/spark/Apache%20Spark的设计与实现.md)\n\n\n#### 3）大厂实践\n- [SparkSQL 在有赞的实践](https://tech.youzan.com/sparksql-in-youzan/)    2019-01\n- [SparkSQL 在有赞大数据的实践（二）](https://tech.youzan.com/sparksql-in-youzan-2/)    2020-01\n\n\n\n\n### ▶ Flink\n#### 1）官网、社区、博客\n- [Flink 官网](https://flink.apache.org/)\n- [Flink Confluence](https://cwiki.apache.org/confluence/display/FLINK/)\n- [Flink Blog](https://flink.apache.org/blog/)\n- [Ververica Blog](https://www.ververica.com/blog?hsLang=en) \n- [Ververica 中文](https://ververica.cn/developers-resources/)\n- [Flink 知识图谱](https://ververica.cn/wp-content/uploads/2020/03/Apache-Flink-Stateful-Computations-over-Data-Streams.pdf)\n- [Jark's Blog - WuChong - 云邪](http://wuchong.me/)\n\n\n#### 2）专栏\n- [Flink 架构、源码分析专栏](columns/flink/Flink架构、源码分析专栏.md)\n- [Flink 实战系列](columns/flink/Flink实战系列.md)\n- [Flink 开源项目汇总](columns/flink/Flink开源项目汇总.md)\n##### 教程\n- [Flink SQL Cookbook - Ververica](https://github.com/ververica/flink-sql-cookbook/)\n- [Flink 零基础入门](columns/flink/Flink零基础入门.md)\n- [Flink 进阶教程](columns/flink/Flink进阶教程.md)\n- [Apache Flink 漫谈系列](columns/flink/Apache%20Flink%20漫谈系列.md)\n- [Flink 相关论文](columns/flink/Flink%20相关论文.md)\n\n\n#### 3）大厂实践\n- [flink-forward-asia-hackathon-2021](https://github.com/flink-china/flink-forward-asia-hackathon-2021/issues)\n\n\n\n\n### ▶ Presto、Trino\n#### 1）官网、社区、博客\n- [PrestoDB 官网](https://prestodb.io/)\n- [Trino 官网](https://trino.io/)     原PrestoSql\n- [Google Presto Group](https://groups.google.com/g/presto-users)\n- [Presto 知乎专栏](https://www.zhihu.com/column/presto-cn)\n- [若飞-技术博客](http://armsword.com/archives/)\n\n\n#### 2）专栏\n- [Presto 架构、源码分析专栏](columns/presto/Presto架构、源码分析专栏.md)\n- [Presto 最佳实践、调优、踩坑专栏](columns/presto/Presto最佳实践、调优、踩坑专栏.md)\n- [Presto 资料汇总、会议资讯专栏](columns/presto/Presto资料汇总、会议资讯专栏.md)\n\n\n#### 3）大厂实践\n- [Presto 在车好多的实践](https://mp.weixin.qq.com/s/Bmqv54sVZgTqQ82I_RfmsA)    2020-12\n- [Presto 在滴滴的探索与实践](https://zhuanlan.zhihu.com/p/266162270)    2020-10\n- [Presto 在有赞的实践之路](https://tech.youzan.com/presto-zai-you-zan-de-shi-jian-zhi-lu/)    2020-04\n- [PrestoCon 2020：云原生数据湖分析DLA的Presto实践](https://zhuanlan.zhihu.com/p/260784762)    2020-03\n- [携程 Presto 技术演进之路](https://zhuanlan.zhihu.com/p/41538472)    2018-08\n- [Presto 实现原理和美团的使用实践](https://tech.meituan.com/2014/06/16/presto.html)    2014-06\n- [Presto 高性能引擎在美图的实践](https://zhuanlan.zhihu.com/p/408957032)    2021-09\n\n\n\n\n## 三、数据湖（IceBerg、Hudi、Delta等）\n\n- [一文看懂：什么是数据库、数据湖、数据仓库、湖仓一体、智能湖仓？](https://www.smartcity.team/consultingskills/experience/shujukuyushujuhu/#comments)    2021-08\n\n\n### ▶ Iceberg\n#### 1）官网、社区、博客\n- [Iceberg 官网](https://iceberg.apache.org/)\n\n\n#### 2）应用\n- [数据湖 Iceberg | 实时数据仓库的发展、架构和趋势](https://mp.weixin.qq.com/s?__biz=MzIwNTUxNTI1Ng==&mid=2247485623&idx=1&sn=9f03a36dbfc06c712b6132faabaa1dfd&chksm=972ef820a05971360311fd69c686e4b420222cfa639a1bcb5648bece4c3d886ae8f981712d8c&scene=21#wechat_redirect)    2021-03\n- [数据湖 Iceberg | Apache Iceberg 快速入门](https://mp.weixin.qq.com/s?__biz=MzIwNTUxNTI1Ng==&mid=2247485637&idx=1&sn=0489f233e3bda2bcef221c9532bb001e&chksm=972ef852a0597144538b7807948443a27e58f99ba33d17a7bcb12ccb8b382fd1d712d6e80cbc&cur_album_id=1746684202856579076&scene=190#rd)    2021-03\n- [数据湖 Iceberg | 如何正确使用 Iceberg](https://mp.weixin.qq.com/s?__biz=MzIwNTUxNTI1Ng==&mid=2247485644&idx=1&sn=b2194d8f3c1e7cf7e8e8d9296b9025e2&chksm=972ef85ba059714dc69472e3860497389f2ca4503d2cddeedd348695b5c314da49aad0278978&cur_album_id=1746684202856579076&scene=190#rd)    2021-04\n- [数据湖 Iceberg | 在网易云音乐的实践](https://mp.weixin.qq.com/s?__biz=MzIwNTUxNTI1Ng==&mid=2247485718&idx=1&sn=34347ac54e97877e4401ad37f1d15577&chksm=972ef981a059709724b7abab56786ef047a68f31fd829031d2214fa4994b9ec0f1b04e25318c&cur_album_id=1746684202856579076&scene=190#rd)    2021-04\n\n\n\n\n### ▶ Hudi\n#### 1）官网、社区、博客\n- [Hudi 官网](https://hudi.apache.org/)\n\n#### 2）应用\n- [Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践](https://mp.weixin.qq.com/s/079VeDeIM_MQPyiiDX2l_w)\n \n\n\n\n### ▶ Delta\n\n\n\n\n## 四、大数据开发、应用（主要包括ETL、调度、数仓、数据应用等，例如Seatunnel、Dolphinscheduler等）\n\n### ▶ Seatunnel\n\n\n\n### ▶ DolphinScheduler\n\n\n\n### ▶ 大数据架构\n- [SQL on Hadoop 在快手大数据平台的实践与优化](https://www.infoq.cn/article/BN9cJjg1t-QSWE6fqkoR)    2019-06\n- [携程机票大数据架构最佳实践](https://dbaplus.cn/news-73-1420-1.html)    2017-08\n- [火山引擎DataLeap一站式数据治理解决方案及平台架构](https://www.cnblogs.com/bytedata/p/17745908.html)    2023-10\n\n\n\n### ▶ 数仓相关\n- [有赞数据仓库实践之路](https://tech.youzan.com/dw-in-youzan/)    2020-03\n- [OneData 建设探索之路：SaaS 收银运营数仓建设](https://tech.meituan.com/2019/10/17/meituan-saas-data-warehouse.html)    2019-10\n- [面向AI技术的工程架构实践 | 贝壳一站式大数据开发平台实践](https://www.infoq.cn/article/mmnwzdlcyjg83qm0tgqm)    2020-11\n\n\n\n\n### ▶ 报表平台\n- [有赞 BI 平台实现原理](https://tech.youzan.com/principle-on-bi-platform/)    2021-01\n\n\n\n\n## 五、数据治理（元数据管理、数据指标、数据标准、数据质量、数据安全等）\n\n### ▶ 数据治理\n- [美团配送数据治理实践](https://tech.meituan.com/2020/03/12/delivery-data-governance.html)    2020-03\n- [全链路数据治理在网易严选的实践](https://www.infoq.cn/article/FOV6aEWRGNOfhD91YVcr)    2020-10\n- [数据资产、数据治理 - 有赞](https://tech.youzan.com/shu-ju-zi-chan-zan-zhi-zhi-li/)    2019-11\n- [美团酒旅起源数据治理平台的建设与实践](https://tech.meituan.com/2018/12/27/onedata-origin.html)    2018-12\n- [滴滴数据仓库指标体系建设实践](https://mp.weixin.qq.com/s/-pLpLD_HMiasyyRxo5oTRQ)    2020-08\n- [有赞指标库实践](https://tech.youzan.com/you-zan-zhi-biao-ku-shi-jian/)    2020-03\n- [浅谈有赞大数据安全体系](https://tech.youzan.com/you-zan-da-shu-ju-an-quan-ti-xi-jian-she-shi-jian/)    2021-01\n\n\n\n### ▶ 元数据管理\n- [字节跳动构建Data Catalog数据目录系统的实践](https://www.cnblogs.com/bytedata/p/16189474.html)    2022-04\n- [有赞数据仓库元数据系统实践](https://tech.youzan.com/youzan-metadata/)    2018-08\n- [饿了么元数据管理实践之路](https://dbaplus.cn/news-73-2143-1.html)    2018-07\n- [数据治理方案技术调研 Atlas VS Datahub VS Amundsen](https://cloud.tencent.com/developer/article/1746714)    2020-11\n- [数据资产治理-元数据采集那点事 - 有赞](https://tech.youzan.com/zi-chan-zhi-li-yuan-shu-ju-cai-ji-na-dian-shi/)    2020-12\n- [来看看字节跳动内部的数据血缘用例与设计](https://segmentfault.com/a/1190000041452770)    2022-02\n- [携程数据血缘构建及应用](https://mp.weixin.qq.com/s/LGK3YPZCe6oPTf48QaAIqA)    2021-09\n- [Datahub](https://datahubproject.io/)    A Metadata Platform for the Modern Data Stack\n\n\n\n\n\n## 六、机器学习、AI\n\n### ▶ 机器学习平台\n- [机器学习平台建设指南](https://mp.weixin.qq.com/s/HEg_6Gly2WMrcPD5Ao2n6g)    2021-04\n- [一站式机器学习平台建设实践](https://mp.weixin.qq.com/s/ZDRD0vAxkSqe4UeXi9avKQ)    2020-02\n- [汽车之家机器学习平台的架构与实践](https://blog.csdn.net/hellozhxy/article/details/107210015)    2020-07\n- [微博推荐算法实践与机器学习平台演进](https://blog.csdn.net/m0_37586850/article/details/116465255)    2021-05\n- [爱奇艺机器学习平台的建设实践](https://mp.weixin.qq.com/s/Np4w7RC2JFlB7ZGIduu71w)    2020-11\n- [爱奇艺一站式机器学习平台Deepthought的建设与初探](https://mp.weixin.qq.com/s?__biz=MzI0MjczMjM2NA==&mid=2247487206&idx=1&sn=c8db1e12378376722a1521f409149d44&chksm=e97692c5de011bd3f1b42a8112cd04c24907cb101ac5474b0054c95941ff5c4769a42d496f3a&scene=21#wechat_redirect)    2020-06\n- [一站式机器学习平台在 vivo AI 的实践](https://www.infoq.cn/article/THlkStomYLRgXL2hzm8w)    2020-02\n- [再见，Yarn！滴滴机器学习平台架构演进](https://mp.weixin.qq.com/s/iTfHv8EFx4O4G1sNxsuMkg)    2019-03\n- [网易严选机器学习平台建设实践](https://www.6aiq.com/article/1661745581086)    2022\n- [Sunfish-有赞智能平台实践](https://tech.youzan.com/sunfish/)    2020-06\n- [同程-利用已有的大数据技术，如何构建机器学习平台](https://www.infoq.cn/news/build-machine-learning-platform-bigdata)    2017-11\n\n\n\n\n## 七、LLM应用\n\n### ▶ Text2SQL\n- [NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（Spider vs BIRD）全面对比优劣分析](https://blog.csdn.net/sinat_39620217/article/details/137603846)\n- [NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理](https://blog.csdn.net/sinat_39620217/article/details/137603958)\n- [NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解](https://blog.csdn.net/sinat_39620217/article/details/137674671)\n\n\n\n\n## 八、资源汇总\n\n### ▶ 大厂技术博客\n- [美团技术团队](https://tech.meituan.com/)\n- [有赞技术团队](https://tech.youzan.com/)\n- [滴滴云博客](https://blog.didiyun.com/)\n\n\n\n### ▶ 大数据相关网站\n- [dbaplus](https://dbaplus.cn/)\n\n\n\n### ▶ 相关开源项目\n- [数仓相关开源项目汇总](columns/opensource/数仓相关开源项目汇总.md)\n\n\n\n### ▶ 相关论文\n- [raft 中文翻译](https://github.com/maemual/raft-zh_cn/blob/master/raft-zh_cn.md)\n\n\n"
  },
  {
    "path": "columns/doris/Doris全面解析.md",
    "content": "# Doris全面解析\n\n## 原理\n- [Apache Doris : 一个开源 MPP 数据库的架构与实践](https://www.jianshu.com/p/d3742af8ecce)\n\n## 存储相关\n- [存储层设计介绍1——存储结构设计解析](https://mp.weixin.qq.com/s/aJ3FwDI6KprYYUwXzhl_-A)    2020-07\n- [存储层设计介绍2——写入流程、删除流程分析](https://mp.weixin.qq.com/s/xl4ePcsSVPPNQDGBw-KoKA)    2020-07\n- [存储层设计介绍3——读取流程、Compaction流程分析](https://mp.weixin.qq.com/s/U9w3VxCKhTk_3Sglo9J-aA)    2020-08\n- [Doris Compaction机制解析](https://mp.weixin.qq.com/s/5D1gAOEiFWM7N6KPwqHHdw)    2021-02\n- [Apache Doris Parquet文件读取的设计与实现](https://mp.weixin.qq.com/s/5D6G_kvl9TzYCMIgynhERA)    2019-08\n- [Doris核心功能介绍——数据模型和物化视图](https://mp.weixin.qq.com/s/eRUg1du8AQxLvqYjJ621fA)    2020-07\n\n\n## 计算相关\n- [Apache Doris 查询原理](https://blog.bcmeng.com/post/apache-doris-query.html)    2020-03\n- [Doris SQL 原理解析](https://mp.weixin.qq.com/s/v1jI1MxEHPT5czCWd0kRxw)    2021-01\n- [Doris Stream Load原理解析](https://mp.weixin.qq.com/s/NUSHwAUsFskSXG5R0mw8kg)    2021-06\n- [Apache Doris 索引机制解析](https://mp.weixin.qq.com/s/KdCdXb9Z3MdUZ5S0RV726Q)    2021-09\n- [Spark Doris Sink的设计和实现](https://mp.weixin.qq.com/s/uoPLfFBv9Vt2gg9HEriR0Q)    2019-08\n\n\n## 其他\n- [Doris基于Hive表的全局字典设计与实现](https://mp.weixin.qq.com/s/YlZnlMTTI8xhULmk1y-N6w)    2020-08\n"
  },
  {
    "path": "columns/doris/Doris最佳实践.md",
    "content": "# Doris最佳实践\n\n## 调优\n- [Compaction调优(1)](https://mp.weixin.qq.com/s/Kv71HomwNioHQDz8NUec1A)    2021-06\n- [Compaction调优(2)](https://mp.weixin.qq.com/s/mJrxpvYIoE9rgP9Hvo1Dnw)    2021-06\n- [Compaction调优(3)](https://mp.weixin.qq.com/s/cZmXEsNPeRMLHp379kc2aA)    2021-06\n- [Apache Doris Join 实现与调优实践](https://mp.weixin.qq.com/s/pukjERSOW-D-BM4z1G9JlA)    2021-09\n\n\n## 业务实现\n- [Apache Doris 基于 Bitmap的精确去重和用户行为分析](https://mp.weixin.qq.com/s/e0IrXgkinpeEDKi0etfGKA)    2020-01\n- [Doris在用户画像人群业务的应用](https://mp.weixin.qq.com/s/HGyIgqCIIXfeJtNdKbj-fQ)    2020-10\n\n\n## 组件结合\n- [基于 Iceberg 拓展 Doris 数据湖能力的实践](https://mp.weixin.qq.com/s/Vgo2kWED8oxg45x6zumEYQ)    2021-07\n- [Flink 消费 Kafka 实时写入 Apache Doris（KFD）](https://mp.weixin.qq.com/s/nUeHwFBQs50EvPukqnrinQ)    2021-09\n- [Spark Doris Connector的最佳实践](https://mp.weixin.qq.com/s/c8zE7ymv6jC1WTlV44dldQ)    2020-04\n- [ProxySQL实现Doris FE高可用](https://mp.weixin.qq.com/s/XHgtIzekxkiGCjqcRbqndw)    2020-08\n\n\n## 其他\n- [Apache Doris和ClickHouse的深度分析](https://mp.weixin.qq.com/s/fyVSRB3wxmsZUx4kY1eQRQ)    2021-10\n\n\n\n"
  },
  {
    "path": "columns/flink/Apache Flink 漫谈系列.md",
    "content": "# Apache Flink 漫谈系列 (阿里云实时计算Flink)\n\n\n## 教程\n- [Apache Flink 漫谈系列(01) - 序](https://developer.aliyun.com/article/666043?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(02) - 概述](https://developer.aliyun.com/article/666052?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(03) - Watermark](https://developer.aliyun.com/article/666056?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(04) - State](https://developer.aliyun.com/article/667562?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(05) - Fault Tolerance](https://developer.aliyun.com/article/667564?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(06) - 流表对偶(duality)性](https://developer.aliyun.com/article/667566?spm=a2c6h.14164896.0.0.59817cb20Sk3GI)\n- [Apache Flink 漫谈系列(07) - 持续查询(Continuous Queries)](https://developer.aliyun.com/article/667700?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(08) - SQL概览](https://developer.aliyun.com/article/670202?spm=a2c6h.14164896.0.0.59817cb20Sk3GI)\n- [Apache Flink 漫谈系列(09) - JOIN 算子](https://developer.aliyun.com/article/672760?spm=a2c6h.14164896.0.0.59817cb20Sk3GI)\n- [Apache Flink 漫谈系列(10) - JOIN LATERAL](https://developer.aliyun.com/article/674345?spm=a2c6h.14164896.0.0.59817cb20Sk3GI)\n- [Apache Flink 漫谈系列(11) - Temporal Table JOIN](https://developer.aliyun.com/article/679659?spm=a2c6h.14164896.0.0.59817cb20Sk3GI)\n- [Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN](https://developer.aliyun.com/article/683681?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n- [Apache Flink 漫谈系列(13) - Table API 概述](https://developer.aliyun.com/article/685085?spm=a2c6h.14164896.0.0.59817cb20Sk3GI)\n- [Apache Flink 漫谈系列(14) - DataStream Connectors之Kafka](https://developer.aliyun.com/article/686809?spm=a2c6h.14164896.0.0.541b7cb2dQp6jL)\n\n\n\n## 资源\n- [阿里云实时计算Flink](https://developer.aliyun.com/group/sc?spm=a2c6h.12873639.0.0.e12d59b2IvG4B2#/?_k=9flh5j)\n\n\n\n"
  },
  {
    "path": "columns/flink/Flink 相关论文.md",
    "content": "# Flink 相关论文\n\n- [Distributed Snapshots: Determining Global States of Distributed Systems ](https://www.microsoft.com/en-us/research/uploads/prod/2016/12/Determining-Global-States-of-a-Distributed-System.pdf?ranMID=24542&ranEAID=J84DHJLQkR4&ranSiteID=J84DHJLQkR4-mVoVymFnAblBx3zwyf98Pw&epi=J84DHJLQkR4-mVoVymFnAblBx3zwyf98Pw&irgwc=1&OCID=AID2000142_aff_7593_1243925&tduid=%28ir__1hs2uuow6wkfq3oxkk0sohzzwm2xpc33lxd0o6g200%29%287593%29%281243925%29%28J84DHJLQkR4-mVoVymFnAblBx3zwyf98Pw%29%28%29&irclickid=_1hs2uuow6wkfq3oxkk0sohzzwm2xpc33lxd0o6g200)\n\n\n\n\n"
  },
  {
    "path": "columns/flink/Flink实战系列.md",
    "content": "# Flink实战系列\n\n\n\n- [从零构建Flink SQL计算平台 - 1平台搭建概述](https://www.cnblogs.com/pyx0/p/12348114.html)\n- [从零构建Flink SQL计算平台 - 2实现作业提交](https://www.cnblogs.com/pyx0/p/12387509.html)\n- [从零构建Flink SQL计算平台 - 3实现校验和调试](https://www.cnblogs.com/pyx0/p/12441367.html)\n\n\n- [网易游戏基于 Flink 的流式 ETL 建设](http://www.whitewood.me/2020/12/20/%E7%BD%91%E6%98%93%E6%B8%B8%E6%88%8F%E5%9F%BA%E4%BA%8E-Flink-%E7%9A%84%E6%B5%81%E5%BC%8F-ETL-%E5%BB%BA%E8%AE%BE/)    2020-12\n\n\n\n\n"
  },
  {
    "path": "columns/flink/Flink开源项目汇总.md",
    "content": "# Flink开源项目汇总\n\n\n- [flink-sql-gateway](https://github.com/ververica/flink-sql-gateway#readme)\n\n- [flink-jdbc-driver](https://github.com/ververica/flink-jdbc-driver)\n\n- [flinkStreamSQL](https://github.com/DTStack/flinkStreamSQL)\n\n- [flinkx](https://github.com/DTStack/flinkx)\n\n- [waterdrop](https://github.com/InterestingLab/waterdrop)\n\n- [streamx](https://github.com/streamxhub/streamx)\n\n- [flink-streaming-platform-web](https://github.com/zhp8341/flink-streaming-platform-web)\n\n- [dlink](https://github.com/DataLinkDC/dlink)\n\n- [plink](https://github.com/hairless/plink)\n\n\n\n\n\n\n"
  },
  {
    "path": "columns/flink/Flink架构、源码分析专栏.md",
    "content": "# Flink架构、源码分析专栏\n\n\n\n## 流式计算原理\n- [Streaming 101: The world beyond batch](https://www.oreilly.com/radar/the-world-beyond-batch-streaming-101/)\n- [Streaming 102: The world beyond batch](https://www.oreilly.com/radar/the-world-beyond-batch-streaming-102/)\n\n\n## DataSet,DataStream\n\n\n\n## Table,SQL\n\n\n\n## Time,Watermark\n- [Flink Watermark 机制浅析](http://www.whitewood.me/2018/06/01/Flink-Watermark-%E6%9C%BA%E5%88%B6%E6%B5%85%E6%9E%90/)    2018-06\n\n\n\n## State\n- [Flink State 最佳实践](https://ververica.cn/developers/flink-state-best-practices/)    2020-04\n\n\n\n## Checkpoint,Savepoint\n- 关键词：Barrier非对齐\n- [分布式快照算法: Chandy-Lamport 算法](https://zhuanlan.zhihu.com/p/53482103)    2020-11\n- [Flink Checkpoint 原理流程以及常见失败原因分析](https://tech.youzan.com/flink_checkpoint_mechanism/)    2019-12\n- [Flink 轻量级异步快照 ABS 实现原理](http://www.whitewood.me/2018/05/13/Flink-%E8%BD%BB%E9%87%8F%E7%BA%A7%E5%BC%82%E6%AD%A5%E5%BF%AB%E7%85%A7-ABS-%E5%AE%9E%E7%8E%B0%E5%8E%9F%E7%90%86/)    2018-05\n- [Flink Checkpoint/Savepoint 差异](http://www.whitewood.me/2018/09/06/Flink-Checkpoint-Savepoint-%E5%B7%AE%E5%BC%82/)    2018-09\n\n\n## Operators\n### Windows\n\n### Joining\n\n### ProcessFunction\n\n\n\n\n## Connector\n- [漫谈 Flink Source 接口重构](http://www.whitewood.me/2020/02/11/%E6%BC%AB%E8%B0%88-Flink-Source-%E6%8E%A5%E5%8F%A3%E9%87%8D%E6%9E%84/)    2020-02\n- [Flink JDBC Connector：Flink 与数据库集成最佳实践](https://developer.aliyun.com/article/776069)\n\n\n## Flink On YARN\n- [Flink on YARN（上）：一张图轻松掌握基础架构与启动流程](https://developer.aliyun.com/article/719262)\n- [Flink on YARN（下）：常见问题与排查思路](https://developer.aliyun.com/article/719703)\n\n\n\n\n\n\n\n\n\n\n"
  },
  {
    "path": "columns/flink/Flink进阶教程.md",
    "content": "# Flink进阶教程\n\n时间：2019\n来源：Ververica中文社区\n\n\n- [Apache Flink 进阶教程（一）：Runtime 核心机制剖析](https://ververica.cn/developers/advanced-tutorial-1-analysis-of-the-core-mechanism-of-runtime/)\n- [Apache Flink 进阶教程（二）：Time 深度解析](https://ververica.cn/developers/advanced-tutorial-2-time-depth-analysis/)\n- [Apache Flink 进阶教程（三）：Checkpoint 的应用实践](https://ververica.cn/developers/advanced-tutorial-2-checkpoint-application-practice/)\n- [Apache Flink 进阶教程（四）：Flink on Yarn/K8s 原理剖析及实践](https://ververica.cn/developers/advanced-tutorial-2-flink-on-yarn-k8s/)\n- [Apache Flink 进阶教程（五）：数据类型和序列化](https://ververica.cn/developers/advanced-tutorial-2-serialize/)\n- [Apache Flink 进阶教程（六）：Flink 作业执行深度解析](https://ververica.cn/developers/advanced-tutorial-2-flink-job-execution-depth-analysis/)\n- [Apache Flink 进阶教程（七）：网络流控及反压剖析](https://ververica.cn/developers/advanced-tutorial-2-analysis-of-network-flow-control-and-back-pressure/)\n- [Apache Flink 进阶教程（八）：详解 Metrics 原理与实战](https://ververica.cn/developers/advanced-tutorial-2-principles-and-practice-of-metrics/)\n\n\n"
  },
  {
    "path": "columns/flink/Flink零基础入门.md",
    "content": "# Flink零基础入门\n\n时间：2019\n来源：Ververica中文社区\n\n- [Apache Flink 零基础入门（一&二）：基础概念解析](https://ververica.cn/developers/flink-basic-tutorial-1-basic-concept/)\n- [Apache Flink 零基础入门（三）：开发环境搭建和应用的配置、部署及运行](https://ververica.cn/developers/flink-basic-tutorial-1-environmental-construction/)\n- [Apache Flink 零基础入门（四）：DataStream API 编程](https://ververica.cn/developers/apache-flink-basic-zero-iii-datastream-api-programming/)\n- [Apache Flink 零基础入门（五）：客户端操作](https://ververica.cn/developers/apache-flink-zero-basic-introduction-iv-client-operation/)\n- [Apache Flink 零基础入门（六）：Flink Time & Window 解析](https://ververica.cn/developers/time-window/)\n- [Apache Flink 零基础入门（七）：状态管理及容错机制](https://ververica.cn/developers/state-management/)\n- [Apache Flink 零基础入门（八）：Table API 编程](https://ververica.cn/developers/table-api-programming/)\n- [Apache Flink 零基础入门（九）：Flink SQL 编程实践](https://ververica.cn/developers/flink-sql-programming-practice/)\n\n\n\n "
  },
  {
    "path": "columns/hive/hive教程.md",
    "content": "# Hive教程\n\n\n## Hive学习之路    2018\n- [Hive学习之路 （一）Hive初识](https://www.cnblogs.com/qingyunzong/p/8707885.html)\n- [Hive学习之路 （二）Hive安装](https://www.cnblogs.com/qingyunzong/p/8708057.html)\n- [Hive学习之路 （三）Hive元数据信息对应MySQL数据库表](https://www.cnblogs.com/qingyunzong/p/8710356.html)\n- [Hive学习之路 （四）Hive的连接3种连接方式](https://www.cnblogs.com/qingyunzong/p/8715925.html)\n- [Hive学习之路 （五）DbVisualizer配置连接hive](https://www.cnblogs.com/qingyunzong/p/8715250.html)\n- [Hive学习之路 （六）Hive SQL之数据类型和存储格式](https://www.cnblogs.com/qingyunzong/p/8733924.html)\n- [Hive学习之路 （七）Hive的DDL操作](https://www.cnblogs.com/qingyunzong/p/8723271.html)\n- [Hive学习之路 （八）Hive中文乱码](https://www.cnblogs.com/qingyunzong/p/8724155.html)\n- [Hive学习之路 （九）Hive的内置函数](https://www.cnblogs.com/qingyunzong/p/8744593.html)\n- [Hive学习之路 （十）Hive的高级操作](https://www.cnblogs.com/qingyunzong/p/8746159.html)\n- [Hive学习之路 （十一）Hive的5个面试题](https://www.cnblogs.com/qingyunzong/p/8747656.html)\n- [Hive学习之路 （十二）Hive SQL练习之影评案例](https://www.cnblogs.com/qingyunzong/p/8727264.html)\n- [Hive学习之路 （十三）Hive分析窗口函数(一) SUM,AVG,MIN,MAX](https://www.cnblogs.com/qingyunzong/p/8782794.html)\n- [Hive学习之路 （十四）Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK](https://www.cnblogs.com/qingyunzong/p/8798102.html)\n- [Hive学习之路 （十五）Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK](https://www.cnblogs.com/qingyunzong/p/8798382.html)\n- [Hive学习之路 （十六）Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE](https://www.cnblogs.com/qingyunzong/p/8798606.html)\n- [Hive学习之路 （十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP](https://www.cnblogs.com/qingyunzong/p/8798987.html)\n- [Hive学习之路 （十八）Hive的Shell操作](https://www.cnblogs.com/qingyunzong/p/8847532.html)\n- [Hive学习之路 （十九）Hive的数据倾斜](https://www.cnblogs.com/qingyunzong/p/8847597.html)\n- [Hive学习之路 （二十）Hive 执行过程实例分析](https://www.cnblogs.com/qingyunzong/p/8847651.html)\n- [Hive学习之路 （二十一）Hive 优化策略](https://www.cnblogs.com/qingyunzong/p/8847775.html)\n\n\n\n\n\n\n\n"
  },
  {
    "path": "columns/kudu/Kudu原理论文.md",
    "content": "# Kudu 原理\n\n\n- [Apache Kudu Read & Write Paths](https://blog.cloudera.com/apache-kudu-read-write-paths/)    2017-04\n- [Kudu存储原理](https://github.com/collabH/repository/blob/master/bigdata/olap/kudu/Kudu%E5%8E%9F%E7%90%86%E5%88%86%E6%9E%90.md)\n\n\n\n# Kudu 相关论文\n\n\n- [LSM Tree](https://www.cs.umb.edu/~poneil/lsmtree.pdf)\n- [Kudu论文解读: Fast Analytics on Fast Data (上)](https://zhuanlan.zhihu.com/p/137238298)    2020-04\n- [Kudu论文解读: Fast Analytics on Fast Data (下)](https://zhuanlan.zhihu.com/p/137243163)    2020-04\n"
  },
  {
    "path": "columns/kudu/网易云Kudu技术文章.md",
    "content": "# 网易云Kudu技术文章\n\n\n- [【大数据之数据仓库】选型流水记](https://sq.sf.163.com/blog/article/174995941069086720)    2018-07\n- [【大数据之数据仓库】kudu客户端java驱动缺陷](https://sq.sf.163.com/blog/article/169595475122905088)    2018-06\n- [【大数据之数据仓库】kudu性能测试报告分析](https://sq.sf.163.com/blog/article/174995336187535360)    2018-07\n\n- [分布式存储系统 Kudu 与 HBase 的简要分析与对比](https://sq.163yun.com/blog/article/198870236065431552)    2018-11\n\n- [【kudu pk parquet】runtime filter实践](https://sq.sf.163.com/blog/article/174993565549518848)    2018-07\n- [【kudu pk parquet】TPC-H Query2对比解析](https://sq.sf.163.com/blog/article/175000124925075456)    2018-07\n\n"
  },
  {
    "path": "columns/opensource/数仓相关开源项目汇总.md",
    "content": "# 数仓相关开源项目汇总\n\n\n## 元数据、数据治理\n- [atlas](https://github.com/apache/atlas)\n- [datahub](https://github.com/linkedin/datahub)\n\n\n## 数据集成\n- [DataX](https://github.com/alibaba/DataX)\n- [datax-web](https://github.com/WeiYe-Jing/datax-web)\n\n\n## 数据计算\n- [streamx](https://github.com/streamxhub/streamx)\n- [plink](https://github.com/hairless/plink)    Platform for Flink\n- [FlinkSQL](https://github.com/ambition119/FlinkSQL)\n- [flinkStreamSQL](https://github.com/DTStack/flinkStreamSQL)\n- [waterdrop](https://github.com/InterestingLab/waterdrop)\n\n\n## 调度\n- [dolphinscheduler](https://github.com/apache/dolphinscheduler)\n\n\n## 开发平台、其他\n- [davinci](https://github.com/edp963/davinci)\n- [DataSphereStudio](https://github.com/WeBankFinTech/DataSphereStudio)    微众银行\n- [wormhole](https://github.com/edp963/wormhole)    宜信\n- [big-whale](https://github.com/MeetYouDevs/big-whale)  \n- [lark](https://github.com/wxgzgl/lark)"
  },
  {
    "path": "columns/presto/Presto最佳实践、调优、踩坑专栏.md",
    "content": "# Presto最佳实践、调优、踩坑专栏\n\n\n\n\n## 一、最佳实践\n- [Presto的ETL之路](https://zhuanlan.zhihu.com/p/53996153)    2019-01\n- [Presto的应用场景与企业案例](https://zhuanlan.zhihu.com/p/260653669)    2020-10\n\n\n### 1.1 技术选型\n- [PrestoDB VS PrestoSQL发展比较](https://zhuanlan.zhihu.com/p/87621360)    2019-10\n- [PrestoDB和PrestoSQL比较及选择](http://armsword.com/2020/05/02/the-difference-between-prestodb-and-prestosql/)    2020-05\n\n\n### 1.2 大厂实践\n- [Presto在B站的实践](https://www.bilibili.com/read/cv16043517)   2022-04\n- [Presto 在字节跳动的内部实践与优化（优化篇）](https://xie.infoq.cn/article/061bb0935a8575e01ea243852)    2021-12\n- [Presto at Tencent at Scale - pdf](https://static.sched.com/hosted_files/prestocon2021/ed/Presto%20at%20Tencent%20at%20Scale%20%281%29.pdf)   2021-12\n- [Presto在车好多的实践](https://mp.weixin.qq.com/s/Bmqv54sVZgTqQ82I_RfmsA)    2020-12\n- [Presto在滴滴的探索与实践](https://zhuanlan.zhihu.com/p/266162270)    2020-10\n- [Presto 在有赞的实践之路](https://tech.youzan.com/presto-zai-you-zan-de-shi-jian-zhi-lu/)    2020-04\n- [PrestoCon 2020：云原生数据湖分析DLA的Presto实践](https://zhuanlan.zhihu.com/p/260784762)    2020-03\n- [携程 Presto 技术演进之路](https://zhuanlan.zhihu.com/p/41538472)    2018-08\n- [Presto实现原理和美团的使用实践](https://tech.meituan.com/2014/06/16/presto.html)    2014-06\n- [阿里数据湖 Presto分析算力隔离技术剖析 ](https://mp.weixin.qq.com/s/lV_nzLI6_Ott7Abyaik_bw)\n\n\n\n\n## 二、性能调优\n- [Presto性能调优的五大技巧](https://zhuanlan.zhihu.com/p/162809568)    2020-07\n- [Presto内存管理原理和调优](http://armsword.com/2018/05/22/the-memory-management-and-tuning-experience-of-presto/)    2018-05\n- [Presto内存管理相关参数设置](http://armsword.com/2019/11/13/the-configuration-settings-of-presto-memory-management/)    2019-11\n- [Presto集群内存不足时保护机制](http://armsword.com/2020/02/18/presto-memory-kill-policy/)    2020-02\n- [火焰图在Presto YGC优化中的应用](https://mp.weixin.qq.com/s/BZG7Av5f9HH9gueVF8ABvQ)    2020-03\n- [使用火焰图定位 OLAP 引擎瓶颈](https://mp.weixin.qq.com/s/pIYdeF0TtbGgV0Va35ejQg)    2021-03\n- [How to Make The Presto Query Engine Run Fastest](https://ahana.io/learn/presto/making-the-presto-query-engine-run-faster/)\n\n\n\n\n\n## 三、问题排查（踩坑）\n- [说下那些导致Presto查询变慢的JVM Bug和解决方法](http://armsword.com/2021/02/07/jvm-bug-causes-Presto-queries-to-slow-down/)    2021-02\n- [Presto Master JVM Core问题调研](http://armsword.com/2020/12/10/solve-presto-jvm-coredump/)    2020-12\n- [Jetty导致Presto堆外内存泄露的排查过程](http://armsword.com/2020/06/23/jetty-cause-presto-memory-leak/)    2020-06\n- [记一次Presto Worker OOM的查找过程](http://armsword.com/2020/06/03/the-solution-of-presto-oom-caused-by-orc-statistics/)    2020-06\n- [Presto System load过高问题调研](http://armsword.com/2019/09/18/solve-presto-system-load-too-high/)    2019-09\n- [一次 Presto 的连接数超限的问题定位](https://zhuanlan.zhihu.com/p/57956341)    2019-03\n- [Presto Codegen问题排查案例](https://zhuanlan.zhihu.com/p/66243773)    2019-05\n- [Presto coordinator的CPU持续上涨，原因竟然是这样](https://mayunlei.github.io/2019/05/20/Presto-coordinator%E7%9A%84CPU%E6%8C%81%E7%BB%AD%E4%B8%8A%E6%B6%A8%EF%BC%8C%E5%8E%9F%E5%9B%A0%E7%AB%9F%E7%84%B6%E6%98%AF%E8%BF%99%E6%A0%B7/)    2019-05\n- [Presto内存泄露问题调查](https://mayunlei.github.io/2019/09/02/Presto%E5%86%85%E5%AD%98%E6%B3%84%E9%9C%B2%E9%97%AE%E9%A2%98%E8%B0%83%E6%9F%A5/)    2019-09\n\n"
  },
  {
    "path": "columns/presto/Presto架构、源码分析专栏.md",
    "content": "# Presto架构、源码分析专栏\n\n## 一、原理、架构\n- [Presto概述：特性、原理、架构](https://zhuanlan.zhihu.com/p/260399749)    2020-10\n- [分布式SQL查询引擎Presto原理介绍](http://armsword.com/2017/12/05/presto/)    2017-12\n- [深入理解Presto](https://zhuanlan.zhihu.com/p/101366898)    2020-01\n- [分布式SQL查询引擎原理（以Presto SQL为例）](https://zhuanlan.zhihu.com/p/293775390)    2020-11\n- [深入理解Presto,Presto的内部架构](https://mayunlei.github.io/2020/08/16/%E6%B7%B1%E5%85%A5%E7%90%86%E8%A7%A3Presto-Presto%E7%9A%84%E5%86%85%E9%83%A8%E6%9E%B6%E6%9E%84/)    2020-08\n- [Presto 分布式SQL查询引擎及原理分析](https://mp.weixin.qq.com/s?__biz=MzI5MDEzMzg5Nw==&mid=2660400264&idx=1&sn=ebff65980ef45f7dffea1e5ec7d51fdc&chksm=f7425e6ec035d778dcc5704babe5241d8c80f3d21059434b00d8d4c46d9ce0bd232467ec92a6&scene=21#wechat_redirect)    2020-05\n\n\n\n\n\n## 二、源码分析\n\n### 2.1 前期准备\n- [如何快速掌握Presto源码：思路和经验](https://zhuanlan.zhihu.com/p/262236892)    2020-10\n- [Presto 源码阅读： Overview](https://zhuanlan.zhihu.com/p/51393518)    2018-12\n- [Presto的一些基本概念](http://armsword.com/2018/08/11/the-basic-concepts-of-presto/)    2018-08\n- [Presto/Trino权威指南及官方设计文档解读](https://www.jianshu.com/p/d3600d2a115d)    2021-05\n\n\n### 2.2 数据类型、Query Execution Model\n- [Presto类型系统初探](https://zhuanlan.zhihu.com/p/55299409)    2019-01\n- [Presto源码分析之数据类型](https://zhuanlan.zhihu.com/p/52713533)    2018-12\n- [Presto Core Data Structures: Slice, Block & Page](https://zhuanlan.zhihu.com/p/60813087)    2019-03\n- [Presto源码分析之Slice](https://zhuanlan.zhihu.com/p/52735465)    2018-12\n- [Presto Driver,Split and Pipeline](https://www.lewuathe.com/presto-driver,split-and-pipeline.html)    2017-05\n\n\n### 2.3 SQL解析、执行计划生成与优化\n- [Presto 源码分析：Coordinator 篇](https://www.infoq.cn/article/VNe0A9yKszPCmp32akCa)    2019-12\n- [Presto SQL Parser源码分析](https://zhuanlan.zhihu.com/p/57438825)    2019-02\n- [Presto 源码阅读：Optimizers](https://zhuanlan.zhihu.com/p/52154130)    2019-01\n- [Presto逻辑执行计划生成](https://zhuanlan.zhihu.com/p/57395047)    2019-02\n- [Presto源码分析之IterativeOptimizer](https://zhuanlan.zhihu.com/p/52879375)    2018-12\n- [Presto源码分析之模式匹配](https://zhuanlan.zhihu.com/p/52916774)    2018-12\n- [Presto技术源码解析总结-一个SQL的奇幻之旅 上](https://www.jianshu.com/p/3fccfa82e1ec)    2019-04\n- [Presto技术源码解析总结-一个SQL的奇幻之旅 下](https://www.jianshu.com/p/d8a3d7488358)    2019-04\n- [Presto查询执行过程和索引条件下推分析](https://mp.weixin.qq.com/s?src=11&timestamp=1616394200&ver=2961&signature=E7fzfl-wO5wGpohLLkE8v9hRKn5GR1TbVwU-N6Hl11T0Xl6TtlgCbhJmisPs*Z-hYiprO0yYK91O5GR0m-V-s5kvv6NudfeWMGW4iPXdAdetAfDAo4EITB9l*yZajiJS&new=1)    2020-05\n\n\n### 2.4 分布式任务调度、split生成与调度策略、worker选择策略\n- [Presto运行时浅析](https://zhuanlan.zhihu.com/p/345733460)    2021-01\n- [Presto源码阅读——如何获取Hive中的Metadata(HMS+HDFS)](https://blog.csdn.net/huang_quanlong/article/details/80380474)    2018-07\n- [Presto如何构建和使用海量Hive Splits](https://zhuanlan.zhihu.com/p/344559757)    2021-01\n- [Presto之Task执行框架](https://zhuanlan.zhihu.com/p/54172313)    2019-01\n- [Presto 是如何 schedule task 的?](https://zhuanlan.zhihu.com/p/58959725)    2019-03\n- [Presto 由Stage到Task的旅程](https://zhuanlan.zhihu.com/p/55785284)    2019-01\n- [Presto调度task选择Worker方法](http://armsword.com/2020/04/08/presto-scheduling-task/)    2020-04\n- [presto中的AllAtOnce与Phased](https://zhuanlan.zhihu.com/p/61656233)    2019-05\n- [Presto 任务调度： 任务分配到哪里](https://mayunlei.github.io/2020/05/30/Presto-%E4%BB%BB%E5%8A%A1%E8%B0%83%E5%BA%A6%EF%BC%9A-%E4%BB%BB%E5%8A%A1%E5%88%86%E9%85%8D%E5%88%B0%E5%93%AA%E9%87%8C/)    2020-05\n- [Presto Split 详解](https://blog.csdn.net/zhanyuanlin/article/details/109215177)\n\n\n### 2.5 常用Operator分析、常用SQL底层实现原理\n- [Window函数与WindowOperator源码解析](https://zhuanlan.zhihu.com/p/59550902)    2019-03\n- [Presto中coalesce函数的实现与Expression Codegen](https://zhuanlan.zhihu.com/p/64131496)    2019-04\n- [Presto Limit 类算子分析](https://zhuanlan.zhihu.com/p/62448395)    2019-04\n- [Presto分页功能概述](https://zhuanlan.zhihu.com/p/57030465)    2019-02\n\n#### join、shuffle\n- [Presto 数据如何进行shuffle](https://zhuanlan.zhihu.com/p/61565957)    2019-04\n- [Presto中的Hash Join](https://zhuanlan.zhihu.com/p/54731892)    2019-03\n\n#### 分组聚合\n- [Presto中的分组聚合查询流程](https://zhuanlan.zhihu.com/p/54385845)    2019-01\n- [深入理解Presto中的Group By查询](https://zhuanlan.zhihu.com/p/67742519)    2019-09\n\n\n### 2.6 Function、UDF\n\n\n\n### 2.7 Connector机制、常用Connector分析\n- [ORC & Presto](https://zhuanlan.zhihu.com/p/110013789)    2020-02\n- [Presto ORC及其性能优化](http://armsword.com/2019/09/30/presto-orc-and-performance-optimization/)    2019-09\n- [Presto Hive MetaStore相关代码分析](https://zhuanlan.zhihu.com/p/109033118)    2020-02\n- [Presto Connector之SystemTable](https://zhuanlan.zhihu.com/p/60934739)    2019-03\n- [如何让Presto可以连接Hbase？文中含Hbase-Connect开发详解](https://www.analysys.cn/article/detail/20019023)    2018-11\n\n\n### 2.8 其他\n- [Presto源码分析之TupleDomain](https://zhuanlan.zhihu.com/p/53113638)    2018-12\n- [Presto的缓存机制](https://zhuanlan.zhihu.com/p/196398077)    2020-08\n- [Presto Caching](https://zhuanlan.zhihu.com/p/147769024)    2020-06\n- [Presto Codegen简介与优化尝试](https://zhuanlan.zhihu.com/p/53469238)    2018-12\n- [Presto Procedure](https://zhuanlan.zhihu.com/p/59159147)    2019-03\n- [How is data inserted into Presto?](https://zhuanlan.zhihu.com/p/59846328)    2019-03\n- [Presto兼容Hive SQL的一些改造工作](http://armsword.com/2019/03/31/presto-compatible-hive-syntax/)    2019-03\n- [Presto Coordinator分布式改造](https://mayunlei.github.io/2019/11/26/Presto-Coordinator%E5%88%86%E5%B8%83%E5%BC%8F%E6%94%B9%E9%80%A0/)    2019-11\n- [Visualize Execution Plan in Presto](https://www.lewuathe.com/visualize-execution-plan-in-presto.html)    2019-09\n- [Presto兼容Hive隐式类型转换](https://mp.weixin.qq.com/s/1hn3nVBdBtBeiPl3wxvHfQ)    2021-02\n- [Presto 标量函数注册和调用过程简述](https://mp.weixin.qq.com/s/vd65OVeIOH7YFQ0QOAmsUg)    2020-09\n- [Presto 函数实现简述](https://mp.weixin.qq.com/s/1Z_qik61N3hKwWqG8QR69w)    2020-07\n- [Improved Hive Bucketing](https://trino.io/blog/2019/05/29/improved-hive-bucketing.html)\n\n\n\n\n## 三、相关论文\n- [官方论文《Presto: SQL on everything》](https://trino.io/Presto_SQL_on_Everything.pdf)    [中文翻译](https://www.jianshu.com/p/de0a1de9f26e)\n- [《F1 Query: Declarative Querying at Scale》读后感](https://zhuanlan.zhihu.com/p/53299556)    2018-12\n- [《Column-Stores vs. Row-Stores》读后感](https://zhuanlan.zhihu.com/p/54433448)    2019-01    abei-知乎\n- [读后感之《Column-Stores vs. Row-Stores》](https://zhuanlan.zhihu.com/p/54484592)    2019-01    萌豆-知乎\n- [Wander Join:Online Aggregation via Random Walks读后感](https://zhuanlan.zhihu.com/p/55050773)    2020-03\n- [《The Snowflake Elastic Data Warehouse》读后感](https://zhuanlan.zhihu.com/p/55577067)    2019-01\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n"
  },
  {
    "path": "columns/presto/Presto资料汇总、会议资讯专栏.md",
    "content": "# Presto资料汇总、会议资讯专栏\n\n## 一、官网、技术博客\n### 1.1 官网\n- [PrestoDB 官网](https://prestodb.io/)\n- [Trino 官网](https://trino.io/)     原PrestoSql\n- [PrestoDB Blog](https://prestodb.io/blog/index.html)\n- [Trino Blog](https://trino.io/blog/)\n- [PrestoDB github](https://github.com/prestodb/presto)\n- [Trino github](https://github.com/trinodb/trino)\n\n\n### 1.2 讨论区（群组、公众号等）\n- [Google Presto Group](https://groups.google.com/g/presto-users)\n- [PrestoDB Slack](https://prestodb.slack.com)\n- [Trino Slack](https://trinodb.slack.com)\n- 公众号：Presto News\n- 公众号：FFCompute \n\n\n### 1.3 技术博客\n- [Presto知乎专栏](https://www.zhihu.com/column/presto-cn)\n- [若飞-技术博客](http://armsword.com/archives/)\n\n\n\n\n\n## 二、书籍相关\n- [《Presto: The Definitive Guide》](https://trino.io/blog/2020/04/11/the-definitive-guide.html)\n- [《Presto技术内幕》](https://book.douban.com/subject/26855863/)    京东Presto团队\n\n\n\n\n\n\n## 三、会议、资讯\n### 3.1 会议\n- [Presto Meetup Oct 2019](https://zhuanlan.zhihu.com/p/88350254)    2019-10\n- [PrestoCon 2020](https://prestocon2020.sched.com/)\n- [PrestoCon 2021](https://prestocon2021.sched.com/)\n- [PrestoCon 2022](https://prestocon2022.sched.com/)\n\n\n### 3.2 资讯\n- [惊闻Facebook开源大数据引擎Presto团队正在分裂](https://zhuanlan.zhihu.com/p/55628236)    2019-01\n- [与 Facebook 分手后 ，PrestoSQL 再度因商标侵权被迫更名](https://www.infoq.cn/article/WmH0WXhqsWqpHDm6PpjC)    2021-01\n\n\n\n"
  },
  {
    "path": "columns/spark/Apache Spark的设计与实现.md",
    "content": "# Apache Spark的设计与实现\n\n> Spark Version: 1.0.2 Doc Version: 1.0.2.0\n\n\n- [介绍](https://spark-internals.books.yourtion.com/index.html)\n- [概览](https://spark-internals.books.yourtion.com/markdown/1-Overview.html)\n- [Job 逻辑执行图](https://spark-internals.books.yourtion.com/markdown/2-JobLogicalPlan.html)\n- [Job 物理执行图](https://spark-internals.books.yourtion.com/markdown/3-JobPhysicalPlan.html)\n- [Shuffle 过程](https://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html)\n- [架构](https://spark-internals.books.yourtion.com/markdown/5-Architecture.html)\n- [Cache 和 Checkpoint](https://spark-internals.books.yourtion.com/markdown/6-CacheAndCheckpoint.html)\n- [Broadcast](https://spark-internals.books.yourtion.com/markdown/7-Broadcast.html)\n\n- [SparkInternals - github](https://github.com/JerryLead/SparkInternals)\n\n\n\n"
  },
  {
    "path": "columns/starrocks/StarRocks技术内幕.md",
    "content": "# StarRocks技术内幕\n\n- [多表物化视图的设计与实现](https://blog.csdn.net/StarRocks/article/details/127863764)    2022-11"
  }
]