匠心源码
摘要:Java源码系列主要剖析集合多线程以及IO相关的源码,持续更新中...... 八月份开始更新 阅读全文
posted @ 2019-07-28 17:06 匠心源码 阅读 (133) 评论 (0) 编辑
摘要:如下,是 spark 源码分析系列的一些文章汇总,持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码分析之 阅读全文
posted @ 2019-07-28 16:58 匠心源码 阅读 (341) 评论 (0) 编辑
摘要:提出问题 1. shuffle过程的数据是如何传输过来的,是按文件来传输,还是只传输该reduce对应在文件中的那部分数据? 2. shuffle读过程是否有溢出操作?是如何处理的? 3. shuffle读过程是否可以排序、聚合?是如何做的? 。。。。。。 概述 在 spark shuffle的写操 阅读全文
posted @ 2019-08-09 20:25 匠心源码 阅读 (146) 评论 (0) 编辑
摘要:提出问题 1. spark shuffle的预聚合操作是如何做的,其中底层的数据结构是什么?在数据写入到内存中有预聚合,在读溢出文件合并到最终的文件时是否也有预聚合操作? 2. shuffle数据的排序是如何做的? 分区内的数据是否是有序的?若有序,spark 内部是按照什么排序算法来排序每一个分区 阅读全文
posted @ 2019-08-06 23:44 匠心源码 阅读 (237) 评论 (0) 编辑
摘要:前言 在前两篇文章 spark shuffle的写操作之准备工作 中引出了spark shuffle的三种实现,spark shuffle写操作三部曲之BypassMergeSortShuffleWriter 讲述了BypassMergeSortShuffleWriter 用于shuffle写操作的 阅读全文
posted @ 2019-08-04 23:23 匠心源码 阅读 (198) 评论 (0) 编辑
摘要:前言 再上一篇文章 spark shuffle的写操作之准备工作 中,主要介绍了 spark shuffle的准备工作,本篇文章主要介绍spark shuffle使用BypassMergeSortShuffleWriter写数据详细细节。 在本篇文章中如果有不了解的术语,也可以参照 spark sh 阅读全文
posted @ 2019-08-03 07:00 匠心源码 阅读 (161) 评论 (0) 编辑
摘要:前言 在前三篇文章中,spark 源码分析之十九 -- DAG的生成和Stage的划分 剖析了DAG的构建和Stage的划分,spark 源码分析之二十 -- Stage的提交 剖析了TaskSet任务的提交,以及spark 源码分析之二十一 -- Task的执行细节剖析了Task执行的整个流程。在 阅读全文
posted @ 2019-08-02 22:59 匠心源码 阅读 (191) 评论 (0) 编辑
摘要:问题的提出 本篇文章将回答如下问题: 1. spark任务在执行的时候,其内存是如何管理的? 2. 堆内内存的寻址是如何设计的?是如何避免由于JVM的GC的存在引起的内存TT快三地址 变化的?其内部的内存缓存池回收机制是如何设计的? 3. 堆外和堆内内存分别是通过什么来分配的?其数据的偏移量是如何计算的? 4 阅读全文
posted @ 2019-07-31 23:43 匠心源码 阅读 (214) 评论 (0) 编辑
摘要:引言 在上两篇文章 spark 源码分析之十九 -- DAG的生成和Stage的划分 和 spark 源码分析之二十 -- Stage的提交 中剖析了Spark的DAG的生成,Stage的划分以及Stage转换为TaskSet后的提交。 如下图,TT快三TT快三我 们 在前两篇文章中剖析了DAG的构建,Stage的划分 阅读全文
posted @ 2019-07-29 19:19 匠心源码 阅读 (297) 评论 (0) 编辑
摘要:Java源码系列主要剖析集合多线程以及IO相关的源码,持续更新中...... 八月份开始更新 阅读全文
posted @ 2019-07-28 17:06 匠心源码 阅读 (133) 评论 (0) 编辑
摘要:如下,是 spark 源码分析系列的一些文章汇总,持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码分析之 阅读全文
posted @ 2019-07-28 16:58 匠心源码 阅读 (341) 评论 (0) 编辑
摘要:引言 上篇 spark 源码分析之十九 -- DAG的生成和Stage的划分 中,主要介绍了下图中的前两个阶段DAG的构建和Stage的划分。 本篇文章主要剖析,Stage是如何提交的。 rdd的依赖关系构成了DAG,DAGScheduler根据shuffle依赖关系将DAG图划分为一个一个小的st 阅读全文
posted @ 2019-07-26 19:48 匠心源码 阅读 (229) 评论 (0) 编辑