1.Spark 1.5版本针对DataFrame引入的新的内存管理,防止由JVM管理导致频繁GC的现象,极大了提升了性能,具体Spark 1.5版本的更新内容见以下链接:
http://weibo.com/p/1001603885229470280066#_loginLayer_1454047368241
2.Spark 1.5引入的新的内存管理器其实就是通过unsfae类在堆外分配内存,此部分分配的内存完全不受JVM内存管理器的管理,完全由Spark显示地申请和释放。
Spark的作者之一的一篇博文对此作了详细解释:
Project Tungsten: Bringing Spark Closer to Bare Metal
如果英文不好可以看csdn上有人翻译的:
Project Tungsten:让Spark将硬件性能压榨到极限-CSDN.NET
Project Tungsten: Bringing Spark Closer to Bare Metal
如果英文不好可以看csdn上有人翻译的:
Project Tungsten:让Spark将硬件性能压榨到极限-CSDN.NET
其中JVM管理内存和应用程序自己管理的内存的性能对比可见:
英文好的同学可见参考stackoverflow上关于in heap 和 off heap的讨论:
以上内容来自知乎,importnew和stackoverflow
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/9320.html