让关系型数据库查询再飞一会儿

发表于 2018-11-30 | 分类于 spark相关 | | 阅读次数

背景

有一个系统的业务正在膨胀中，某一些报表（报表数据在mysql中）数据量增长比较厉害，报表页面已经处于卡爆了的状态。中间经过mysql本身的优化，已经到了当前系统架构+存储模型的瓶颈。本文提供一种优化思路，抛砖引玉。

阅读全文 »

让Spark MLlib的预测性能再飞一会儿

发表于 2018-05-02 | 分类于 spark相关 | | 阅读次数

背景介绍

我们的系统有一小部分机器学习模型识别需求，因为种种原因，最终选用了Spark MLlib来进行训练和预测。MLlib的Pipeline设计很好地契合了一个机器学习流水线，在模型训练和效果验证阶段，pipeline可以简化开发流程，然而在预测阶段，MLlib pipeline的表现有点差强人意。

阅读全文 »

上帝的骰子游戏

发表于 2017-09-25 | 分类于碎碎念 | | 阅读次数

概率是一个很有意思的东西，通过上帝投掷出来的骰子，你能猜到上帝的意图。
这是一篇白话瞎文，并不是特别严谨。

阅读全文 »

word2vec在学历造假中的探索

发表于 2017-09-15 | 分类于 NLP | | 阅读次数

前言

如果你想了解word2vec的原理，这篇文章并不适合你，出门右转用google。
这篇文章的东西含金量不高，希望搞NLP，ML，DL的专业人士轻拍。
因为含金量不高，所以有一些诸如数据预处理的一些琐碎的东西，因此比较适合新手村的新手任务。
阅读全文 »

变参调用：scala和java的一个不同点

发表于 2016-11-11 | 分类于 Scala日常 | | 阅读次数

scala和java几乎没有区别，可以互相调用。注意这里说的是几乎，总有那么少数，出人意料的惊喜在告诉你，scala就是scala。

阅读全文 »

Graphx 源码剖析-图的生成

发表于 2016-10-31 | 分类于 spark相关 | | 阅读次数

Graphx的实现代码并不多，这得益于Spark RDD niubility的设计。众所周知，在分布式上做图计算需要考虑点、边的切割。而RDD本身是一个分布式的数据集，所以，做Graphx只需要把边和点用RDD表示出来就可以了。本文就是从这个角度来分析Graphx的运作基本原理（本文基于Spark2.0）。

阅读全文 »