Albert Cheng's blog

Code the world


  • 首页

  • 归档

  • 分类

  • 标签

  • 关于

  • 搜索
close
Albert Cheng's blog

让关系型数据库查询再飞一会儿

发表于 2018-11-30 | 分类于 spark相关 | | 阅读次数

背景

有一个系统的业务正在膨胀中,某一些报表(报表数据在mysql中)数据量增长比较厉害,报表页面已经处于卡爆了的状态。中间经过mysql本身的优化,已经到了当前系统架构+存储模型的瓶颈。本文提供一种优化思路,抛砖引玉。

阅读全文 »

Albert Cheng's blog

让Spark MLlib的预测性能再飞一会儿

发表于 2018-05-02 | 分类于 spark相关 | | 阅读次数

背景介绍

我们的系统有一小部分机器学习模型识别需求,因为种种原因,最终选用了Spark MLlib来进行训练和预测。MLlib的Pipeline设计很好地契合了一个机器学习流水线,在模型训练和效果验证阶段,pipeline可以简化开发流程,然而在预测阶段,MLlib pipeline的表现有点差强人意。

阅读全文 »
Albert Cheng's blog

上帝的骰子游戏

发表于 2017-09-25 | 分类于 碎碎念 | | 阅读次数

概率是一个很有意思的东西,通过上帝投掷出来的骰子,你能猜到上帝的意图。
这是一篇白话瞎文,并不是特别严谨。

阅读全文 »

Albert Cheng's blog

word2vec在学历造假中的探索

发表于 2017-09-15 | 分类于 NLP | | 阅读次数

前言

  1. 如果你想了解word2vec的原理,这篇文章并不适合你,出门右转用google。
  2. 这篇文章的东西含金量不高,希望搞NLP,ML,DL的专业人士轻拍。
  3. 因为含金量不高,所以有一些诸如数据预处理的一些琐碎的东西,因此比较适合新手村的新手任务。
    阅读全文 »
Albert Cheng's blog

变参调用:scala和java的一个不同点

发表于 2016-11-11 | 分类于 Scala日常 | | 阅读次数

scala和java几乎没有区别,可以互相调用。注意这里说的是几乎,总有那么少数,出人意料的惊喜在告诉你,scala就是scala。

阅读全文 »

Albert Cheng's blog

Graphx 源码剖析-图的生成

发表于 2016-10-31 | 分类于 spark相关 | | 阅读次数

Graphx的实现代码并不多,这得益于Spark RDD niubility的设计。众所周知,在分布式上做图计算需要考虑点、边的切割。而RDD本身是一个分布式的数据集,所以,做Graphx只需要把边和点用RDD表示出来就可以了。本文就是从这个角度来分析Graphx的运作基本原理(本文基于Spark2.0)。

阅读全文 »

12
Albert Cheng

Albert Cheng

专注于大数据处理技术

9 日志
5 分类
17 标签
RSS
GitHub Weibo 简书
友情链接
  • Albert Cheng的简书
  • Amos Bird(人体工程学程序员)
© 2019 Albert Cheng
由 Hexo 强力驱动
主题 - NexT.Pisces