心怀畏惧

在Ubuntu上搭建GPU加速的TensorFlow环境

2017-02-22T16:24:13.000Z

硬件软件环境

Ubuntu 16.10
GTX 750ti（需要一张NVIDIA的显卡，越新越好，新卡的Compute Capability版本高）
NVIDA CUDA 8.0
NVIDIA 驱动 375.26
gcc version 4.9

1. 基础环境配置

因为Ubuntu是机子新装的，所以我安装了Linux自己用的一些基本环境和python科学计算的库，请各取所需。

基本开发

安装vim sudo apt-get install vim
安装zsh

1 2	sudo apt-get install zsh chsh -s /usr/bin/zsh

安装git sudo apt-get install git
安装 oh-my-zsh sh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"
安装 autojump sudo apt-get install autojump

Python科学计算库安装

安装Anaconda

# 下载Anaconda
bash Anaconda2-4.3.0-Linux-x86_64.sh 
# 切换成清华镜像，用于conda加速
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

安装open-jdk sudo apt-get install openjdk-8-jdk
安装pycharm

2. NVIDA环境安装

首先贴一段Tensorflow官网上GPU支持对NVIDIA的环境需求：If you are installing TensorFlow with GPU support using one of the mechanisms described in this guide, then the following NVIDIA software must be installed on your system:

CUDA® Toolkit 8.0. For details, see NVIDIA’s documentation. Ensure that you append the relevant Cuda pathnames to the LD_LIBRARY_PATH environment variable as described in the NVIDIA documentation.
The NVIDIA drivers associated with CUDA Toolkit 8.0.
cuDNN v5.1. For details, see NVIDIA’s documentation. Ensure that you create the CUDA_HOME environment variable as described in the NVIDIA documentation.
GPU card with CUDA Compute Capability 3.0 or higher. See NVIDIA documentation for a list of supported GPU cards.
The libcupti-dev library, which is the NVIDIA CUDA Profile Tools Interface. This library provides advanced profiling support. To install this library, issue the following command:

1	$ sudo apt-get install libcupti-dev

除了最后的libcupti-dev库可以直接apt-get，我们需要装的大头就是CUDA® Toolkit和cuDNN两个东西，各种坑从这里开始了囧。

CUDA安装

按照 NVIDIA’s documentation 给出的步骤：

在安装之前首先逐一验证系统是否符合条件（Pre-installation Actions)
下载CUDA Toolkit，UBuntu推荐下载deb(local)版，安装过程比较方便
把deb包加入到包管理中，然后apt-get安装
安装后的验证过程

在安装后的验证过程中需要注意的几个点如下：

CUDA环境变量配置

export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64/${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
# 注意这里要路径要和Nvida驱动版本一致
export LPATH=/usr/lib/nvidia-375:$LPATH
export LIBRARY_PATH=/usr/lib/nvidia-375:$LIBRARY_PATH
# Tensorflow 要求的环境变量
export CUDA_HOME=/usr/local/cuda-8.0

这里最坑爹的一点是LIBRARY_PATH这个环境变量配置，官方的文档上一点没提，如果不写的话，在编译cuda的samples时，会在3_Imaging这个samples下报这个错误

1
2
3

/usr/bin/ld: cannot find -lnvcuvid
collect2: error: ld returned 1 exit status
Makefile:346: recipe for target 'cudaDecodeGL' failed

切换成低版本的gcc编译器

因为Ubuntu 16.10自带的gcc编译器版本是6.2，对于CUDA来说太新了，所以会报错

1	error -- unsupported GNU version! gcc versions later than 5 are not supported!

可以看到CUDA 8.0 能够支持的gcc最新版本不能超过5。网上给出的比较好的解决办法是利用Ubutnu的update-alternatives 命令来切换版本，具体命令如下：

sudo apt-get install gcc-4.9 g++-4.9
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.9 40 --slave /usr/bin/g++ g++ /usr/bin/g++-4.9
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-6 30 --slave /usr/bin/g++ g++ /usr/bin/g++-6 
sudo update-alternatives --config gcc

敲完sudo update-alternatives --config gcc之后，你就可以看到不同版本的gcc优先级了。

Samples编译测试

根据Recommended Actions](http://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#recommended-post)步骤编译Cuda的那些samples，如果出现Finished building CUDA samples，说明所有samples的编译通过了。可以敲NVIDIA_CUDA-8.0_Samples ./bin/x86_64/linux/release/nbody，可以看到以下效果

tensorflow_gpu_2017-02-22_01

cuDNN配置

下载 cuDNN之前需要注册一下，成为NVIDIA的开发者，然后把下载的包解压拷贝到CUDA的链接库和头文件目录就行了。

tar -xzvf cudnn-8.0-linux-x64-v5.1.tgz 
# 解压得到cuda文件
sudo cp cuda/lib64/* /usr/local/cuda/lib64 
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/

3. Tensorflow安装

安装Tensorflow有多种方式，这里我直接用的pip安装，python版本是2.7。

1 2	TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.0.0-cp27-none-linux_x86_64.whl sudo pip install --upgrade TF_BINARY_URL

都搞定之后，启动ipython，输入

import tensorflow as tf 
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))

能看到输出的结果，说明GPU加速安装成功了。

I tensorflow/core/common_runtime/gpu/gpu_device.cc:885] Found device 0 with properties: 
name: GeForce GTX 750 Ti
major: 5 minor: 0 memoryClockRate (GHz) 1.0845
pciBusID 0000:01:00.0
Total memory: 1.95GiB
Free memory: 1.53GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:906] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:916] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:975] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 750 Ti, pci bus id: 0000:01:00.0)
Hello, TensorFlow!

变分推断学习笔记(3)——三硬币问题的变分推断解法

2014-12-12T14:54:14.000Z

变分推断学习笔记系列：

~~其实三硬币的例子不写，前面的介绍也够了，写这个纯粹是吃撑了~~。这次我们采取更加普遍的假设，将原先假设的3枚硬币拓展开来。现在假设有$K+1$个骰子，第一个骰子有$K$个面，其余的骰子有$T$个面。进行如下实验：先掷第一个骰子，根据投出的结果$Z_k$，选择第$Z_k$个骰子再投，观测到投出的$N$个结果，每个结果$w_n$可能是 \[ 1，3，7，8，3，2，6，9，... \]

可以看到现在第1个骰子投出的标签服从多项分布： \[Z_k \sim Multinomial(\pi)\] 然后剩余骰子投出的面也服从多项分布 \[W_{Z_{kt}} \sim Multinomial(\theta_{Z_k})\] 我们假设，随机变量$\pi$和$\theta$的先验分布为狄利克雷分布，超参分别为$\alpha$和$\beta$。

让我们写出模型的联合概率： \[ \begin{split}P(W,Z,\Pi,\Theta)&=p(\pi|\alpha)\prod^K_{k=1}p(\theta_k|\beta)\prod^N_{n=1}\prod^K_{k=1}\prod^T_{t=1}p(z_{nkt}|\pi_{nkt})p(w_{n}|\theta_{z_{nkt}})\\ \end{split} \] 相应地，我们利用平均场理论切断模型直接耦合的地方（见图１），设定一个近似真实后验的分布族$q$。 \[ \begin{split}P(W,Z,\Pi,\Theta)&=q(\pi|\nu)\prod^K_{k=1}q(\theta_k|\lambda_k)\prod^N_{n=1}\prod^K_{k=1}\prod^T_{t=1}q(z_{nkt}|\phi_{nkt})\\ \end{split} \]

然后我们最小化$q$ 与真实后验之间的KL 散度，也就是最大化证据下界$\mathcal{L}$(ELBO)。证据下界写出来是这样的: \[ \begin{split} \mathcal{L} &= E_q[\log p(\pi|\alpha)]-E_q[\log q(\pi|\nu)] \\ &+\sum_k E_q[\log p(\theta_k|\beta)]-\sum_k E_q[\log q(\theta_k|\lambda_k)] \\ &+\sum_n\sum_t\sum_k E_q[\log p(z_{nkt}|\pi_{nkt})]-\sum_n\sum_t\sum_k E_q[\log q(z_{nkt}|\phi_{nkt})] \\ &+ \sum_n\sum_t\sum_k E_q[\log p(w_{nt}|\theta_{z_{nkt}})] \end{split} \]

因为Dirichlet分布为 \[ Dir(\vec{p}|\vec{\alpha})=\frac{\Gamma(\sum^K_{k=1}\alpha_k)}{\prod^K_{k=1}\Gamma{(\alpha_k)}}\prod^K_{k=1}p_k^{\alpha_k-1} \]

由LDA原论文的Appendix A.1可知，Dirichlet的某个分布（single probability component ）的log期望为 \[ \mathbb{E}[\log p_k|\alpha_k]=\psi(\alpha_k)-\psi(\sum_k \alpha_k) \] 其中$\psi(\alpha)=\frac{d}{d\alpha}\log \Gamma(\alpha)$。根据这个公式，计算$\mathcal{L}$关于$q$的期望,我们可以得到 \[ \begin{split} \mathcal{L} &=\log\Gamma(\sum_k \alpha_k)-\log\Gamma(\alpha_k)+\sum_{k}(\alpha_k-1)[\Psi(\nu_{k})-\Psi(\sum_v \nu_{k})]\\ &-\log\Gamma(\sum_k \nu_k)+\log\Gamma(\nu_k)-\sum_{k}(\nu_k-1)[\Psi(\nu_{k})-\Psi(\sum_v \nu_{k})]\\ &+\sum_k \log\Gamma(\sum_t \beta_{k,t})-\sum_{k,t}\log\Gamma(\beta_{k,t})+\sum_{k,t}(\beta_t-1)[\Psi(\lambda_{k,t})-\Psi(\sum_k \lambda_{k,t})]\\ &-\sum_k \log\Gamma(\sum_t \lambda_{k,t})+\sum_{k,t}\log\Gamma(\lambda_{k,t})-\sum_{k,t}(\lambda_{k,t}-1)[\Psi(\lambda_{k,t})-\Psi(\sum_k \lambda_{k,t})]\\ &+\sum_n\sum_k\sum_t \phi_{nkt}[\Psi(\alpha_{k})-\Psi(\sum_k \alpha_{k})]-\sum_n\sum_k\sum_t \phi_{nkt}\log \phi_{nkt} \\ &+\sum_n\sum_k\sum_t \phi_{nkt}\delta_t(w_{n})[\Psi(\lambda_{k,t})-\Psi(\sum_t \lambda_{k,t})] \\ \end{split} \] 其中$\delta_t(w_{n})$当且仅当$w_n=t$时为1，其余的时候均为0。因为多项分布$p(x)=\prod^K_{k=1}p_k^{x_k}$的期望$E[x_k]=p_k$，所以这里有$E[z_{nkt}]=\phi_{nkt}$，$\phi_{nkt}$代表隐藏变量的期望值。

将$\mathcal{L}$分别对各自的参数求导，解得 \[ \begin{split} &\nu_k=\alpha_k \\ &\phi_{dnk} \propto \exp\{\Psi(\lambda_{k,t})-\Psi(\sum_t \lambda_{k,t})\} \\ &\lambda_{k,t}=\beta_t+\sum_n\phi_ {nkt}\delta_t(w_n) \end{split} \] 相互迭代到收敛就好啦。

使用LeanCloud平台为Hexo博客添加文章浏览量统计组件

2014-12-11T11:25:03.000Z

在原来的wordpress博客中有一个WP-PostViews Plus插件，可以统计每篇文章的浏览量，可以为游客提供热门文章的信息，~~(顺便满足一下作者的虚荣心)~~。现在切换到静态博客Hexo了，就需要第三方服务来实现这样的动态数据处理。这里要感谢师弟ariwaranosai给我推荐的LeanCloud平台，以及为hexo博客添加访问次数统计功能（基于BAE）提供的思路。使用LeanCloud的优点是它自己实现了一个AV.view 类，不需要考虑JavaScript的跨站访问问题。

创建Lean Cloud应用

首先一句话介绍Lean Cloud:

LeanCloud（aka. AVOS Cloud）提供一站式后端云服务，从数据存储、实时聊天、消息推送到移动统计，涵盖应用开发的多方面后端需求。

我们只用到它的数据存储部分,具体步骤如下：

首先到『控制台』创建一个应用，名字随便取。
点击新建应用的『数据』选项，选择『创建Class』，取名为”Counter“。
点击新建应用右上角的齿轮，在『应用Key』选项里得到APP ID 和 APP Key，在后面会用到。

修改Hexo页面

新建popular_posts.ejs

首先在theme/你的主题/layout/_widget目录下新建popular_posts.ejs文件,其内容为

<% if (site.posts.length){ %>
  <div class="widget-wrap">
    <h3 class="widget-title">浏览数目h3>
    <div class="widget">
      <ul class="popularlist">
      ul>
    div>
  div>
<% } %>

修改head.ejs

修改theme/你的主题/layout/_partial/head.ejs文件,在head标签的最后插入：

1
2