14863637393852.html

<!doctype html>
<html class="no-js" lang="en">
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <title>
    
  低素质弹幕分类器的CNN实现 - 雪地
  
  </title>
  
  
  <link href="atom.xml" rel="alternate" title="雪地" type="application/atom+xml">
    <link rel="stylesheet" href="asset/css/foundation.min.css" />
    <link rel="stylesheet" href="asset/css/docs.css" />
    <link rel="icon" href="asset/img/favicon.ico" />
    <script src="asset/js/vendor/modernizr.js"></script>
    <script src="asset/js/vendor/jquery.js"></script>
  <script src="asset/highlightjs/highlight.pack.js"></script>
  <link href="asset/highlightjs/styles/github.css" media="screen, projection" rel="stylesheet" type="text/css">

  <script>hljs.initHighlightingOnLoad();</script>
<script type="text/javascript">
  function before_search(){
    var searchVal = 'site:yinzo.github.io ' + document.getElementById('search_input').value;
    document.getElementById('search_q').value = searchVal;
    return true;
  }
</script>
  </head>
  <body class="antialiased hide-extras">
    
    <div class="marketing off-canvas-wrap" data-offcanvas>
      <div class="inner-wrap">


<nav class="top-bar docs-bar hide-for-small" data-topbar>


  <section class="top-bar-section">
  <div class="row">
      <div style="position: relative;width:100%;"><div style="position: absolute; width:100%;">
        <ul id="main-menu" class="left">
        <li id="menu_item_index"><a href="index.html">Blog</a></li>
        <li id="menu_item_archives"><a href="archives.html">Archives</a></li>
        <li id="menu_item_about"><a href="http://yinz.xyz/">Home</a></li>
        </ul>

        <ul class="right" id="search-wrap">
          <li>
<form target="_blank" onsubmit="return before_search();" action="http://google.com/search" method="get">
    <input type="hidden" id="search_q" name="q" value="" />
    <input tabindex="1" type="search" id="search_input"  placeholder="Search"/>
</form>
</li>
          </ul>
      </div></div>
  </div>
  </section>

</nav>

        <nav class="tab-bar show-for-small">
  <a href="javascript:void(0)" class="left-off-canvas-toggle menu-icon">
    <span> &nbsp; 雪地</span>
  </a>
</nav>

<aside class="left-off-canvas-menu">
      <ul class="off-canvas-list">
       
       <li><a href="index.html">Blog</a></li>
    <li><a href="archives.html">Archives</a></li>
    <li><a href="http://yinz.xyz/">Home</a></li>

    <li><label>Categories</label></li>

        
            <li><a href="Security%20Info.html">Security Info</a></li>
        
            <li><a href="Adversary%20Learning.html">Adversary Learning</a></li>
        
            <li><a href="TCPIP.html">TCP/IP</a></li>
        
            <li><a href="Pattern%20Recognition.html">Pattern Recognition</a></li>
        
            <li><a href="Python.html">Python</a></li>
        
            <li><a href="OS.html">OS</a></li>
        
            <li><a href="Deep%20Learning.html">Deep Learning</a></li>
        
            <li><a href="Machine%20Learning.html">Machine Learning</a></li>
         

      </ul>
    </aside>

<a class="exit-off-canvas" href="#"></a>


        <section id="main-content" role="main" class="scroll-container">
        
       
 <script type="text/javascript">
  $(function(){
    $('#menu_item_index').addClass('is_active');
  });
</script>
<div class="row">
  <div class="large-8 medium-8 columns">
      <div class="markdown-body article-wrap">
       <div class="article">
          
          <h1>低素质弹幕分类器的CNN实现</h1>
     
        <div class="read-more clearfix">
          <span class="date">2017/2/6 14:48 下午</span>

          <span>posted in&nbsp;</span> 
          
              <span class="posted-in"><a href='Deep%20Learning.html'>Deep Learning</a></span>
           
         
          <span class="comments">
            

          </span>

        </div>
      </div><!-- article -->

      <div class="article-content">
      <h2 id="toc_0">整体架构</h2>

<p>对于一条弹幕，首先进行分词，然后通过 word2vec 转换为词向量，再填充至固定长度，作为卷积神经网络的输入。</p>

<p>卷积神经网络的结构如下：</p>

<pre><code class="language-python">model = Sequential()
model.add(Convolution1D(100, 4, border_mode=&#39;valid&#39;, input_shape=(100, word_model.vector_size)))
model.add(Activation(&#39;relu&#39;))
model.add(Convolution1D(100, 4, border_mode=&#39;valid&#39;, input_shape=(100, word_model.vector_size)))
model.add(Activation(&#39;relu&#39;))
model.add(Flatten()) 
model.add(Dense(100, activation=&#39;relu&#39;))
model.add(Dense(2, activation=&#39;softmax&#39;))
model.compile(loss=&#39;categorical_crossentropy&#39;,
              optimizer=&#39;adam&#39;,
              metrics=[&#39;accuracy&#39;]
             )
</code></pre>

<p>最终输出为2位的 categorical result，直接使用第一项，即骂人弹幕的概率作为输出。</p>

<p>然后通过代理，在弹幕服务器与播放器之间插入一层，实现弹幕的分类与屏蔽。最终实现了有效的骂人弹幕自动屏蔽，但是误伤的情况依然存在。</p>

<h2 id="toc_1">搭建过程</h2>

<span id="more"></span><!-- more -->

<p>使用游戏区的所有弹幕来训练 word2vec model。这里我是用的是 word2vec 的 Python 实现 gensim</p>

<p>训练脚本来自这篇文章 <a href="http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C">中英文维基百科语料上的Word2Vec实验</a></p>

<pre><code class="language-python"># -*- coding: utf-8 -*-

&quot;&quot;&quot;
build a word2vec model by text file, each sentence for a line.
usage: [input file] [gensim model filename] [word2vec model filename]
example: output.txt life_damku.model life_damku.vector

&quot;&quot;&quot;

import logging
import os.path
import sys
import multiprocessing

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

if __name__ == &#39;__main__&#39;:
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)

    logging.basicConfig(format=&#39;%(asctime)s: %(levelname)s: %(message)s&#39;)
    logging.root.setLevel(level=logging.INFO)
    logger.info(&quot;running %s&quot; % &#39; &#39;.join(sys.argv))

    # check and process input arguments
    if len(sys.argv) &lt; 4:
        print(globals()[&#39;__doc__&#39;] % locals())
        sys.exit(1)
    inp, outp1, outp2 = sys.argv[1:4]

    model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5,
                     workers=multiprocessing.cpu_count())

    # trim unneeded model memory = use(much) less RAM
    # model.init_sims(replace=True)
    model.save(outp1)
    model.save_word2vec_format(outp2, binary=False)

</code></pre>

<p>然后，我从所有弹幕中随机抽取了5000条，进行人工标注分类，其中有63条骂人弹幕。由于骂人弹幕太少，我又通过关键词搜索加人工筛选的方式，增加了4000条骂人弹幕。</p>

<p>以这约9000条弹幕作为训练样本，80%的弹幕作为 train set， 其余的20%作为 validation set</p>

<p>对训练样本进行预处理：</p>

<ol>
<li>分词</li>
<li>转换为词向量</li>
<li>填充至100位长，其中填充的位的词向量全部置零。</li>
</ol>

<p>开始构建卷积神经网络，我选用的框架是使用 TensorFlow 后端的 keras。最终经过调试，得到这样一个结构</p>

<p><a href="https://yinzo.github.io/14863637259966.html">具体的训练过程可以看这里</a></p>

<pre><code class="language-python">model = Sequential()
model.add(Convolution1D(100, 4, border_mode=&#39;valid&#39;, input_shape=(100, word_model.vector_size)))
model.add(Activation(&#39;relu&#39;))
model.add(Convolution1D(100, 4, border_mode=&#39;valid&#39;, input_shape=(100, word_model.vector_size)))
model.add(Activation(&#39;relu&#39;))
model.add(Flatten()) 
model.add(Dense(100, activation=&#39;relu&#39;))
model.add(Dense(2, activation=&#39;softmax&#39;))
model.compile(loss=&#39;categorical_crossentropy&#39;,
              optimizer=&#39;adam&#39;,
              metrics=[&#39;accuracy&#39;]
             )
</code></pre>

<p>需要注意的是，<code>model.fit</code> 指定了 class weight</p>

<pre><code class="language-python">model.fit(X_train, Y_train, nb_epoch=1, batch_size=300, class_weight={
              0: len(positive_sample)/len(negative_sample),
              1: 1
          })
</code></pre>

<p>单次训练迭代时间约25秒，我总共迭代了20次。其中每次迭代我都将 model 保存到一个列表中，并使用当前 model 对验证集进行测试，输出测试结果。</p>

<p>然后根据测试结果，选用了第3次迭代的 model ，尝试使用新的，不在样本中的视频弹幕进行人工检验识别效果。</p>

<p>选用视频 <a href="http://www.bilibili.com/video/av8365806/">av8365806</a> 里面存在大量对骂的弹幕，适合进行测试</p>

<p>这里我花了小半天时间，用 tornado 搭了个服务器，模拟 comment.bilibili.com 的所有请求，其中对于弹幕的请求，插入一层封装好的神经网络模型进行分类，再返回给用户请求，其余请求直接转发。搭建好后通过 Surge 的 URL Rewrite 将请求转到本地服务器上。</p>

<p><img src="media/14856271844324/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202017-02-06%2013.24.12.png" alt="屏幕快照 2017-02-06 13.24.12"/></p>

<p>然后此时访问弹幕都会先经过本地服务器进行处理了。查看 av8365806 的弹幕分类情况：</p>

<p>首先是比较欣慰的结果，大部分直接用脏字喷人的弹幕都被高确信地识别出来了<br/>
<img src="media/14856271844324/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202017-02-06%2013.26.37.png" alt="屏幕快照 2017-02-06 13.26.37"/></p>

<p>其次，存在一些短弹幕被误伤的情况，而且确信度还莫名的挺高<br/>
<img src="media/14856271844324/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202017-02-06%2013.26.51.png" alt="屏幕快照 2017-02-06 13.26.51"/></p>

<p>然后，依然存在一部分弹幕脏字不明显，以及一些反讽的语句没有识别出来<br/>
<img src="media/14856271844324/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202017-02-06%2013.27.39.png" alt="屏幕快照 2017-02-06 13.27.39"/></p>

<p>另外由于3000弹幕的识别时间在5秒左右，再加上网络延迟以及一些预处理后处理的时间，整体延迟约10秒，所以这个代理服务器可能还没能达到投入大规模使用的效率，比较可惜。</p>

<p>但是其识别效果，对于日常观感绝对是有所提升的。</p>

<p>脑海中对于屏蔽模式可以分为以下三挡：</p>

<ol>
<li>【仁慈模式】被分类器识别为骂人的弹幕，弹幕内容前填充100个空格，颜色变为白色，字号变小，统一为滚动弹幕。其中，填充空格能够使得这条弹幕将会以极快的速度飘过视野。</li>
<li>【常规模式】被分类器识别为骂人的弹幕直接删除，该弹幕的发送者的其他弹幕使用仁慈模式进行修正。</li>
<li>【灭杀模式】被分类器识别为骂人的弹幕，以及其发送者发送的其他弹幕，统一删除。</li>
</ol>

<p>原本对于仁慈模式是想进行高透明度处理的，但是由于B站弹幕不支持分开透明度所以就变成了现在的方案。不过由于可以直接修改弹幕类型，不知道高级弹幕是否支持透明度选项，以及高级弹幕在各个平台上的支持度如何。</p>

<h2 id="toc_2">结论</h2>

<p>这次构建卷积神经网络，是学习深度学习方向以来第一次完全自己设计网络结构，并独立完成所有的过程，包括样本收集、样本处理、搭建网络、训练，并且实现了模型的真实可用。作为深度学习的阶段性成果，也是给了我很大的鼓励。这个假期接下来的时间，准备继续学习 RNN 以及 LSTM 等模型，以及其他优化技巧。</p>

      </div>

      <div class="row">
        <div class="large-6 columns">
        <p class="text-left" style="padding:15px 0px;">
      
          <a href="14883590547961.html" 
          title="Previous Post: 原始模型优化笔记">&laquo; 原始模型优化笔记</a>
      
        </p>
        </div>
        <div class="large-6 columns">
      <p class="text-right" style="padding:15px 0px;">
      
          <a  href="14863637259966.html" 
          title="Next Post: 低素质弹幕分类器 CNN 训练笔记">低素质弹幕分类器 CNN 训练笔记 &raquo;</a>
      
      </p>
        </div>
      </div>
      <div class="comments-wrap">
        <div class="share-comments">
          <div id="disqus_thread"></div>
<script>
/**
* RECOMMENDED CONFIGURATION VARIABLES: EDIT AND UNCOMMENT THE SECTION BELOW TO INSERT DYNAMIC VALUES FROM YOUR PLATFORM OR CMS.
* LEARN WHY DEFINING THESE VARIABLES IS IMPORTANT: https://disqus.com/admin/universalcode/#configuration-variables
*/
/*
var disqus_config = function () {
this.page.url = PAGE_URL; // Replace PAGE_URL with your page's canonical URL variable
this.page.identifier = PAGE_IDENTIFIER; // Replace PAGE_IDENTIFIER with your page's unique identifier variable
};
*/
(function() { // DON'T EDIT BELOW THIS LINE
var d = document, s = d.createElement('script');

s.src = '//yinzo.disqus.com/embed.js';

s.setAttribute('data-timestamp', +new Date());
(d.head || d.body).appendChild(s);
})();
</script>
<noscript>Please enable JavaScript to view the <a href="https://disqus.com/?ref_noscript" rel="nofollow">comments powered by Disqus.</a></noscript>

          
        </div>
      </div>
    </div><!-- article-wrap -->
  </div><!-- large 8 -->


 <div class="large-4 medium-4 columns">
  <div class="hide-for-small">
    <div id="sidebar" class="sidebar">
          <div id="site-info" class="site-info">
            
                <div class="site-a-logo"><img src="asset/img/3.png" /></div>
            
                <h1>雪地</h1>
                <div class="site-des"></div>
                <div class="social">


<a class="github" target="_blank" href="https://github.com/Yinzo" title="GitHub">GitHub</a>
<a class="email" href="mailto:yinz995-1@yahoo.com" title="Email">Email</a>
  <a class="rss" href="atom.xml" title="RSS">RSS</a>

              	 </div>
          	</div>
              <div id="site-categories" class="side-item ">
                <div class="side-header">
                  <h2>Categories</h2>
                </div>
                <div class="side-content">

      	<p class="cat-list">
        
            <a href="Security%20Info.html"><strong>Security Info</strong></a>
        
            <a href="Adversary%20Learning.html"><strong>Adversary Learning</strong></a>
        
            <a href="TCPIP.html"><strong>TCP/IP</strong></a>
        
            <a href="Pattern%20Recognition.html"><strong>Pattern Recognition</strong></a>
        
            <a href="Python.html"><strong>Python</strong></a>
        
            <a href="OS.html"><strong>OS</strong></a>
        
            <a href="Deep%20Learning.html"><strong>Deep Learning</strong></a>
        
            <a href="Machine%20Learning.html"><strong>Machine Learning</strong></a>
        
        </p>


                </div>
              </div>

              <div id="site-categories" class="side-item">
                <div class="side-header">
                  <h2>Recent Posts</h2>
                </div>
                <div class="side-content">
                <ul class="posts-list">
	      
		      
			      <li class="post">
			        <a href="14968173531750.html">CS229 学习笔记 Part3</a>
			      </li>
		     
		  
			      <li class="post">
			        <a href="14965964854250.html">CS229 学习笔记 Part2</a>
			      </li>
		     
		  
			      <li class="post">
			        <a href="14946020792948.html">CS229 学习笔记 Part 1</a>
			      </li>
		     
		  
			      <li class="post">
			        <a href="14883590547961.html">原始模型优化笔记</a>
			      </li>
		     
		  
			      <li class="post">
			        <a href="14863637393852.html">低素质弹幕分类器的CNN实现</a>
			      </li>
		     
		  
		  		</ul>
                </div>
              </div>

              <div id="site-link" class="side-item">
                <div class="side-header">
                  <h2>Link</h2>
                </div>
                <div class="side-content">
                <p class="link-list">
                    <a href="http://blog.winkidney.com/">阿毛</a>
                </p>
                </div>
              </div>
        </div><!-- sidebar -->
      </div><!-- hide for small -->
</div><!-- large 4 -->

</div><!-- row -->

 <div class="page-bottom clearfix">
  <div class="row">
   <p class="copyright">Copyright &copy; 2016
Powered by <a target="_blank" href="http://www.mweb.im">MWeb</a>,&nbsp;
Theme used <a target="_blank" href="http://github.com">GitHub CSS</a>.
Modified by <a target="_blank" href="http://yinz.xyz">Yinzo</a>.</p>
  </div>
</div>

        </section>
      </div>
    </div>


    <script src="asset/js/foundation.min.js"></script>
    <script>
      $(document).foundation();
      function fixSidebarHeight(){
        var w1 = $('.markdown-body').height();
          var w2 = $('#sidebar').height();
          if (w1 > w2) { $('#sidebar').height(w1); };
      }
      $(function(){
        fixSidebarHeight();
      })
      $(window).load(function(){
          fixSidebarHeight();
      });

    </script>

    <script src="asset/chart/all-min.js"></script><script type="text/javascript">$(function(){    var mwebii=0;    var mwebChartEleId = 'mweb-chart-ele-';    $('pre>code').each(function(){        mwebii++;        var eleiid = mwebChartEleId+mwebii;        if($(this).hasClass('language-sequence')){            var ele = $(this).addClass('nohighlight').parent();            $('<div id="'+eleiid+'"></div>').insertAfter(ele);            ele.hide();            var diagram = Diagram.parse($(this).text());            diagram.drawSVG(eleiid,{theme: 'simple'});        }else if($(this).hasClass('language-flow')){            var ele = $(this).addClass('nohighlight').parent();            $('<div id="'+eleiid+'"></div>').insertAfter(ele);            ele.hide();            var diagram = flowchart.parse($(this).text());            diagram.drawSVG(eleiid);        }    });});</script>
<script type="text/javascript" src="https://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script><script type="text/x-mathjax-config">MathJax.Hub.Config({TeX: { equationNumbers: { autoNumber: "AMS" } }});</script>

  <script src="asset/js/instantclick.min.js" data-no-instant></script>
  <script data-no-instant>InstantClick.on('change', function() {
      MathJax.Hub.Queue(["Typeset",MathJax.Hub]);
    });</script>
  <script data-no-instant>InstantClick.init();</script>
  </body>
</html>