泰国程序员开发VTuber形象生成系统，人人都能当虚拟偶像

ACG爱好者+程序员产生的无尽能量。

自从绊爱在2016年末发布了第一个视频之后，这场名为虚拟偶像的大火就越烧越旺。

虚拟偶像被称为vtuber，v是虚拟（virtual）的缩写，而tuber则揭示了她们与正常人认知中偶像的区别：虚拟偶像主要的活动场所是在Youtube上，她们的头像是虚拟的，身高体重等等人设都是虚拟的，只有背后的主播（又被称为中之人）是真实的。

自称“世界第一名虚拟主播”的绊爱

今天，在互联网上活跃着成千上万的虚拟偶像。她们有些隶属于较大的企业，有专门的画师负责制作人物的模型，发展比较好的还会有3D建模的支持；有些则隶属于个人，很难得到3D模型，但是也得有具体的画师在背后提供足以进行面部捕捉的人物立绘。

画师，这个职业造就了虚拟偶像这个产业，也构成了“成为虚拟偶像”的基本门槛。即使早就有了Facerig这种简易又方便的面部捕捉软件，但是做一个能用的3D脸部模型对绝大多数没有相关经验的人来说还是太过困难

Facerig标志性的小浣熊

但是面部捕捉的模型（即使只有个头）并不简单

即使在Vtuber行业发达的日本，同时掌握3D建模和角色设计的人才也不算多。这点反映在市场价格上就是：在网上一个能用的3D虚拟偶像模型出价近4万人民币，更多的个人Vtuber都选择了简单的2D图像叠加，这样人物只能做出简单的动作，比如摆头或者眨眼——就算这样，也需要几千元人民币的维护费用。

2D图像叠加而成的简易Vtuber

帕鲁克·昆古恩（Pramook Khungurn）是一位在谷歌地图日本分部工作的软件工程师（不过他本人是一位毕业于美国康奈尔大学的泰国人）。之前他主要研究的领域是计算机图形学，还对算法和机器学习有所涉猎。而在所有这些个人简历性质的描述之外，这位泰国程序员还是一位喜欢ACG文化的人。

昆古恩在一篇自我介绍网志中使用了长门有希作为封面图片

一直以来，他把自己计算机图形学上的能力运用到了对ACG的个人兴趣上，比如参与到双叶频道对计算机系统的拟人化。最近，他（就像日本很多ACG爱好者一样）迷上了虚拟偶像。这位程序员当然也不会画画，但他找到了别的方式来“成为偶像”。

昆古恩的工作成果

昆古恩将虚拟偶像的模型交给深度神经网络进行学习，让AI学会了如何处理动漫人脸上的各个部分，就像上面那张图一样，通过调整“左眼”、“脖子”的参数，控制人脸的运动。他希望在此基础上输入任何一张人脸，都能做到如此自然地运动，就像下面这样。

奥巴马与彩虹社的Vtuber们

昆古恩的构想源于自动生成动漫人物的GAN图库以及衍生出的一系列动漫人物相关的图片生成网络。昆古恩觉得，既然深度学习的人工智能是未来动漫创作的重要工具，那么深度学习是不是也能帮助创建Vtuber内容？

GAN自动生成动漫小姑娘的过程

昆古恩先从简单的2D模型下手，他先是截下了彩虹社（一个虚拟偶像企业）诸多vtuber做出不同姿势（眨眼、转头）时的截图，给定每种姿势一个编号，导入到能自我学习的神经网络中去——先教会AI识别这些人物的不同姿势。

绊爱的眨眼

在系统有了一定的辨别能力后，昆古恩将GAN图库中的8000个模型加以处理后导入到神经网络中。经过处理，这些看起来各不相同的动漫人物头像其实都可以被拆分成多个部分，用算法生成她们没有被画出来的诸多姿势。

绊爱的侧面拆解图

当然，拆分动漫人物的各种部位也不简单。昆古恩发现现在大部分成熟的图像识别技术都是用于真人的，而动漫人物和真人有很大的区别——比如动漫人物的头往往很奇怪，有夸张的头发和夸张的尺寸。这一度成为一个严重的问题，昆古恩在博客里写道：“最大的问题是，我不知道她们的头到底在哪……”为此他专门创建了一个识头工具，这个工具能排除头发和帽子的干扰，准备判断出人物的“头骨”（也就是天灵盖）。

最后，昆古恩完成了基本可用的“根据动漫图自动生成Vtuber”学习网络，这个网络花了16小时分析了100万张来源于GAN图库的图片。现在，这个系统可以根据输入的任何一张动漫图片，来生成图片中人物的诸多动作。使用者可以通过调整参数改变人物的表情，也可以直接导入到面部追踪软件中，让软件根据摄像头捕捉到的真人表情自动调整参数。

昆古恩放出的可用模型