神工鬼斧惟肖惟妙,M1mac系统深度学习框架Pytorch的二次元动漫AnimeGANv2+Ffmpeg(图片+视频)快速实践

前段时间,业界鼎鼎有名的动漫风格转化滤镜库AnimeGAN发布了最新的v2版本,一时间街谈巷议,风头无两。提起二次元,目前国内用户基数最大的无疑是抖音客户端,其内置的一款动画转换滤镜“变身漫画”,能够让用户在直播中,把自己的实际外貌转换为二次元“画风”。对于二次元粉丝来说,“打破次元壁,变身纸片人”这种自娱自乐方式可谓屡试不爽:
图片
但是看多了就难免有些审美疲劳,千人一面的“锥子脸”,一成不变的“卡姿兰”式大眼睛,让人多少有点味同嚼蜡的感觉,未免过犹不及,失之现实。
而基于CartoonGan的AnimeGAN动漫风格滤镜则能够在保留原图特点的同时,兼具二次元的炫酷和三次元的写实,颇有些刚柔并济、举重若轻的感觉:
图片
并且AnimeGAN项目组业已在线上发布demo接口,可以直接运行模型效果:https://huggingface.co/spaces/akhaliq/AnimeGANv2 但是受限于带宽以及线上资源瓶颈,线上迁移队列经常会处于排队的状态,同时一些原图的上传也可能造成个人隐私的外泄。
所以本次我们在M1芯片的Mac os Monterey基于Pytorch深度学习框架,本地搭建AnimeGANV2版本的静态图片以及动态视频的转化服务。
我们知道,目前Pytorch的cpu版本在M1芯片mac上的支持版本是Python3.8,在之前的一篇文章中:金玉良缘易配而木石前盟难得|M1 Mac os(Apple Silicon)天生一对Python3开发环境搭建(集成深度学习框架Tensorflow/Pytorch)[1],曾经使用condaforge来构建Pytorch的开发环境,这次我们使用原生的安装包进行安装,首先进入Python官网,下载 Python3.8.10 universal2 稳定版 :https://www.python.org/downloads/release/python-3810/
图片
双击安装即可,随后进入终端键入命令安装Pytorch:
这里我们默认安装最新的稳定版1.10,随后进入Python3.8命令行,导入torch库:
确定Pytorch可以使用之后,将官方项目克隆下来:
AnimeGAN也是基于生成对抗网络(Generative adversarial network),原理就是我们手上有一定量的原图,我们可以称之为三次元图片,真实的图片特征会存在一个分布,比如:正态分布,均匀分布,或者更为复杂的分布形式,那么GAN的目的是通过生成器来生成一批与真实分布接近的数据。这些数据可以理解为二次元的优化,但是会保留三次元的一些特征,比如说眼睛变大、脸型更接近滤镜模型的画风等等,在我们的处理中,这个生成器趋向于使用神经网络,因为它能表示更为复杂的数据分布情况。
下载成功之后,可以在weights文件夹下看到四种不同的权重模型,其中celeba_distill.pt和paprika.pt是用来转化风景图片的,而face_paint_512_v1.pt和face_paint_512_v2.pt则更注重于肖像的转化。
首先安装图像处理库Pillow:
随后新建test_img.py文件:
这里以凯旋门的照片为例子,分别使用celeba_distill和paprika滤镜查看效果,注意本地请求需要关闭ssl证书检测,同时首次运行需要下载线上模型参数:
图片
这里图像尺寸参数指的是宽高通道的总数,接下来就是人物肖像动漫风格转化了,调整导入的模型生成器类型,输入图片改成人物肖像:
图片
可以看到,v1滤镜相对风格化更强烈一些,而v2在风格化的基础上相对保留了原图的特征,源于三次元又不拘泥于体验,架空却又不流于虚浮,比抖音的漫画滤镜不知道高到哪里去了。
下面我们来看看动态视频的动漫滤镜转换,视频从广义上来讲,就是多张图片的连拍播放,只不过取决于视频帧的速率问题,帧速率也称为FPS(Frames PerSecond)的缩写——帧/秒,是指每秒钟刷新的图片的帧数,也可以理解为图形处理器每秒钟能够刷新几次。 越高的帧速率可以得到更流畅、更逼真的动画,每秒钟帧数(FPS)越多,所显示的动作就会越流畅。
这里可以通过第三方软件将连贯的视频转换为以FPS为单位的图片,在m1 mac os系统中,推荐使用著名的视频处理软件:Ffmpeg
使用arm架构的Homebrew进行安装:
安装成功后,在终端键入ffmpeg命令查看版本:
安装没有问题,随后准备一个视频文件,新建 video_img.py:
这里我们使用Python3内置的os模块直接运行ffmpeg命令,针对当前目录的视频,以每秒15帧的速率进行转化,-s参数代表视频解析度,-ss参数可以控制视频的开始位置和结束位置,最后是导出图片的目录。
运行脚本之后,进入myvideo目录:
可以看到,图片按照帧数作为下标文件名已经转换完毕。
接着需要利用AnimeGAN滤镜对图片进行批量转换:
每一次转换都将原图保留并且滤镜转化后的图片存放在相对目录myimg里面,随后新建img_video.py将其重新转换为视频:
依然是每秒15帧的速率,和原视频相同。
如果原视频带有音轨,可以先将音轨进行分离操作:
进行动漫滤镜转换之后,将转换后的视频和原视频的音轨进行合并操作:
原视频的测试用例:
图片
转换后效果:
图片
在m1芯片的加持下,基于cpu版本的Pytorch跑起来效率还是不错的,不过令人遗憾的是适配m1芯片的gpu版本的Pytorch我们还需要等待一段时间,在上个月,Pytorch项目组成员soumith给出过这样的回应:
So, here's an update.
We plan to get the M1 GPU supported. @albanD, @ezyang and a few core-devs have been looking into it. I can't confirm/deny the involvement of any other folks right now.
So, what we have so far is that we had a prototype that was just about okay. We took the wrong approach (more graph-matching-ish), and the user-experience wasn't great -- some operations were really fast, some were really slow, there wasn't a smooth experience overall. One had to guess-work which of their workflows would be fast.
So, we're completely re-writing it using a new approach, which I think is a lot closer to your good ole PyTorch, but it is going to take some time. I don't think we're going to hit a public alpha in the next ~4 months.
We will open up development of this backend as soon as we can.
可以看出来,项目组应该是彻底为m1芯片重构Pytorch底层,公开测试版也不会在近期推出,也许明年的下半年会放出来,还是非常值得期待的。
结语:无论是清华大学的CartoonGAN,还是基于CartoonGAN的AnimeGANv2,毫无疑问,它们都是业界的翘楚,是顶峰中的顶峰,就算是放在世界人工智能的范围上,摆在PyTorch-GAN这样的项目旁边,也是毫不逊色的,在人工智能领域,AnimeGANv2向世界宣布,中国人只能制造药丸补剂的历史已经一去不复返了。
引用链接
 金玉良缘易配而木石前盟难得|M1 Mac os(Apple Silicon)天生一对Python3开发环境搭建(集成深度学习框架Tensorflow/Pytorch): https://v3u.cn/a_id_189