Paper2GUI：免费的AI桌面APP工具箱

Paper2GUI是一款面向普通人的AI桌面APP工具箱，免安装即开即用，已支持18+AI模型，内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域。支持Windows、Mac、Linux系统，未来还将适配安卓和苹果设备，另外还有小程序。

文字转语音工具，适用于配音、讲解、说书、广告等场景。
借助最前沿的神经网络黑科技，可以将文字转换为语音，相比传统tts有着特殊优势：有呼吸声、万千音色、自然流畅、媲美真人。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
微软语音合成	5Mb	FastSpeech	✅	✅	✅	✅	已累计支持129种语言，330多种神经网络声音，是迄今为止做的最自然、最贴近人声的语音合成技术。
抖音火山语音	13Mb	Unkonw	🔲	✅	✅	✅	已累计支持5种语言，49种神经网络声音，效果堪比微软语音合成，有呼吸声，比较自然逼真。精品音色MOS分数4.0以上，常见于抖音、剪映、今日头条。
阿里云语音合成	13Mb	Unkonw	🔲	✅	✅	✅	截至2022年4月，阿里云语音合成仅有5个语音有呼吸声，其余全是机器腔，机器腔难听不自然，未来如有更多带呼吸声的语音出现，自然会更新集成。

视频超分工具，适用于720p或360p视频转1080p或4k视频,画质升级且不模糊，目前主要用于动漫视频超分。
利用Waifu、Realsr等相关超分辨算法，实现动漫或照片智能放大。相比直接缩放，智能放大可解决模糊、马赛克问题。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
RealESRGAN-GUI(RAM)	41.8Mb	RealESRGANv3	✅	✅	🔲	🔲	纯内存、不消耗硬盘空间
waifu2x-GUI	38.9Mb	waifu2x	⏳	✅	🔲	🔲	基于waif2x算法可实现图片智能放大2/4/8/16/32倍，视频领域俗称超分辨，可以实现720p视频转4k或8k，同时画质更高，清晰度极佳。搭配补帧AI，可实现4k60FPS。
RealESRGAN-GUI	28.8Mb	RealESRGANv2	🔲	✅	🔲	🔲	Real-ESRGAN在图片放大领域非常厉害，传统模型只适合单张图片放大，针对动漫视频，专门训练了仅有1Mb左右的RealESRGAN算法，可实现图片智能放大2/4倍，对动漫卡通超分非常厉害，特点是速度快，输出质量超高。
RealCugan-GUI	56.4Mb	RealCugan	🔲	✅	🔲	🔲	基于RealCugan算法可实现图片智能放大1/2/3/4倍，视频领域俗称超分辨，可以实现720p视频转4k或8k，同时画质更高，清晰度极佳。搭配补帧AI，可实现4k60FPS。该算法偏向动漫应用。
RealSR-GUI	94.5Mb	RealSR	🔲	✅	🔲	🔲	RealSR非常适合单张图片放大，是目前已知的最好质量的超分辨算法，唯一的缺点是速度特别慢，因此只适合单张图片处理，视频超分需要极高的显卡要求。

运动类视频流畅度升级工具，可以将低帧率30fps升级到60fps或360fps。适用于丝滑质感需求。
利用RIFE、DAIN等相关补帧算法，实现两张图片之间智能生成中间图，依次类推实现帧率翻倍或翻翻倍，最终将低帧率视频变为60、90、120甚至240帧，实现流畅观感。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
RIFE-GUI(RAM)	51.2Mb	Rife	✅	✅	🔲	🔲	特别适合运动类视频补帧，实现丝滑流畅。我们将传统依赖硬盘空间补帧升级为内存模式，并发高、普遍提速30%以上，支持任意显卡GPU加速。
DAIN-GUI	72.6Mb	Dain	🔲	✅	🔲	🔲	Dain视频补帧是一款视频补帧工具，可以帮助你解决视频补帧的问题,由于算法比较早，实际使用时运算太漫长，被后来的rife算法取代。

图像风格化，可以将照片转换为动漫风格、梵高风格、毕加索风格等等。
图像生成领域最近几年也很火，以AnimeGAN为代表的照片转漫画，生成效果惊艳，深受大众喜欢。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
AnimeGAN-GUI	8.9Mb	AnimeGANv2	✅	✅	🔲	🔲	AnimeGAN专注研究人脸漫画生成，是目前转换效果最好的模型，转换后的图像可搭配RealESRGAN或RealCugan等超分算法进行二次处理，最终效果非常惊人。

AI一键抠图，可生成透明图、绿幕、红幕、蓝幕等背景图片，头发丝处理良好，适合任意人物抠图需求。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
RVM-GUI	12.9Mb	rvm	🔲	✅	🔲	🔲	RVM 专为稳定人物视频抠像设计,目前个人暂未搞定C++并发，因此目前只有图片抠图。视频抠图需要等待进一步学习C++。

人像修复，可以将人像修复为清晰的图片，提升清晰度。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
GFPGAN-GUI	242Mb	GFPGAN	✅	✅	🔲	🔲	GFPGAN 旨在开发用于真实世界人脸恢复的实用算法。几乎适用于任意人脸图片增强。目前受ncnn模型转换，该模型暂时无法动态输入，输入正方形图片效果最佳。

视频抠图，利用RVM等算法，可实现无绿幕视频抠图，适合各种自媒体视频制作，节约大量时间。
利用RVM、Modnet+等相关抠图算法，支持图片或视频抠图。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
MODNet-GUI	77.5Mb	modnet	🔲	✅	🔲	🔲	MODNet是一个仅需RGB图片输入的实时人像抠图模型,我们在此基础上将代码变为简单高效的GUI视图，实现一键视频抠图。
MobileNetV2-GUI	34.6Mb	MobileNetV2	🔲	✅	🔲	🔲	MobileNetv2诞生很早，鉴于其出色的性能，我们决定为此开发GUI视图。

适用范围太广，比如物体检测、口罩检测、车牌检测、车辆检测、苹果质量等级检测等等。

名称	大小	Model	多语言	Windows	Mac	Linux	简介
YOLOv6-GUI	46Mb	yolov6n	✅	✅	🔲	🔲	由美团开源的YOLOv6，是一个专门用于工业应用的单阶段物体检测框架，具有硬件友好的高效设计和高性能。本APP可处理单张图片或视频文件，开发栏可以套用自定义模型以供测试。
YOLOv5-GUI	60.2Mb	yolov5s	✅	✅	🔲	🔲	Yolo系列是“You only look once”的简写，是常用的目标检测算法，本APP可处理单张图片或视频文件，开发栏可以套用自定义模型以供测试。
YOLOX-GUI	50Mb	yolox_nano	✅	✅	🔲	🔲	旷视开源的YOLOX，是常用的目标检测算法，本APP可处理单张图片或视频文件，开发栏可以套用自定义模型以供测试。