Paper2GUI:免费的AI桌面APP工具箱

GitHub:https://github.com/Baiyuetribe/paper2gui/

简介

Paper2GUI是一款面向普通人的AI桌面APP工具箱,免安装即开即用,已支持18+AI模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域。支持Windows、Mac、Linux系统,未来还将适配安卓和苹果设备,另外还有小程序。

已发布内容

语音合成

文字转语音工具,适用于配音、讲解、说书、广告等场景。

借助最前沿的神经网络黑科技,可以将文字转换为语音,相比传统tts有着特殊优势:有呼吸声、万千音色、自然流畅、媲美真人。
名称大小Model多语言Mac简介
微软语音合成5MbFastSpeech已累计支持129种语言,330多种神经网络声音,是迄今为止做的最自然、最贴近人声的语音合成技术。
抖音火山语音13MbUnkonw🔲已累计支持5种语言,49种神经网络声音,效果堪比微软语音合成,有呼吸声,比较自然逼真。精品音色MOS分数4.0以上,常见于抖音、剪映、今日头条。
阿里云语音合成13MbUnkonw🔲截至2022年4月,阿里云语音合成仅有5个语音有呼吸声,其余全是机器腔,机器腔难听不自然,未来如有更多带呼吸声的语音出现,自然会更新集成。
视频超分辨放大

视频超分工具,适用于720p或360p视频转1080p或4k视频,画质升级且不模糊,目前主要用于动漫视频超分。

利用Waifu、Realsr等相关超分辨算法,实现动漫或照片智能放大。相比直接缩放,智能放大可解决模糊、马赛克问题。
名称大小Model多语言WindowsMac简介
RealESRGAN-GUI(RAM)41.8MbRealESRGANv3🔲🔲纯内存、不消耗硬盘空间
waifu2x-GUI38.9Mbwaifu2x🔲🔲基于waif2x算法可实现图片智能放大2/4/8/16/32倍,视频领域俗称超分辨,可以实现720p视频转4k或8k,同时画质更高,清晰度极佳。搭配补帧AI,可实现4k60FPS。
RealESRGAN-GUI28.8MbRealESRGANv2🔲🔲🔲Real-ESRGAN在图片放大领域非常厉害,传统模型只适合单张图片放大,针对动漫视频,专门训练了仅有1Mb左右的RealESRGAN算法,可实现图片智能放大2/4倍,对动漫卡通超分非常厉害,特点是速度快,输出质量超高。
RealCugan-GUI56.4MbRealCugan🔲🔲🔲基于RealCugan算法可实现图片智能放大1/2/3/4倍,视频领域俗称超分辨,可以实现720p视频转4k或8k,同时画质更高,清晰度极佳。搭配补帧AI,可实现4k60FPS。该算法偏向动漫应用。
RealSR-GUI94.5MbRealSR🔲🔲🔲RealSR非常适合单张图片放大,是目前已知的最好质量的超分辨算法,唯一的缺点是速度特别慢,因此只适合单张图片处理,视频超分需要极高的显卡要求。
视频补帧

运动类视频流畅度升级工具,可以将低帧率30fps升级到60fps或360fps。适用于丝滑质感需求。

利用RIFE、DAIN等相关补帧算法,实现两张图片之间智能生成中间图,依次类推实现帧率翻倍或翻翻倍,最终将低帧率视频变为60、90、120甚至240帧,实现流畅观感。
名称大小Model多语言WindowsMac简介
RIFE-GUI(RAM)51.2MbRife🔲🔲特别适合运动类视频补帧,实现丝滑流畅。我们将传统依赖硬盘空间补帧升级为内存模式,并发高、普遍提速30%以上,支持任意显卡GPU加速。
DAIN-GUI72.6MbDain🔲🔲🔲Dain视频补帧是一款视频补帧工具,可以帮助你解决视频补帧的问题,由于算法比较早,实际使用时运算太漫长,被后来的rife算法取代。
图像风格化(照片转动漫)

图像风格化,可以将照片转换为动漫风格、梵高风格、毕加索风格等等。

图像生成领域最近几年也很火,以AnimeGAN为代表的照片转漫画,生成效果惊艳,深受大众喜欢。
名称大小Model多语言WindowsMac简介
AnimeGAN-GUI8.9MbAnimeGANv2🔲🔲AnimeGAN专注研究人脸漫画生成,是目前转换效果最好的模型,转换后的图像可搭配RealESRGAN或RealCugan等超分算法进行二次处理,最终效果非常惊人。
人像抠图

AI一键抠图,可生成透明图、绿幕、红幕、蓝幕等背景图片,头发丝处理良好,适合任意人物抠图需求。

名称大小Model多语言WindowsMac简介
RVM-GUI12.9Mbrvm🔲🔲🔲RVM 专为稳定人物视频抠像设计,目前个人暂未搞定C++并发,因此目前只有图片抠图。视频抠图需要等待进一步学习C++。
人像修复

人像修复,可以将人像修复为清晰的图片,提升清晰度。

名称大小Model多语言WindowsMac简介
GFPGAN-GUI242MbGFPGAN🔲🔲GFPGAN 旨在开发用于真实世界人脸恢复的实用算法。几乎适用于任意人脸图片增强。目前受ncnn模型转换,该模型暂时无法动态输入,输入正方形图片效果最佳。
视频抠图

视频抠图,利用RVM等算法,可实现无绿幕视频抠图,适合各种自媒体视频制作,节约大量时间。

利用RVM、Modnet+等相关抠图算法,支持图片或视频抠图。
名称大小Model多语言WindowsMac简介
MODNet-GUI77.5Mbmodnet🔲🔲🔲MODNet是一个仅需RGB图片输入的实时人像抠图模型,我们在此基础上将代码变为简单高效的GUI视图,实现一键视频抠图。
MobileNetV2-GUI34.6MbMobileNetV2🔲🔲🔲MobileNetv2诞生很早,鉴于其出色的性能,我们决定为此开发GUI视图。
目标检测

适用范围太广,比如物体检测、口罩检测、车牌检测、车辆检测、苹果质量等级检测等等。

名称大小Model多语言WindowsMac简介
YOLOv6-GUI46Mbyolov6n🔲🔲由美团开源的YOLOv6,是一个专门用于工业应用的单阶段物体检测框架,具有硬件友好的高效设计和高性能。本APP可处理单张图片或视频文件,开发栏可以套用自定义模型以供测试。
YOLOv5-GUI60.2Mbyolov5s🔲🔲Yolo系列是“You only look once”的简写,是常用的目标检测算法,本APP可处理单张图片或视频文件,开发栏可以套用自定义模型以供测试。
YOLOX-GUI50Mbyolox_nano🔲🔲旷视开源的YOLOX,是常用的目标检测算法,本APP可处理单张图片或视频文件,开发栏可以套用自定义模型以供测试。
辅助工具

辅助工具,提供了一些常用的辅助工具,比如视频比对工具等。

名称大小Model多语言WindowsMac
Video_compare56.1Mb🔲🔲

软件截图

视频简介

下载地址

GitHub:https://github.com/Baiyuetribe/paper2gui/releases/tag/Published

阿里云盘:https://www.aliyundrive.com/s/2b4hyudGkni

Visits75