GitHub:https://github.com/Baiyuetribe/paper2gui/
简介
Paper2GUI是一款面向普通人的AI桌面APP工具箱,免安装即开即用,已支持18+AI模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域。支持Windows、Mac、Linux系统,未来还将适配安卓和苹果设备,另外还有小程序。
已发布内容
语音合成
文字转语音工具,适用于配音、讲解、说书、广告等场景。
借助最前沿的神经网络黑科技,可以将文字转换为语音,相比传统tts有着特殊优势:有呼吸声、万千音色、自然流畅、媲美真人。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
微软语音合成 | 5Mb | FastSpeech | ✅ | ✅ | ✅ | ✅ | 已累计支持129种语言,330多种神经网络声音,是迄今为止做的最自然、最贴近人声的语音合成技术。 |
抖音火山语音 | 13Mb | Unkonw | 🔲 | ✅ | ✅ | ✅ | 已累计支持5种语言,49种神经网络声音,效果堪比微软语音合成,有呼吸声,比较自然逼真。精品音色MOS分数4.0以上,常见于抖音、剪映、今日头条。 |
阿里云语音合成 | 13Mb | Unkonw | 🔲 | ✅ | ✅ | ✅ | 截至2022年4月,阿里云语音合成仅有5个语音有呼吸声,其余全是机器腔,机器腔难听不自然,未来如有更多带呼吸声的语音出现,自然会更新集成。 |
视频超分辨放大
视频超分工具,适用于720p或360p视频转1080p或4k视频,画质升级且不模糊,目前主要用于动漫视频超分。
利用Waifu、Realsr等相关超分辨算法,实现动漫或照片智能放大。相比直接缩放,智能放大可解决模糊、马赛克问题。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
RealESRGAN-GUI(RAM) | 41.8Mb | RealESRGANv3 | ✅ | ✅ | 🔲 | 🔲 | 纯内存、不消耗硬盘空间 |
waifu2x-GUI | 38.9Mb | waifu2x | ⏳ | ✅ | 🔲 | 🔲 | 基于waif2x算法可实现图片智能放大2/4/8/16/32倍,视频领域俗称超分辨,可以实现720p视频转4k或8k,同时画质更高,清晰度极佳。搭配补帧AI,可实现4k60FPS。 |
RealESRGAN-GUI | 28.8Mb | RealESRGANv2 | 🔲 | ✅ | 🔲 | 🔲 | Real-ESRGAN在图片放大领域非常厉害,传统模型只适合单张图片放大,针对动漫视频,专门训练了仅有1Mb左右的RealESRGAN算法,可实现图片智能放大2/4倍,对动漫卡通超分非常厉害,特点是速度快,输出质量超高。 |
RealCugan-GUI | 56.4Mb | RealCugan | 🔲 | ✅ | 🔲 | 🔲 | 基于RealCugan算法可实现图片智能放大1/2/3/4倍,视频领域俗称超分辨,可以实现720p视频转4k或8k,同时画质更高,清晰度极佳。搭配补帧AI,可实现4k60FPS。该算法偏向动漫应用。 |
RealSR-GUI | 94.5Mb | RealSR | 🔲 | ✅ | 🔲 | 🔲 | RealSR非常适合单张图片放大,是目前已知的最好质量的超分辨算法,唯一的缺点是速度特别慢,因此只适合单张图片处理,视频超分需要极高的显卡要求。 |
视频补帧
运动类视频流畅度升级工具,可以将低帧率30fps升级到60fps或360fps。适用于丝滑质感需求。
利用RIFE、DAIN等相关补帧算法,实现两张图片之间智能生成中间图,依次类推实现帧率翻倍或翻翻倍,最终将低帧率视频变为60、90、120甚至240帧,实现流畅观感。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
RIFE-GUI(RAM) | 51.2Mb | Rife | ✅ | ✅ | 🔲 | 🔲 | 特别适合运动类视频补帧,实现丝滑流畅。我们将传统依赖硬盘空间补帧升级为内存模式,并发高、普遍提速30%以上,支持任意显卡GPU加速。 |
DAIN-GUI | 72.6Mb | Dain | 🔲 | ✅ | 🔲 | 🔲 | Dain视频补帧是一款视频补帧工具,可以帮助你解决视频补帧的问题,由于算法比较早,实际使用时运算太漫长,被后来的rife算法取代。 |
图像风格化(照片转动漫)
图像风格化,可以将照片转换为动漫风格、梵高风格、毕加索风格等等。
图像生成领域最近几年也很火,以AnimeGAN为代表的照片转漫画,生成效果惊艳,深受大众喜欢。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
AnimeGAN-GUI | 8.9Mb | AnimeGANv2 | ✅ | ✅ | 🔲 | 🔲 | AnimeGAN专注研究人脸漫画生成,是目前转换效果最好的模型,转换后的图像可搭配RealESRGAN或RealCugan等超分算法进行二次处理,最终效果非常惊人。 |
人像抠图
AI一键抠图,可生成透明图、绿幕、红幕、蓝幕等背景图片,头发丝处理良好,适合任意人物抠图需求。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
RVM-GUI | 12.9Mb | rvm | 🔲 | ✅ | 🔲 | 🔲 | RVM 专为稳定人物视频抠像设计,目前个人暂未搞定C++并发,因此目前只有图片抠图。视频抠图需要等待进一步学习C++。 |
人像修复
人像修复,可以将人像修复为清晰的图片,提升清晰度。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
GFPGAN-GUI | 242Mb | GFPGAN | ✅ | ✅ | 🔲 | 🔲 | GFPGAN 旨在开发用于真实世界人脸恢复的实用算法。几乎适用于任意人脸图片增强。目前受ncnn模型转换,该模型暂时无法动态输入,输入正方形图片效果最佳。 |
视频抠图
视频抠图,利用RVM等算法,可实现无绿幕视频抠图,适合各种自媒体视频制作,节约大量时间。
利用RVM、Modnet+等相关抠图算法,支持图片或视频抠图。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
MODNet-GUI | 77.5Mb | modnet | 🔲 | ✅ | 🔲 | 🔲 | MODNet是一个仅需RGB图片输入的实时人像抠图模型,我们在此基础上将代码变为简单高效的GUI视图,实现一键视频抠图。 |
MobileNetV2-GUI | 34.6Mb | MobileNetV2 | 🔲 | ✅ | 🔲 | 🔲 | MobileNetv2诞生很早,鉴于其出色的性能,我们决定为此开发GUI视图。 |
目标检测
适用范围太广,比如物体检测、口罩检测、车牌检测、车辆检测、苹果质量等级检测等等。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux | 简介 |
---|---|---|---|---|---|---|---|
YOLOv6-GUI | 46Mb | yolov6n | ✅ | ✅ | 🔲 | 🔲 | 由美团开源的YOLOv6,是一个专门用于工业应用的单阶段物体检测框架,具有硬件友好的高效设计和高性能。本APP可处理单张图片或视频文件,开发栏可以套用自定义模型以供测试。 |
YOLOv5-GUI | 60.2Mb | yolov5s | ✅ | ✅ | 🔲 | 🔲 | Yolo系列是“You only look once”的简写,是常用的目标检测算法,本APP可处理单张图片或视频文件,开发栏可以套用自定义模型以供测试。 |
YOLOX-GUI | 50Mb | yolox_nano | ✅ | ✅ | 🔲 | 🔲 | 旷视开源的YOLOX,是常用的目标检测算法,本APP可处理单张图片或视频文件,开发栏可以套用自定义模型以供测试。 |
辅助工具
辅助工具,提供了一些常用的辅助工具,比如视频比对工具等。
名称 | 大小 | Model | 多语言 | Windows | Mac | Linux |
---|---|---|---|---|---|---|
Video_compare | 56.1Mb | ✅ | 🔲 | 🔲 |
软件截图
视频简介
下载地址
GitHub:https://github.com/Baiyuetribe/paper2gui/releases/tag/Published