AI 杀疯了,NovelAI开源教程

大家好,我是 Jack。

如果说 2021 年是”元宇宙”的元年,那么 2022 年或许就是”AI作画”的元年。

最近,”AI作画”的作品越来越多,掀起了一股热潮。比如之前在美国科罗拉多州博览会的艺术比赛中获得了第一名的作品,就是 AI 所作。

空间歌剧院(Thétre D’opéra Spatial)

基于Midjourney生成的图像

基于Midjourney生成的图像

想像一下:输入各种风格、主题、氛围的关键词,然后 AI 就会生成符合要求的作品,仿佛艺术就是一件”触手可及”的事情。

而现在,这一切已经成为了现实。

我们一起看下现在 AI 的作画水平。

一、AI 作品

输入文字关键词描述,AI 直接生成图像作品:

输入真实场景图片,图片二次元化:

这种算法,不是检索,检索网络上已有的作品, 而完全地重新创作。

二、NovelAI

国外相继也推出了各种各样的产品,比如比较出名的 NovelAI,上述的 AI 作品都是通过 NovelAI 生成的。

NovelAI 的模型训练使用了数千个网站的数十亿张图片,包括 Pixiv、Twitter、DeviantArt、Tumblr 等网站的作品。

NovelAI 是一个收费的网站:

后来 NovelAI 的模型被指泄漏了出来,采用的就是一些 stable diffusion 模型。

也就是说,我们可以本地搭建这个服务了。

三、Stable Diffusion web UI

使用 Stable Diffusion web UI 开源项目,即可搭建。

这里简单说下搭建流程:

1、下载代码:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

2、创建 Anaconda 虚拟环境:

conda create -n novelai python==3.10.6

安装 3.10.6 是因为开源代码仓库说明的是推荐 3.10.6。

3、激活 conda 虚拟环境:

conda activate novelai

4、根据显卡驱动安装 GPU 版本的 Pytorch:

直接使用官网的命令安装,打开网页:

https://pytorch.org/get-started/locally/

根据自己的环境选择安装指令:

5、第三方库依赖安装:

进入项目 根目录,然后作者注明的第三方依赖库。

python -m pip install -r requirements.txt

6、下载模型文件:

NovelAI 的模型训练文件泄漏出来了,我直接放到网盘分享出来了。

权重下载链接(提取码:jack ):

https://pan.baidu.com/s/1BJ-5Zo7FnCxh7ezJtYEqIg?pwd=jack

将模型文件解压缩放到 models 目录下,

在 models/Stable-diffusion 里,可以看到这几个文件:

7、运行 Web UI

python launch.py

第一次运行,这个过程中也会下载一些依赖库和权重文件,耐心等待即可。

看到 local URL 表明开启完成,直接打开这个本地连接。

然后你就能看到这个页面了:

8、效果测试:

Prompt 输入:

masterpiece, best quality,obliques , 1girl, magic, vivid, looking at viewer, from above, black hair, black eyes, floating, flowing dress, {{{{intricate red dress}}}}, hibiscus flowers, d:, cleavage

Negative prompt 输入:

nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,

steps、图片尺寸、CFG Scale 设置跟我一样,随机种子 Seed 设为:815804347。

点击 Generate 生成,你就能得到这样的结果:

如果对环境搭建有问题,可以参考我之前发布过的一期环境搭建 视频教程:

AI杀疯了!2022年保姆级AI算法教程,新年必玩!_哔哩哔哩_bilibili

四、絮叨

其实高级玩法还有很多,比如使用 Textual Inversion 用某个人的图片集(30张左右),训练一个小模型,记录这个特征,然后进行多特征融合(写在 Prompt 描述里)。

就能生成 像某个人的写实一些游戏风格作品。

图片来源于网络

还可以使用 img2img 进行风格、背景的替换等。

这些都可以使用 Stable Diffusion web UI 实现。

如果大家这些内容感兴趣,欢迎点个 在看,喜欢的人多的话,我这周末就肝一期视频教程。

详细讲述,环境搭建 + Stable Diffusion web UI 使用技巧 + 各种玩法。

风险提示:

1、不要将 Stable Diffusion web UI 服务部署到公网服务器上,项目有漏洞,机器会被劫持;

2、不建议使用 naifu 版本,封装较多,容易被动手脚。建议使用开源的 Stable Diffusion web UI。

3、我的模型,我跑过,没问题。但不要随便下载网络上的其它开源模型,有反序列化攻击风险。

好了,今天就聊这么多吧。

我是 Jack,我们下期见~

Original: https://blog.csdn.net/c406495762/article/details/127419474Author: Jack-CuiTitle: AI 杀疯了,NovelAI开源教程

相关阅读Title: 多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)

本文主要对 Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph这篇论文中的 第2.2节Richpedia images processing (图像处理)以及 第2.3 Richpedia relation discovery(关系挖掘)进行内容抽取介绍,最后介绍了一下关于这篇多模态知识图谱文章的2个具体用例,,也是防止我忘记自己曾看过这篇论文,,,记一记啊记一记或许还有救…

Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

个人理解:这篇文章其实就是主要讲解了多模态知识图谱Richpedia的构建过程,主要介绍了包括对KG实体、图像实体的数据获取,以及对图像实体的去噪处理和多样性检测的方法(用K-means聚类算法),和关系挖掘等内容。当然还有其他内容,见目录结构

1.摘要部分

介绍了Richpedia,旨在通过向Wikidata中的文本实体分发足够多的不同图像来提供全面的 多模态知识图谱。基于Wikipedia中的超链接和描述,在图像实体之间设置资源描述框架链接(视觉语义关系)。Richpedia资源可通过刻面查询端点在Web上访问,该端点为知识图谱和计算机视觉任务(如链接预测和视觉关系检测)提供了路径。; 2.文章主要结构层次如下:

以上2.2包含(3.5、3.6两个部分),而3.7是对2.3进行详细介绍~写一笔,箭头标了一下,清楚不少3.Richpedia的构建获取数据与处理部分(主要是对获取到的图像的处理)对城市KG实体的获取对景点KG实体的获取对名人KG实体的获取对与相应的KG实体的图像实体的获取

前3点不是重点,这里主要讨论第4点,对图像实体的的获取以及 处理(因为作为多模态知识图谱,最理想的图像实体 不仅是相关的,而且是合理多样的,主要是为了解决这两个问题)

对与相应的KG实体的图像实体的获取过程(倒是获取到了,不过图像存在一些问题):

选择谷歌、雅虎、必应图像搜索引擎和维基百科作为图像实体收集工具,因为可以互补地使用不同的搜索引擎来满足知识图的完整性。选择Wikipedia是因为它包含Wikidata中KG实体的图像,以及这些实体之间的大量相关超链接和描述性信息。我们使用KG实体列表作为爬虫程序的输入,爬虫程序通过浏览器自动化测试框架Selenium收集和存储相应的图像实体。对于每个KG实体,分别从三个图像搜索引擎收集100幅图像,并将它们存储在相应KG实体的文件中。同时,我们生成每个实体的唯一标识符。对于维基百科中的数据收集,我们在相应的上下文中抓取带有超链接和描述的图像。然后,我们将信息存储在JSON文件中。通过上述步骤,收集了构建Richpedia所需的图像实体资源。由于我们的图像是从搜索引擎获得的,不同的搜索引擎可能会返回重复的图像;事实上,某些KG实体语义可能更遥远。这将导致一些返回的搜索图像可能不符合我们的要求。我们使用 图像聚类算法来 完成图像去噪任务。

问题1(PROBLEM):

问题描述:从web搜索引擎收集的一些远程实体条目在搜索时可能不会返回相应实体的图像,但类似高频条目的图像可能不值得。为了保证我们的多模态知识图的准确性,我们需要使与相应的KG实体相关的所有KG实体拥有尽可能多的图像实体。因此,采用无监督聚类算法(K-means )对图像实体去噪。

具体过程:

先用VGG-16神经网络模型提取图像的结构化特征(因为有噪声的图像实体与和实体相关的图像实体间在结构上有差距);再用 K-means去除有噪声的图像实体;最后用PCA进行图像实体特征向量的降维(最终降到三维)

其中 VGG-16神经网络模型的结构如下:

问题2(PROBLEM):

问题描述:经过去噪处理后,我们可以根据对应的KG实体之间的高相关性得到图像实体。 这就是为什么我们需要检测图像实体的多样性的原因。为了获得更好的查询结果,图片搜索引擎会对返回的图片进行评分,优先返回评分较高的图片,因为越相似的图片可能会出现不同或相同的搜索引擎。但是,这些图像在搜索引擎中的得分相似,因此它们会一起返回到搜索结果中。但 作为多模态知识图谱,最理想的图像实体不仅是相关的,而且是合理多样的。综上所述,我们需要检测图片实体的多样性,过滤掉过于相似的图片实体,保证Richpedia的图片多样性。

读到这里我们可能对实体多样性的理解不是很清楚,文中举出的有关于实体多样性的例子:比如,(我们想要的是圈出的部分,而不是最右边部分的图像)

[En]

At this point, we may not have a very clear understanding of entity diversity, and there are examples of entity diversity: for example, (we want the circled part, not the rightmost image)

具体过程: 利用图像实体特征向量的余弦相似度,可以得到图像实体之间的视觉相似度,进而得到聚类结果。首先,选择聚类树的根节点,即聚类得分最高的图像实体。然后选择与前一个图像实体相似度最低的图像实体以确保多样性,遍历所有聚类树,并为每个正确的聚类簇选择20个图像实体。

个人总结:总的来说,进行图像处理主要包括对图像进行去噪处理(把那些与KG实体不相关或没多大关系的图像实体去除掉),以及对图像实体的多样性检测(经过去噪后的图像实体”过于相似”,选取那些不是很相似但又与KG实体高度相关的图像实体)。从而达到构建多模态知识图谱Richpedia的目标:图像实体不仅是相关的,而且是合理多样的。

; 关系挖掘部分:(三元组)

关系发现是构建多模态知识图谱的关键步骤。它利用非结构化信息通过NLP技术提取和推断图像实体之间潜在的语义关系,建立分散的图像实体之间的连接关系,实现实体之间的关系互联。

文中主要挖掘如下三种关系:

图像与实体的imageof关系:主要由Richpedia中的文件结构建立。由于图像实体存储在相应的文本知识图谱实体文章中,因此很容易使用文件结构信息生成这种关系。图像实体与图像视觉层次信息之间的attribute关系:主要由任何图像实体的视觉特征构成,如rpo:height、rpo:width等。图像实体与图像实体之间的视觉语义关系(可能是包含、相似):主要依靠图像描述和超链接信息来建立图像实体的语义关系4. 文章最后介绍了2个用例

通过知识图谱构建后,对其应用:

图14:可以在Richpedia中查询实体信息,包括图像实体和KG实体。例如,如果我们想要查询Ankara市的KG实体信息和图像实体信息,我们可以在下拉选择器中选择相应的Ankara标签。之后出现的页面的上半部分是Ankara的KG实体信息,下半部分是Ankara的图像实体。

图15:可以通过Richpedia的在线访问平台查询图像实体之间的视觉语义关系,例如,当我们想要查询一个与Beijing Zoo图像实体具有 arpo:sameAs关系的图像实体时,我们可以单击该图像实体并获得如图15所示的结果。

Original: https://blog.csdn.net/qq_45067943/article/details/121656838Author: youhahhhhTitle: 多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/278302/

转载文章受原作者版权保护。转载请注明原作者出处!


比丘资源网 » AI 杀疯了,NovelAI开源教程

提供最优质的资源集合

立即查看 了解详情