如今,你可能已经在社交动态中见识过不少令人惊叹的 AI 生成图像,心里想着:“人们是怎么创作出这些惊艳画面的?”于是你满怀期待地登录 Midjourney,准备大展身手,却发现产出效果与预期相去甚远。不甘心的你再次尝试,结果依然令人失望。这场景是否似曾相识?
要想生成理想的作品,你必须掌握如何正确地向 Midjourney 的LLM输入提示词。说实话,为了给 Confident 每周的博客文章制作封面图(比如当前上方这张),我也经历过无数次失败的尝试。
那么,准备好开始这场轻松有趣的互动教程了吗?让我们出发吧!
开启你的首幅 Midjourney 艺术创作
要开始使用 Midjourney,请先注册 Discord(如果尚未注册)并完成注册流程。Discord 运行后,打开 Midjourney 网站并点击“加入测试版”。
注册后,你可以选择付费或免费计划。免费计划用户可以在 Midjourney 的新手频道中生成图像,而付费用户可以直接向 Midjourney 机器人发送命令。
要开始创建你的第一张图像,先输入斜杠/后接 imagine 命令。接着,系统会让您输入提示词(用于生成图像的描述),例如:/imagine prompt: 美丽多彩的马
恭喜!你刚刚使用 Midjourney 生成了你的第一张图片。
Midjourney 是如何工作的?
Midjourney 利用LLM(一种大型语言模型)根据文本描述生成图像。该模型经过海量文本-图像对的训练,使其能够理解并解析文本提示,从而生成相似的图像。
让我们分解一下这个图像生成过程。
分析提示词
LLM首先将提示词分解为核心概念和术语。例如,当你输入“一张写实风格的女性肖像”时,系统会识别出关键元素如“写实风格”、“肖像”和“女性”。
一个基本的 Midjourney 提示词如下:
虽然更高级的提示可能如下所示:
我们稍后会回到这一点。重要的是要理解,无论你写什么,都会在下一步中用于创建潜在向量。
创建潜在向量
接着,LLM 将这些概念转化为潜在向量。这是一个数字编码,能捕捉图像的所有细节——包括其调色板、形状、风格、物体等。
所有这些参数在模型内部用于理解您的请求,通过将向量与模型已知并训练过的数据进行匹配。
这就是为什么 Midjourney 官方文档中的以下建议如此重要:
Midjourney 机器人最适合处理简洁的短句描述你的需求。避免冗长的请求列表。例如,不要用“给我看一幅盛开的加州罂粟花图片,要明亮、鲜艳的橙色,并以彩色铅笔的插画风格绘制”,而应尝试:“用彩色铅笔绘制的亮橙色加州罂粟花。”
这意味着使用更简短的提示词,你更有可能获得更好的效果!
使用扩散模型生成图像
生成图像的最后一步是将这个潜在向量转换为实际的图像。这时就需要用到扩散模型,它是一种能从看似随机的模式中形成图像的人工智能。
模型从一张空白画布开始,逐步细化图像,添加层层细节,直到反映出潜在向量所描述的内容。它添加这种“噪声”的方式是受控的,确保最终图像清晰可辨
其他知名的生成式 AI 平台,如 Stable Diffusion,也采用了相同的技术。
这也是为什么在等待 Midjourney 完成图像创作时,你会注意到模糊的图像最终变成了令人惊叹的艺术作品。
基础入门
从一个简短的提示开始,专注于你想创作的主题。假设我们想绘制一位女性的肖像,可以这样开始:/imagine 一位拥有浅蓝色眼眸的年轻女性肖像
获得初始图像后,关键在于迭代与优化。此时我们可以聚焦于重要细节,如媒介、情绪、构图及环境等。
假设我们想要一张更真实的照片:/想象 一位浅蓝色眼睛年轻女子的真实照片
这张更真实些;不过,让我们给它加上老照片的质感。为此,只需添加一个年份,比如 1960 年。
/想象 一位浅蓝色眼睛年轻女子的真实照片,年份 1960
我们仅通过添加一些小细节,例如年份和媒介类型(写实)就取得了长足的进步。
专业提示:Midjourney 机器人并不像人类那样理解语法、句子结构或词汇。使用更少的词汇意味着每个词的影响力更为强大。
现在,让我们添加一个构图示例;比如,如果我对俯视角度的头像感兴趣,我们可以这样调整提示词:/imagine 鸟瞰视角写实照片,一位拥有淡蓝色眼睛的年轻女性,1960 年代风格
挺酷的,对吧?
继续尝试各种元素,如环境、情感、色彩等,以探索它们能产生的多样化效果。
Midjourney 利用训练有素的大型语言模型(LLM)和扩散模型,能够基于初始图像生成多种变体,为图像创作过程提供了极大的灵活性和创造力。
通过指示机器人生成强烈或微弱的变体,你可以逐步优化输出结果。你可以从一个宽泛的概念开始,然后逐渐细化细节;或者从一个高度具体的图像出发,探索微小的调整。这个过程会持续进行,直到达到符合你设想或偏好的效果。
例如,要求一个强烈的变化将产生以下图像:
高级技巧
既然我们已经掌握了 Midjourney LLM的基础知识,现在可以深入探讨参数了。参数是添加到提示中的选项,用于改变图像的生成方式。
调整宽高比
专业建议:参数总是添加在提示语的末尾
最重要的参数之一是宽高比。Midjourney 默认的宽高比是正方形(1:1),但如果我们想创建一张出色的封面图片(比如这篇文章的封面)或人像图片呢?
我们只需在提示词末尾添加--ar 即可。
例如:/imagine 鸟瞰视角写实照片,一位浅蓝色眼睛的年轻女性,1960 年代 --ar 1:2
注意--ar 后面跟着的宽高比数值。
变得更加艺术化
使用风格
--style 参数会替换某些 Midjourney 模型版本的默认风格。使用--style raw 将得到更贴近提示词原意的风格,减少美化效果。
让我们看看以下示例:/imagine cat icon 会生成这种图像,虽然很美,但并不是真正的图标:
如果我们加上 --style raw,Midjourney 会生成一张更相关的图片:
Niji 模型
Midjourney 有一个名为 niji 5 的替代模型,允许使用其他风格参数。在指令中添加--niji 5 后接不同风格如:可爱、富有表现力、原创或风景,将生成更为精致的图像。
/想象 猫 --niji 5 --风格 可爱
作为基于LLM的生成器,Midjourney 经过海量数据训练,融合了多种艺术风格。
提供--stylize 参数会影响训练应用的强度,其范围在 0 到 1000 之间;数值越高,生成的图像艺术性越强。
/想象 一幅孩子画的狗
接下来是有趣的部分。但在开始之前,我想和大家分享一下我创作精美照片的方法,以及如何更好地理解 Midjourney LLM。
寻找灵感
在寻找灵感时,我会前往 Midjourney Showcase 页面浏览激发灵感的照片。一旦找到心仪的图片,便下载下来并让 Midjourney 描述它。这一过程类似于LLM的反向工程,揭示了 Midjourney 如何将文本转化为图像。
例如,我觉得这张图片很有趣:
并要求 Midjourney 使用/describe 命令来描述它。
这是一个很好的起点,适合你进行下一次图像生成。提取创建这张图片的关键词,用它们来生成具有相似外观和感觉的图像。在这里,我注意到文本“深色背景中的多边形大象”占据主导地位,同时还有“受平面设计影响,Stephen Shortridge 风格”。
专业提示:Midjourney 知道如何以特定艺术家的风格生成图像
提示词 /想象一个多边形大象,风格模仿 Stephen Shortridge
开启奇幻创作模式
我们可以通过--weird 参数获得非常规的图像。使用此参数时,Midjourney 会创造出独特且出人意料的结果。--weird 接受 0 到 3000 之间的值(默认值为 0),我们提供的值越高,结果就越出人意料。
排列
如果我们想尝试不同的颜色,比如红/绿/蓝/黄的大象呢?
我们可以通过在提示中添加{ ... }来使用排列组合,用逗号分隔我们的排列。
想象一只{红色、绿色、蓝色、黄色}的大象
这将一次性创建 4 个 Midjourney 任务。
Midjourney 平铺图
这可能是 Midjourney 最令人惊叹却又鲜为人知的功能之一。使用--tile 参数可以生成可重复拼接的平铺图像。
/imagine 水彩大象 --tile
终极创作法则
理解 Midjourney LLM能让你生成宏伟的图像和照片。别忘了调整参数、优化提示词,并遵循本文中的所有其他步骤,以精确生成你想要的图像!