穿越次元裂缝 AI“慧”画开启人机共创

admin • 2022-12-15 20:07 • 人工智能

今年9月，在美国科罗拉多州的一场艺术博览会上，AI画作《太空歌剧院》勇夺数字艺术类别冠军，而早在2018年佳士得拍卖会上，首次由AI创作的《埃德蒙·贝拉米画像》就被拍出了43.25万美元的高价。随着AI绘画技术日新月异的发展及其在社交平台的大火，这种“以文生图”、“驯服AI”的绘画方式开始走向大众，人们纷纷开始寻找另一个次元的自己。

驯服AI绘画

莫让智能变智障

只需输入一张图片，选好参考指数，再搭配关键词辅助，就能打开三次元和二次元的次元裂缝，快速生成你的数字化身。究其本质，这种AI绘画便是利用计算机深度学习，通过神经网络对文字语言和图像进行关联学习，实现对输入的关键词进行转换从而生成对应图像的技术。

而除了简单易操作，一不小心人工智能变人工智障也是AI绘画工具大火的原因之一，将参考图片的人识别成动物，将背景识别成人的情况时有发生。按照经典的“猫与非猫”案例，人类能够很轻易识别出一张图片里有没有猫，但机器却并不能做到，因为种类、颜色甚至角度的差异，都会导致每张照片中的猫存在差异，无法将所有猫的照片输入机器里，自然也就无法从参考照片中直接分辨并转换成画作。卷积神经网络（CNN）能够自主通过样本照片的训练形成一套理解什么是猫的机制，持续向下寻找低级特征，一直到最低级的像素点，从而构成多层的神经网络。

并非艺术之死

而是生产力变革

在近年来算力算法高速发展的背景下，AI绘画技术的进步日新月异。卷积神经网络通过卷积层提取图像特征；通过池化层简化、降低数据维度；全连接层对卷积层和池化层的结果进行分类运算，得出结果。同时CLIP模型的训练使得AI能够将Prompt与参考图片一一对应起来，从而最终达到以局部识别拼凑出整体形象的过程。扩散模型Diffusion Models作为更好的图像生成模块，通过噪声来干扰信息，再通过去除噪声来生成图像，通过噪声来不断衰减信息，并通过学习到的模式来生成信息图像，并经过多次迭代生成最终结果。

为了更好地理解语义，将图片往预期的方向生成，Prompt的存在就显得尤为重要。所谓Prompt便是AI生成图片时的描述性语言，也就是“关键词”，其对于画作的质量、风格等都有较大影响，清晰详尽的Prompt能够让画面主体和细节更加精确。《太空歌剧院》这幅画作得以呈现，是设计师花费了近 80 个小时，不断优化Prompt，才得到这样足以乱真的作品。可以说没有持续的精雕细琢，就没有成品的视觉盛宴，AI只是解放生产力的工具，而把控其艺术风格、主导其“进化”方向的仍是人类自身。

织就高速算力

让艺术更“智”识

深度学习模型简单说来便是输入大量标注好的训练数据，根据输入和相应预期输出，反复调整模型内部参数加以匹配的过程。而训练AI绘画的过程，就是构建大量画作的训练数据，输入AI模型进行参数迭代调整。要想生成内容生动，结构自然的画作，与每一笔的形状、颜色、纹理都密切相关，其复杂的参数组合自然伴随着深度模型训练庞大的计算量。