三维建筑形式的生成 Graph Convolutional Network

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录


前言

传统上,建筑师通过透视效果图和标准化的二维图纸来表达他们对三维建筑形式设计的想法。然而,由于建筑设计总是多维的、错综复杂的,很难通过简单的语言描述让别人理解设计意图、具体形式,甚至是空间布局。受益于机器学习的快速发展,特别是自然语言处理和卷积神经网络,本文提出了一个基于语言的建筑形式生成模型(LAFGM),它可以被训练来进行三维建筑形式的预测,而仅仅是基于语言输入。
已经有一些相关的工作,其中一些侧重于学习文本到图像的生成,而另一些则进一步从描述中生成简单的形状。然而,这些作品的文本解析和输出要么仍然停留在二维阶段,要么局限于单一的几何图形。在这些工作的基础上,本文使用斯坦福场景图解析器(Sebastian等人,2015)和图卷积网络(Thomas等人,2017)来编译输入文本的分析性语义结构
为输入文本编译分析语义结构,然后生成语言描述所表达的三维建筑形式,这也得到了一些优化算法的帮助。在一定程度上,训练结果接近了它们在描述中应有的三维形式,这不仅表明LAFGM从语言输入到三维建筑形式的巨大潜力,而且也创新了有关三维空间信息的设计表达和交流。


提示:以下是本篇文章正文内容,下面案例可供参考

一、简介

在建筑设计的过程中,从最初的构思开始,经过反复推敲,到最后的完成,建筑师总是习惯于用二维图纸(平面图、剖面图等)或三维模型(数字效果图、实物模型等)来表达他们的设计意图。在遇到分享建筑理论或思想、明确设计要求、甚至从审查者那里获得反馈的交流时,在这些场景中,不可避免地要通过语言文字和口头描述来相互传递信息。
然而,文字所传达的内容总是抽象的,甚至是晦涩的,这就导致了语言和阅读能力的高门槛。特别是对于建筑项目和研究,设计师会要求自己的文字描述能够准确地表达设计意图和构思,同时又要尽力从其他文献资料中吸收设计思想和内涵。
在过去的几十年里,人工智能领域
的研究一直在探索对人类思维逻辑的模仿,而其中的一个基本分支--自然语言处理(NLP),正在逐渐显现出它在建立自然语言和物理空间信息之间联系的巨大潜力。受益于
受益于卷积神经网络(Krizhevsky等人,2012年)和生成对抗网络(Goodfellow等人,2012年)的发展,在自然语言和物理空间信息之间的联系方面取得了一些最新进展。
在文本到视觉元素的翻译方面已经取得了一些进展。一个Text2Scene模型(图2)被设计用来从自然语言描述中生成各种形式的组合场景表示(Tan等人,2019)。

MirrorGAN(图3)解决了Text-to-image生成过程中保证语义一致性的问题,该模型提出了一个新颖的全局-局部关注和语义保护框架(Tingting等人,2019)。

还有首次尝试学习自由格式文本描述和彩色3D形状的联合嵌入(Kevin等人,2018),命名为Text2Shape(图4)。

然而,关于建筑形式的寻找,目前的相关研究无法满足来自语言表达的映射
和转换需求,从语言表达到复杂的三维空间形式的映射和转换需求。一般来说,从单词向量
到视觉感知,深度学习中的输入输出数据关联主要集中在二维像素或三维体素上。与单一物体几何特征的回归优化相比,建筑结构更强调空间几何排列和多维布局关系,这导致了DNN设计和一般工作流程优化对这项任务的特殊要求。

二、方法

1. General Work Flow

在这些前人工作的基础上,本文提出了LAFGM(Architecture From Generative Model)。如图5所示,LAFGM包含3个基本部分。语言学过程。

图卷积网络的训练,以及通过后置程序生成三维形式。

2.Linguistic Process

首先,作者应用斯坦福场景图解析器(Sebastian et al. 2015)将输入的语言信息转变成3种图结构(图6)。

特征矩阵记录了每个输入单元的属性,特别是房间位置、大小、楼层等。此外,水平面和垂直楼层之间的相邻关系由相邻矩阵存储。最后,标签矩阵将提取建筑物的整体特征信息(墙的厚度、楼层的高度等)。
并将直接流入蚱蜢组件,在最终模型生成过程中提供具体的优化。

图7显示了训练输入的样本。本研究的数据集是从互联网上公开的别墅平面图来源中手工收集的,而而每张图纸都有其相应的语言数据,这些数据是根据语言模板手工填充和修改的。
语言模板。这个过程受到了最先进的NLG(自然语言生成)研究的启发(Gatt和Krahmer 2018)。当图纸和描述的匹配完成后,938个配对的数据是训练集,124个是评估集。
为了说明图画解析结果的更详细的结构,图8显示了每个语言元素的处理框架和索引的一个样本。解析器将迭代所有的训练数据,根据其预先训练的词汇系统为每个不同类型的词分配一个索引。在每一个单一的句子中,所有的短语将被转化为树状结构,以便从相同的分支中带出关键信息。
一旦解析完成,输出可以被格式化为Numpy数据,以便进一步生成矩阵。图8的样本信息将被提取如下。(a) feature_ input = {'floor1','floor2'} (b) valid_output.shape = [13,6] 。
(c) 'l floors1' = {'bedroom1', 'bedroom2', 'washroom1', 'stor- age1', 'study1', 'livingroom1', 'storage2', 'balcony1'}; num_floors2 = 5; 'l floors2' = {'bedroom3', 'washroom2', 'living- ingroom2', ' study2', ' balcony2'} (d) 'balcony1' = { 'south', 12};
'卧室1' = {'西南',20} (e) '高度' = (1500); '倾斜' = (True); '倾斜_高度' = (1500).


结果

这种从文本到形式的工作流程可以根据某些语言描述对建筑进行近似的三维模型预测。然而,由于训练集数量的限制,只限于1062对,也由于关键词定义的短缺,只限于几个变量参数,产生的结果没有明显的多样性。
此外,很明显,在建筑设计意图的书面描述中,每个房间的布局关系和尺寸需要进一步明确。特征矩阵和邻接矩阵的关键词单元都高度依赖于这些解释
以获得详细的信息并参与计算,但这导致了对字面叙述的僵硬要求。它不符合日常语言使用的情况。一个理想的自然语言翻译工作流程需要符合大多数人的语言使用习惯,这就需要通过训练大量的具有高度多样性的数据和清晰的几何建模描述来改善这一严重缺陷。
同时,LAFGM的数据类型仍然缺乏多样性。目前,GCN训练所涉及的部分主要集中在空间房间的布局和面积值,而门窗、梁柱结构和其他建筑元素并没有参与到学习过程中。
这迫使LAFGM使用额外的后期优化算法来预测和生成上述建筑元素。
基于图结构的神经网络能够以相对较高的效率对空间位置关系进行收敛和预测,而另一方面,这种结构也限制了自由形态设计的配置要求,同时也限制了训练数据的选择或产生。因此,通过LAFGM的最终预测输出仍停留在简单区块堆叠的程度上。

总结

目前,LAFGM几乎是深度学习中通过自然语言处理来预测三维空间形态的首次尝试。基于1000多套二维建筑平面图及其相应的语言描述的学习过程,该工作流程能够进行建筑形态预测,总体上符合描述预期,使抽象的描述性语言与具体的、直接的布局形态相联系。
尽管仍有许多局限性和不足之处,但这个总体框架是完整的,同时具有取得进一步进展的巨大潜力。未来的工作可以集中在优化和改进数据集,有效整合相应的建筑元素的标签,从而使文本到形式更加灵活和多样化。或者尝试更多的自然语言处理算法,如基于CovLSTM的模型(Shi等人,2015),在GCN训练中,在释放呆板的语言结构限制的同时,进行序列到序列的转换。
此外,毫无疑问,当机器学习实现了语言和形式之间成熟而准确的转换时,架构设计和沟通将迎来一个新阶段。在与甲方、合作伙伴、甚至学生交流时,文本到形式将有助于消除交流中的误解,因为抽象的语言将被具体化为图形模型或图像。在语言交流过程中获得预测的反馈时,设计师将能够通过人工智能的 "头脑 "探索创新的设计或形式,这将类似于通过机器学习的实时设计和优化建议(张等人,2018)。更重要的是,深刻的建筑理念将能够通过专业的建筑术语提炼成更容易理解的视觉形式。

参考

Sebastian, Schuster. Ranjay, Krishna. Angel, Chang. Li, Fei-Fei and Christopher D Manning. 2015. “Generating semantically precise scene graphs from textual descriptions for improved image retrieval.” In Proceedings of the fourth workshop on vision and language, 70–80.

Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.

Krizhevsky, A. Sutskever, I. Hinton, G. 2012. “Imagenet classifica- tion with deep convolutional neural networks.” Advances in neural information processing systems. 1097-1105.

Goodfellow, I.; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D.; Ozair, S.; Courville, A.; Bengio, Y. Generative Adversarial Nets. Adv. Neural Inf. Process. Syst. 2014, 2672–2680.

Tan, F. Feng, S and Ordonez, V. 2019. “Text2Scene: Generating Compositional Scenes From Textual Descriptions.” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6703-6712.

Tingting, Qiao. Jing, Zhang. Duanqing, Xu and Dacheng Tao. 2019. “Mirrorgan: Learning text-to-image generation by redescription.” In

Proc. IEEE Conf. Comp. Vis. Patt. Recogn.1505–1514.

Chen K, Choy C B, Savva M, et al. Text2shape: Generating shapes from natural language by learning joint embeddings. Asian Conference on Computer Vision. Springer, Cham, 2018: 100-116.

Gatt, Albert, and Emiel Krahmer. "Survey of the state of the art in natural language generation: Core tasks, applications and evalua- tion." Journal of Artificial Intelligence Research, 61 (2018): 65-170.

Bidgoli, Ardavan; Veloso,Pedro.DeepCloud. The Application of a Data-driven, Generative Model in Design. In Proceedings of the 38th Annual Conference of the Association for Computer Aided Design in Architecture, Mexico City, Mexico 18-20 October, 2018, pp. 176-185.

de Miguel, Jaime, Villafa?e, Maria Eugenia, Piškorec, Luka and Sancho-Caparrini, Fernando. Deep Form Finding - Using Variational Autoencoders for deep form finding of structural typologies. Sousa, JP, Xavier, JP and Castro Henriques, G (eds.), Architecture in the Age of the 4th Industrial Revolution - Proceedings of the 37th eCAADe and 23rd SIGraDi Conference - Volume 1, University of Porto, Porto, Portugal, 11-13 September 2019, pp. 71-80

Liu, Henan; Liao, Longtai; Srivastava, Akshay. AN ANONYMOUS COMPOSITION. In Proceedings of the 39th Annual Conference of the Association for Computer Aided Design in Architecture , The University of Texas at Austin School of Architecture, Austin, Texas 21-26 October, 2019) pp. 404-411.

Zhang, Hang and Blasetti, Ezio.3D Architectural Form Style
Transfer through Machine Learning. In Design in the Age of Humans - Proceedings of the 25th CAADRIA Conference - Volume 2, Chulalongkorn University, Bangkok, Thailand, 5-6 August 2020, pp. 659-668.

Shi X, Chen Z, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[J]. Advances in neural information processing systems, 2015, 28: 802-810.

Zhang, Yan; Grignard; Aubuchon, Alexander; Lyons, Keven; Larson, Kent. Machine Learning for Real-time Urban Metrics and Design Recommendations. ACADIA // 2018: Recalibration. On impreci- sionand infidelity. [Proceedings of the 38th Annual Conference

of the Association for Computer Aided Design in Architecture (ACADIA) ISBN 978-0-692-17729-7] Mexico City, Mexico 18-20 October, 2018, pp. 196-205

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇

)">
下一篇>>