数据建模的三个步骤


计算机辅助设计(CAD)已成为众多行业设计、绘图和建模的标配方法。如今,几乎每一个被制造出来的物体都源自参数化的CAD建模。CAD构造序列是CAD模型的一种表示方式,不同于Mesh类型的三角网格、B-rep格式的点、线、面表示,它以一系列建模操作被描述,包括确定3D草图的起点和方向、绘制2D草图、将草图拉伸成完整的3D实体形状的参数和过程,并以JSON代码格式储存和表示。这种方式与专业的建模工程师构建CAD模型的过程相似,可以直接导入AutoDesk、ProE等建模软件。

作为空间智能的关键能力之一,空间建模能力对ML(机器学习)领域提出了严峻的挑战。虽然一些方法在生成网页布局代码等方面表现出色,但在处理复杂的3D建模任务时仍存在问题。这是因为这些方法在推理复杂的空间关系时受限于传统的语言模型推理惯性,难以捕捉数字背后的真实空间含义。近期的一项研究为此带来了新的突破。

上海交通大学的研究团队推出了CAD-GPT,一款专门用于CAD建模的多模态大语言模型。结合创新的3D建模空间定位机制,CAD-GPT成功将复杂的3D参数映一维语言信息维度,显著提升了空间推理能力。这一成果使得基于单张图片或简单文本描述的精准CAD建模构造序列生成成为可能。相关研究已以《CAD-GPT: 利用空间推理增强多模态大型语言模型进行CAD建模序列合成》为题被AI领域的顶级会议AAAI接收。

接下来我们详细解析一下这一机制是如何工作的。我们为关键的建模参数定义了一种大语言模型可以理解的语言,便于模型进行理解和生成。具体来说,我们设计了三个系列的定位令牌来代表复杂的空间参数。通过将这些参数的特征展开到一维语言特征空间,它们被转换为两类不同的位置令牌。我们将特殊的令牌加入到原始的大型语言模型词汇表中以适应这些新的令牌的存在。通过这些方式,我们成功地弥合了语言和空间位置之间的差距。

为了训练这一模型,我们基于DeepCAD数据集生成了大量的CAD模型图像和相应的自然语言描述数据集。通过这些数据我们训练了大型的语言模型以生成CAD模型的建模序列。此外我们还采用了特定的训练策略和基础模型来提高模型的性能。我们首先从图像到CAD的任务开始训练模型然后从文本到CAD的任务进行微调以进一步提升模型的性能。此外我们还调整了模型的窗口长度以适应较长的CAD建模序列。我们的实验结果表明我们的方法是有效的且可以生成高质量的CAD模型。