斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

AIGC动态2年前 (2024)发布大数据文摘

AIGC动态欢迎阅读

原标题：斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！
关键字：网页,模型,提示,文本,代码
文章来源：大数据文摘
内容字数：9622字

内容摘要：

大数据文摘授权转载自夕小瑶科技说作者：芒果
随着生成型人工智能（AI）的飞速发展，多模态理解和代码生成的能力达到了前所未有的水平。这为前端开发带来了一场自动化，其中多模态大型语言模型（LLMs）有望直接将视觉设计转换为代码实现。
斯坦福和谷歌等单位的研究者将这一任务形式化为Design2Code任务，并对其进行了全面的基准测试。研究人员手动策划了一个包含484个多样化的真实世界网页的测试案例，并开发了一套自动评估指标，以评估当前多模态LLMs在将截图作为输入的情况下，能够多么精确地生成直接渲染成给定参考网页的代码实现。此外，还通过全面的人类评估来补充自动指标。研究者开发了一系列多模态提示方法，并展示了它们在GPT-4V和Gemini Pro Vision上的有效性。此外，进一步对一个开源的Design2Code-18B模型进行了微调，成功地达到了与Gemini Pro Vision相匹配的性能。无论是人类评估还是自动指标都显示，GPT-4V在这项任务上的表现优于其他模型。研究者认为，在视觉外观和内容方面，GPT-4V生成的网页可以在49%的案例中替代原始参考网页；而且令人惊讶的是，

原文链接：斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！