AI创业之家

首页

立即注册

免费试用

首页 > AI资讯 > AI创业指南

今日推荐

热门搜索

15步教你怎么利用AI进行创业 AI人工智能创新创业项目计划书 AI智能时代 20个创业方向十个最新AI创业项目有哪些短视频还能持续几年？短视频值得做吗？人工智能时代下的创新与创业人工智能时代都有哪些商机分享12条AI变现思路，让AI为你自动赚钱目前最新AI创业项目有哪些？人工智能时代的20个创业机会 30个AI技术赚钱项目变现案例分享普通人如何利用AI赚钱？AI时代的创业和投资机会在哪里？AI时代带来的创业商机有哪些 AI时代个人创业机会有哪些

标准化CRM

AI原创论文写作

毕业论文、学术论文写作

大型CRM

AI长篇写作

写小说、写论文等

CRM定制开发

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

ControlNet作者搞起大模型：一句话变构图小作文

来源：量子位· 2024-06-03 11:08:14

ControlNet作者新项目，居然也搞起大模型和Agent了。

当然还是和AI绘画相关：解决大伙不会写提示词的痛点。

现在只需一句超简单的提示词说明意图，Agent就会自己开始“构图”：

a funny cartoon batman fights joker（一幅有趣的卡通蝙蝠侠与小丑战斗的图画）

这就是ControlNet作者Lvmin Zhang的新玩具Omost。Omost这个名字有双层含义：

发音与英文单词almost（几乎）相似，意味着每次使用Omost后，用户所需的图像几乎就完成了；
“O”代表“omni”（全能的），“most”表示希望最大限度地利用它。

这个新项目让网友直呼：也太强了！

放大翻译成中文来看，用户简短的提示词会被拆解扩展，从图像全局描述到局部每个元素的都会详细说明，直观地指定图像中各个元素的位置和大小。

之后，特定图像生成器根据LLM描绘的“蓝图”创建最终的图像。

而且，已经完成的图像整体布局可以保留，想修改画面中的某个元素，也只需一句提示词。

原版是这样婶儿的：

generate an image of the fierce battle of warriors and the dragon（生成勇士与龙的激烈战斗的图像）

然后把龙变成恐龙：

目前，Omost用来生成代码的LLM有基于Llama3和Phi3变体的三种模型，Lvmin Zhang还放出了Demo大伙儿可以试玩。

网友们第一时间也纷纷上手尝试：

不禁感慨Lvmin Zhang的项目都很鹅妹子嘤：

729个框，设定图像所有元素的位置

Omost目前提供基于Llama3和Phi3变体的三种LLM。

下面扒开Omost看看里面有什么。

首先，所有的Omost LLM都经过训练，可以提供严格定义的子提示，大伙儿可以利用其来设计无损文本编码方法。

“子提示”（sub-prompt）指的是如果一个提示少于75个token，并且能够独立描述一个事物，不依赖于其他提示，就是“子提示”。

Omost通过预定义的位置、偏移量和区域这三大参数来简化图像元素的描述。

首先将图像划分为3*3=9个位置：

然后进一步将每个位置划分为33个偏移量，得到99=81个位置：

以这些位置为中心，进一步定义了 9 种类型的边界框：

如此一来就涵盖了999=729个不同的边界框，几乎涵盖了图像中元素的所有常见可能位置。

接下来，distance_to_viewer和HTML_web_color_name两大参数调整视觉表现。

组合distance_to_viewer和HTML_web_color_name可以绘制出非常粗糙的构图。

例如，如果LLM效果良好，“在暗室的木桌上的红瓶子前面有一个绿色瓶子”应该可以计算出如下图像：

此外，ControlNet作者Lvmin Zhang还提供了一个基于注意力操纵的Omost LLM的baseline渲染器。并总结了目前要实现区域引导的扩散系统的一些选择。

基于注意力分数操作，他编写了一个baseline公式，并认为这种无参数公式是一个非常标准的baseline实现，几乎会引入zero style偏移或质量下降。将来，他们可能会考虑为Omost训练一些参数化方法。

具体来说，现在考虑一个只有2*2=4像素的极简化图像：

有三个提示“两只猫”、“一只黑猫”、“一只白猫”，有它们的掩码：

然后就可以画出这个注意力分数表：

简而言之，就是通过调整注意力分数来控制模型在不同区域的关注度，来实现更精细的图像生成。

此外，Lvmin Zhang还发现了另一种可以提高提示理解的技巧，并称其为提示前缀树（Prompt Prefix Tree）。

因为现在所有的提示都是可以任意合并的子提示（所有子提示严格少于75个token，通常少于40个标记，描述独立的概念，并且可以任意合并为clip编码的常规提示），找到一种更好的方法来合并这些子提示可能会改进结果和提示描述。

例如，下面是一个全局/局部整体/详细描述的树结构：

由于所有子提示都可以任意合并，因此可以将此树形图中的路径用作提示。

例如，下面的路径将给出提示“一只猫和一只狗。沙发上的猫”。

感兴趣的家银亲自上手玩玩吧～

您可能关注: 大模型

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://cy211.cn/aizixun/3131.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇一年5000万美元！AI时代媒体靠什么挣钱？

下一篇普通人如何靠AI赚钱？分享几个让普通人也能能通过AI赚钱的赛

相关推荐

AI时代普通人如何借AI创业？

AI时代普通人如何借AI创业？

　当你开始思考用AI创业，说明你已经意识到这是个“普通人对普通人的赋能机会”——不是要成为AI专家，而是用AI工具解决真实的小问题。下面我为你拆解出可操作的路径和 ...

16岁高中生创业奇遇记，用AI编程在八个月内月入过万

16岁高中生创业奇遇记，用AI编程在八个月内月入过万

　从零基础到开发网站，他只用了半个月属于这个少年的奇遇，从去年暑假开始。当时，刚刚转学到香港的冼星朗，还是个对前沿AI技术感兴趣，但不懂编程语言的高中生。一个偶然 ...

98年清华博士辍学造机器人，一个月融了小5亿

98年清华博士辍学造机器人，一个月融了小5亿

　投中网独家获悉，北京人形机器人企业松延动力完成近2亿元Pre-B+轮融资，本轮融资由中金资本领投，允泰资本、厚为资本跟投。融资将用于加大技术创新与研发投入、拓宽 ...

61岁贝佐斯创业物理AI，亲任CEO，首轮获投62亿美元融资

61岁贝佐斯创业物理AI，亲任CEO，首轮获投62亿美元融资

　贝佐斯亲身下场物理AI了，亲自担任CEO的那种。纽约时报消息，这名前世界首富创立了一家新公司并亲自担任联席CEO。而且资金实力雄厚，包括贝佐斯本人出资在内，该公 ...

县城AI创业潮：打工人的培训班和“街边照相馆”火了

县城AI创业潮：打工人的培训班和“街边照相馆”火了

　AI热潮正从一线城市下沉到县城。夜间摆摊的“街边照相馆”用免费文生图工具为路人拍写真;微信群里的“AI倒爷”拼单低价转售ChatGPT账号;华强北柜台则把AI耳 ...

贝佐斯：AI创业，先做这 3件事

贝佐斯：AI创业，先做这 3件事

　2025 年 11 月 3 日，一笔价值 380 亿美元的交易，正在重塑 AI 云计算的战局。OpenAI 宣布，将部分训练和推理工作负载转移至 AWS，直接启 ...

AI智能对话

智能聊天对话，AI秒回答
AI模型创作

它无所不知，无所不能
AI绘画

只需一句话，生成精美画作
轻创AI咨询热线

13826579603

行业解决方案 AI论文生成网站地图 AI创作网 AI资讯 AI智能对话系统 AI创业之家 AI论文写作网站介绍

©2023专业AI智能生成工具支持私有化支持定制

地址：深圳市龙华区民治牛栏前大厦微信:398879136 网站备案号：粤ICP备08036815号-3Copyright © 2024 深圳市星远创业科技有限公司版权所有