AI+图像|Ideogram:可生成包含清晰文本的图片,a16z 领投八千万美金 A 轮
文生图领域已经有不少产品出现,而Ideogram这款产品,在解决了文本与图像结合的问题之后,又很大程度上促进了个人的表达。一起来看看本文的分享。
图片生成模型已经得到了广泛应用,但这项技术仍然处在早期且存在很多不足。例如生成效果难以控制且很难将正确的文本添加到图像中。一家由前谷歌员工组成的创业团队 Ideogram 推出了其最新文字生成图像模型,旨在让用户创建包含可以清晰阅读文本,且更加清晰逼真的图片。
Sense 思考:
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。
AI 推动了创造力的普及:“帮助我们将想象从头脑中提取出来并显示在屏幕上的工具终于来了。”通过 Ideogram 为代表的生成式 AI 技术,创造力的普及正在发生。这项技术使得没有专业训练的普通人也能创作出高质量的作品,从而重新定义“艺术家”和“创意者”的概念。
Ideogram 在图像的真实感、细节处理及文本渲染方面取得的进步体现了 AI 技术发展的快速性。在解决了文本与图像结合问题之后,可以极大促进个人表达和创意产业发展。
AI Native 产品分析——Ideogram
1. 创立时间:2023 年 8 月
2. 产品上线时间:2023 年 9 月推出,2024 年 2 月发布最新版本
3. 创始人:Mohammad Norouzi
- 来自伊朗,2015 年在多伦多大学获计算机科学博士学位,到了谷歌机器学习博士奖学金的支持
- 前 Google Brain 高级研究科学家
4. 项目简介:
文本生成图像 AI 模型,提供了业内领先的文本渲染技术、前所未有的逼真效果和对常提示的精准响应
5.官网:https://ideogram.ai/
在人类的每一个文化、国家,或是历史时期,创造性表达一直是人类不可或缺的一部分。这种内在的特质让我们与其他生命形式显著不同,被视为人类的独特标志。然而,尽管创造力是我们固有的一部分,一个人被称为“创意者”往往指的是他们在音乐、绘画或雕塑等领域拥有天赋或专业技能。可惜的是,并非每个人都有时间或天分深入从事创意工作。
幸运的是,生成式 AI 正将创造力带给所有人,想象与实现之间的距离从未如此接近。没有什么能取代人类的想象力和创造力,但帮助我们从头脑中提取出来并显示在屏幕上的工具终于来了。
图片生成模型已经存在一段时间且得到了广泛应用,但这项技术仍然处在早期且存在很多不足。例如,图像生成通常缓慢而难以控制,分辨率较差,并且很难将正确的文本添加到图像中。因此有无数团队在推进这一领域的进步。
近期,一家由前谷歌员工组成的创业团队 Ideogram.ai 宣布推出其最新图像生成模型,并获得高额融资。
一、Ideogram,让用户创建包含可清晰阅读文本的图像
Ideogram 成立于 2023 年 8 月,总部位于多伦多,由几位前谷歌员工创建,他们曾参与开发谷歌的 Imagen 图像生成软件和视频生成模型。目前 Ideogram 专注于开发人工智能图像生成技术,旨在解决 AI 生成图像技术的一个棘手问题:让用户创建包含可以清晰阅读文本的图像。
2023 年 9 月,在其软件公开发布时,当时流行的 AI 图像生成产品如 Midjourney、OpenAI 的 DALL-E 2 和 Stability AI 的 Stable Diffusion 在尝试生成包含文字的图片时常常失败,经常显示无意义的内容。
(9 月份从同一提示中生成的 AI 图像,“a photograph of an adorable kitten wearing a t-shirt with the words ‘ask me about my AI startup. ’”。从左上角顺时针依次是:Ideogram、OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion 和 Midjourney)
如今,随着技术的迅猛发展,包括 OpenAI 最新的 DALL-E 3 模型在内的一些工具也开始能够有效地处理图像中的文字内容。但 Ideogram 的 CEO Norouzi 认为他们最新推出的 AI 模型在处理长篇复杂文本的图像生成方面仍具有竞争优势。
二、Ideogram 最新模型,帮助用户编写详细的提示
Ideogram 近期推出了他们最新的文本转图像模型 Ideogram 1.0,Ideogram 1.0 在正确显示文本方面有了显著提升,同时生成的图像更加逼真以及对可以对复杂提示词进行精确响应。同时 Ideogram 1.0 引入了一个名为“魔法提示”的新功能,这个功能可以根据用户的原始描述,编写更详细的提示,进而创造创造出更美观且具创意的图像。
从 AI 生产图像模型推出以来,AI 在图像中生成的文本一直存在准确性问题。在图像中正确添加文本一直是较为困难的。Ideogram 1.0 通过其文本渲染功能解决了这个问题,它不仅允许直接向图像添加文本,而且文本与图像融合度极高,风格匹配,使表达更加突出。这一改进使得用户能够轻松创作个性化信息、模因、海报、T 恤设计、生日卡片、商标等。
Ideogram 1.0 模型的另一个重大进步是图像的真实感和细节。要使 AI 生成的图像获得广泛采用,在专业设计到沉浸感方面都需要照片级的真实感。同时这一模型还擅长解释复杂的提示,如下面的示例,生成的图像准确地反映了其提示的每个细节。
( Prompt: two men in a study room. The man on the left stands, wearing a long coat, a patterned shirt, and holding a walking stick. He has an unkempt appearance with a beard. The man on the right is seated on a chair, dressed in a formal suit, and holding a cane. Behind them, there’s a framed portrait of a man on the wall. The room has a vintage feel, with ornate curtains and a carpeted floor.)
Ideogram 1.0 模型还包括“魔法提示”功能,这是一个创意辅助工具,能自动增强、延伸并转换用户提示,从而创造出更精细且具有创造性的图像。如果提示词是 GenAI 时代的画笔,那么提示魔法就像是一个增强器,自动扩展并丰富它们的语义深度。
( Prompt: vegetables orbiting the sun
Magic Prompt: A captivating and whimsical illustration of various vegetables in orbit around a bright, golden sun. The vegetables, each with their own distinct personality, are comically suspended by invisible strings, creating a sense of weightlessness. A mix of classic vegetables like carrots, potatoes, and tomatoes, as well as more exotic ones like artichokes and eggplants, fill the celestial scene. The background stars twinkle in the vast universe, adding to the fantastical, cosmic atmosphere.)
Ideogram 表示,参与测试的评估者对于 Ideogram 1.0 在提示对齐、图像连贯性、整体偏好和文本渲染质量方面的偏好超越了 DALL·E 3 和 Midjourney V6。
三、Ideogram 获八千万美金融资
Ideogram 种子轮就获得了包括 a16z 在内的多家顶尖风投与 AI 领域行业专家的投资,2024 年 2 月底,Ideogram 完成了八千万美金的 A 轮融资,暂未透露公司估值。其 A 轮融资由 Andreessen Horowitz 领投,Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等参投。A16Z 的普通合伙人 Martin Casado 将加入 Ideogram 的董事会。
Ideogram 此次融资将用于招聘和满足计算需求。由于训练和运行前沿 AI 模型成本高昂,硅谷近来对 AI 的投资热潮持续升温。
Norouzi 表示,这轮资金将支持公司以数据为驱动,分析并优化其 AI 图像创建应用。目前 Ideogram 已开始提供付费订阅服务,包括更快的图像生成和访问编辑工具,但用户仍然可以继续免费试用该产品。
参考材料:
https://www.bloomberg.com/news/articles/2024-02-28/startup-ideogram-raises-80-million-for-ai-image-generation?embedded-checkout=true
https://a16z.com/announcement/investing-in-ideogram/
https://about.ideogram.ai/1.0
编译:Wes;编辑:Vela
来源公众号:深思SenseAI;关注全球 AI 前沿,走进科技创业公司,提供产业多维深思。
本文由人人都是产品经理合作媒体 @深思SenseAI 授权发布,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!