「简单包装 OpenAI 的公司注定无法长久生存」,在一个月前的 YC 校友分享会上,OpenAI CEO Sam Altman 曾郑重地警告道。
殊不知,当初没有听进去这句话的创业公司,在经历 OpenAI 不久前召开的 45 分钟首届开发者大会之后,陷入了沉思。而就在今天,Sam Altman 再次重磅官宣,「GPTs 现已经对所有 ChatGPT+ 订阅者开放!」
这意味着人人可零代码制作智能体的时代已来临。然而,自制 GPT 工具也意味着此前不少想要抓住 AI 浪潮的爱好者们研发的智能客服、虚拟人直播 / 解说、服务机器人、智能助手以及想要填补 OpenAI 生态下还未健全的功能方向进行的应用创业,现如今随着 OpenAI 更新的发布已经过时。
正因此,在 Sam Altman 的这条推文下方第一条评论便是—— ” 谢谢 Sam,你毁了我所创建的 AI 工具集的初创公司。”
甚至好事的马斯克也来迅速围观,采访式的评论道:” 每次你发布一个功能,你就消灭了一家初创公司。你对这件事有什么感想?”
更甚的是,几天前,有一位去现场参加 OpenAI 的创业者在 X 平台发布推文无奈表示:
Sam Altman 毁掉了我价值 300 万美元的初创公司,自己只得到了 500 美元的 OpenAI API 积分(OpenAI 在大会现场为每一个开发者准备的礼物)。
OpenAI 首届开发者大会之后,各路大神的新玩法来了!
由此,一场关于「OpenAI 杀死创业公司」的言论悄然出现。在热议之际,已经有访问权限的大神们纷纷在 X 平台上 ” 炫技 “,玩转 OpenAI 的最新技术,无形之中进一步加深了外界对此的看法。
那么,OpenAI 带来的新升级,到底能被用来干什么?我们不妨先从网友的实践中窥探一番。
其实在 OpenAI 首届开发者大会上,其主要带来了四个维度的更新:
GPT-4 Turbo:支持 128K 上下文窗口,token 的费用相较 GPT-4,低至原定价的 1/3 和 1/2;知识库更新至 2023 年 4 月;API 现在支持图片和文本输入;新版本中的 JSON 模式可以强制 GPT 以纯 JSON 格式响应;集成 DALL-E 3、语音合成等新能力。
定制化 GPT & GPTs 应用商店:每个人都可以构建自己的 GPT,GPTs 应用商店正式发布,开发者可上传自己的 GPT 并获得收入。一夕之间,GPTs 已经超过了 1000 个了(https://gptstore.ai/gpts)。
Assistants API :开发者可以通过 Assistants API 提供的各类工具(检索、代码解释器、Python)、提供沙箱环境构建,高效创建 AI Agents。
多模态能力提升:GPT-4 Turbo with Vision、DALL-E 3 和 TextToSpeech 工具现已上线,发布语音合成模型 TTS-1、tts-1-hd 和语音转文字模型 Whisper 3。
草图变网页,一切只在几秒间
基于以上维度,有开发者直接利用了 GPT-4-Vision API 和 tldraw 工具将草图直接变成实际的 HTML 网页,还能一键查看网页的源代码,整个过程花费了 30 秒不到的时间。
来源:https://twitter.com/sawyerhood/status/1722094596065546632
它的工作原理是:获取当前画布的 SVG,将其转换为 PNG,然后将该 PNG 发送给 gpt-4-vision,并指示其返回带有 tailwind 的单个 html 文件。
演示的源代码详见 GitHub 地址:https://github.com/SawyerHood/draw-a-ui
让 AI 当上游戏、体育赛事解说员
另外还有几位网友使用新的 GPT-4V 和文本转语音 API 开发一个视频解说员。
如解说《英雄联盟》:
来源:https://twitter.com/pwang_szn/status/1721900523866214635
此外,也有人运用「GPT-4V + TTS = AI 体育解说员」公式,将足球视频的每一帧传递给 gpt-4-vision-preview,并通过一些简单的提示要求生成旁白,就得到了下面:
来源:https://twitter.com/geepytee/status/1721705524176257296
不过,在初次尝试的过程中,技术还存在明显的不完善,其中 AI 解说员有很多陈述并不准确,无法和真人解说员相提并论,但是这也拓展了 AIGC 工具的一个应用领域,如果加以优化与研发,未来依然具有很大的潜力。
GPT 与网页内容结合,自动生成音乐播放列表
还有一位名为 @brettunhandled 的用户将网页浏览与 GPT 结合起来(https://chat.openai.com/g/g-KkxbQAVuk-playlistai-spotify),直接要求 GPT 浏览网页,找到今年 ” 科切拉音乐节 ” 的内容,并制作一个精彩的播放列表。
来源:https://twitter.com/brettunhandled/status/1721666511272628674
GPT-4V 版本的 ” 浏览器 “
更为实用的是,网友 @Karmedge 表示,”GPT-4 Vision 浏览器来了!”
他开发了一款名为 dosearch 的浏览器(https://dosearch.me/,先要申请加入候选列表),根据屏幕截图并提出有关任何问题的问题,它可以:
解释任何截图的内容
帮助你学习解剖学等视觉科目
直接解释汽车元素有哪些
选择你任何想要问的问题
来源:https://twitter.com/Karmedge/status/1721777152658444773
使用 GPT Builder 创建新的 GPT 来优化 X 帖子
再来看看 @@rowancheung 的实践,他测试了 OpenAI 的新 GPT Builder。创建了 “X Optimizer GPT”,它可以微调 X 上的帖子并确定高峰发帖时间,以实现 X 上的最大参与度。
来源:https://twitter.com/rowancheung/status/1721644987044294961
使用新的 GPT-4V API 在 10 分钟内构建的网络摄像头 GPT
各路大神可谓是出奇招,GPT 也能当成摄像头。X 平台上的 @BenjaminDEKR 表示:”GPT-4 Vision API 可以近乎实时地识别正在发生的事情,识别对象和动作 …… 构建过程大约需要 10 分钟。这是活的。”
使用新的 GPT-4 Vision API 成为你的瑜伽教练
无需支付教练费用,GPT4V 也能当瑜伽教练。
一键总结视频
此外,也有网友借助最新的 GPT-4 Turbo 模型 128k 上下文的特性,用来转录和总结整个 YouTube 视频讲座。
最后值得一提的是,目前需要获得自定义 GPTs 的访问权限,才能玩转上面这些新的方式方法。
受到新功能更新冲击的初创企业
事实上,早些时候,OpenAI 在为 ChatGPT 带来 ” 上传多种类型文档 “、” 无需切换对话即可使用工具 ” 等功能更新时,便有开发者讨论,曾经想要借助填补多模态空档而基于此创业的开发者,随着 OpenAI 在多模态、生态上的功能越来越完善,必将无路可走。
其中,在今年 5 月,数据科学家 Alex Reibman 发布了一款 ChatGPT 插件—— ChatOCR,它能够 ” 从 PDF 中读取文本,包括扫描和手写内容。”
随后,他在 OpenAI 为 ChatGPT 更新上传 PDF 功能之后,发表了评论表示:
我们是这次更新的 ” 受害者 ” 之一。
我们运行 ChatOCR,这是 ChatGPT 商店上众多 chat-with-pdf 插件之一。(我们专注于 OCR)。在过去 3 个月中,我们的 MRR 达到了 3500 美元。
这将如何影响我们的统计数据?(见下面的民意调查)
与此同时,他还展开了一项调查,询问 X 平台上用户 ” 既然现在 ChatGPT 已经内置了 PDF 处理功能 “,大家还愿不愿意继续使用插件。
在 210 名受访者中,72.4% 的人预计插件 ” 使用量将会减少 “。
回到这一次的功能更新上,来自英伟达的高级 AI 科学家 Jim Fan 评价道:
OpenAI 的经济成本是一个致命的优势。一些粗略的计算:
使用 GPT-4-turbo,阅读整个哈利 · 波特系列,包括 7 本书,仅需 15 美元,写作则需要 45 美元。
使用 GPT-4-V,以每秒 1 帧的速度观看所有 8 部哈利 · 波特电影,分辨率为 360p,需要 180 美元。
在这场以技术、成本的取胜的压制之下,有开发者选择按兵不动,” 这项技术仍在我们脚下快速变化。目前在别人的平台上构建似乎很危险。”
也有开发者开始思考,究竟从哪些维度切入,才能避免被 “OpenAI 杀死了初创公司 ” 的惨剧发生,跳出被 OpenAI 包围的圈子。
对此,来自 Reddit 网友也展开了一场激烈的讨论:
作为一名开发者,我早早就学到,如果你的创意主要依赖于一个 API,而提供该 API 的公司很容易吸收你的服务的功能,那么你很可能是在浪费时间。
已经过度融资的创业公司意识到,他们原以为只需要围绕 ChatGPT 包装两行代码就能垄断市场的想法并不成立。
如果它们无法在更新后生存下来,它们就不值得存在。它们没有为他们的 ” 商业 ” 创意建立护城河。它们追求了快速的金钱,结果遭到了严厉的打击,因为它们没有看得比未来一周更远。OpenAI 发布的一切都应该与商业结合使用。这就好比试图构建一个用于解决操作系统不足的小众应用程序,当微软将这个想法纳入其本机实现时,开发这款应用程序的开发商必然就迷茫了。
也有用户结合自己的切身经历,分享自己的看法:
九十年代初期,我的职业生涯始于一家领先公司的初级分析师。那是一个激动人心的时刻,我渴望留下自己的印记。我的职责是通过新兴计算机技术的视角探索生产力世界。当时,Microsoft Word 和 Excel 是主角,处理着我们大约 60% 的任务。剩下的则是其他尖端软件的拼凑而成,填补了剩下的 40%。
我有很多创新想法来提高我们的内部能力,以应对这难以捉摸的 40%。然而,尽管我很热情,我的建议还是被拒绝了。当我的沮丧情绪爆发时,我并没有被解雇。相反,高级行政主管将我拉到一边,倾听我的担忧。他与我分享了一个战略愿景:公司正在调整自己的节奏,削减成本,同时等待微软扩展其能力。这最终将简化运营并为我们带来更低的成本竞争优势。
看看我们今天使用的插件,我不禁将它们视为临时解决方案,它们是垫脚石,引导我们走向未来,当前的限制只是一个记忆,所有问题都在开发商如 OpenAI 内部会得到解决。
对此,你认为 OpenAI 最新发布的技术会对什么样的创业公司带来 ” 致命 ” 的影响?走什么样的路才能不被淹没在 OpenAI 快跑发布的版本中?
参考:
1. An e-sports commentator built using the new GPT-4V and text-to-speech API https://t.co/r5kmvwdaUX
— Rowan Cheung (@rowancheung) November 7, 2023
What’s up with all the “Open AI just killed my startup” after the Devday? – out of the loop
byu/Jerry_007 inOpenAI
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/305454.html