ChatGPT在聊天机器人中的流行使生成人工智能(AI)成为科技领域“当红炸子鸡”。除了如今“霸屏”除了类似ChatGPT的语言模型外,生成人工智能领域还有许多其他技术:文本生成图像正成为主流的聊天形式,而能够将文本转换为视频的生成人工智能是“害羞的玫瑰悄悄地打开了”,预计将成为该领域的下一个领域“大事件”。
(相关资料图)
然而,专家也指出,尽管文本生成视频人工智能预计将应用于娱乐、艺术和其他领域,但从技术到伦理道德都面临着挑战。
文本生成视频,开始露出头角
朗韦是纽约人工智能的初创企业(Runway)伊恩,公司软件架构师·桑萨韦拉在电脑上输入了一个简短的文字:森林里一条宁静的河流。
大约两分钟后,公司开发的生成视频模型Gen-2生成了一段短视频:在阳光下,河水波光粼粼,河水蜿蜒穿过森林和草地,轻轻撞击岩石。
朗韦计划最近向少数测试人员开放Gen-2服务。该公司表示,用于图像和视频合成的深度神经网络正变得越来越准确、逼真和可控,这也使人们能够获得极其逼真和美学的图像,并催生了合成媒体的兴起。
据“数字趋势”网站3月27日报道,仅在过去的7天里,就出现了5款此类人工智能视频生成器:朗韦公司的Gen-2,美易(Picsart)Text2video公司-Zero、Video-P2P、TemporalNet,以及中国阿里巴巴公司开发的Text-to-video。
潮流引领潮流!这些系统人工智能竞争进入下一阶段,微软、谷歌等行业巨头和小规模初创企业纷纷进入市场。
据《印度时报》报道,早在2022年9月,元宇宙平台公司就出现了“制作视频”(Make-A-Video)软件。软件只需输入几个单词就可以制作无声视频。随后,谷歌推出了生成式AI模型ImagenVideo。该公司表示,Imagenvideo可以通过给出文本提示来生成高清视频。该公司还展示了另一个Phenaki模型,目标是在输入文本的基础上制作长视频。
《纽约时报》报道称,这可能是技术领域的下一个重大事件,与网络浏览器或iphone的诞生相当重要。
迫切需要改进相关技术
然而,一些专家指出,这些人工智能软件的质量参差不齐,面临着一些技术挑战。
例如,桑萨韦拉产生的桑萨韦拉“清泉石上流”视频只持续4秒。如果你仔细看,你会发现画面不连贯,画面质量模糊,有时会出现奇怪、扭曲和令人不安的画面。
美国《Vice》在3月28日的报道中,杂志网站生成了人工智能“威尔·吃意大利面的史密斯”视频被评为最奇怪的AI生成视频。在Modelscope制作的视频中,面容扭曲的史密斯看起来更像是他配音的电影《鲨鱼故事》中的一条奇怪的鱼。他试图把成堆的面条舀进嘴里,从叉子上或手里嚼一大块意大利面。这是一个噩梦般的定格动画视频,仅由一行无害的文字生成:威尔·吃意大利面的史密斯。
DeepMedia.人工智能是一家为美国政府建立数据集的美国初创公司“深度造假”公司创始人兼首席执行官瑞杰勒提供内容支持·4月4日,古普塔在接受媒体采访时指出,人工智能生成的视频存在两个主要问题:一是单帧不完全逼真;第二,帧与帧之间的连接不流畅。然而,通过使用越来越多的数据培训,该技术应该能够解决这些问题,并快速提高和扩展这些文本生成视频系统的能力。
改进后的视频制作系统可以加快电影制片人和其他数字艺术家的工作速度。专家认为,在这些系统的支持下,他们很快就能制作出带有音乐和对话的专业微电影。
一些专家认为,未来人工智能生成的视频可能会制作出可信和良好的内容,并唤起人类的情感。
“深度造假”值得警惕
这些系统也将成为快速制造难以察觉的网络虚假信息的一种新方式,使人们更难区分互联网上的真实信息,目前深度伪造技术带来的问题可能更加严重。
菲利普,美国麻省理工学院人工智能教授·伊索拉说,如果你看到高分辨率的视频,人们很可能会相信。一些专家指出,随着人工智能语音匹配的出现,以及逐渐有能力改变和创建几乎触手可及的现实视频,伪造公众人物和普通人的言行可能会造成不可估量的伤害,“潘多拉的魔盒已经打开”。
现有公司正在开发检测软件,并将其集成到音视频媒体平台上。
微信扫码
QQ扫码
您的IP:10.1.228.218,2025-12-25 13:41:43,Processed in 0.26943 second(s).