首页 > 原创作品 > 原创作品 > 谷歌发布全新PaliGemma 2视觉模型 能识别人们的情绪

谷歌发布全新PaliGemma 2视觉模型 能识别人们的情绪

发布时间:2024-12-07 12:52:37

在众多为人工智能(AI)赋予“视觉”能力的模型中,谷歌的PaliGemma模型占据一席之地。作为谷歌的视觉语言模型,它能够识别图像中的物体和文字。近日,谷歌正式推出了全新的PaliGemma 2模型,并已投入使用。

  PaliGemma初代模型已是一款实用的工具,能够识别图像中的物体,并为图像添加字幕,甚至还能为短视频添加字幕。PaliGemma的一个更为实用的功能是能够回答关于图像的问题。因此,它是一款功能强大的综合模型。

  谷歌于今年5月正式向公众介绍了PaliGemma模型。谷歌希望PaliGemma 2能够成为初代模型的直接替代品。谷歌提供了多个版本的PaliGemma 2,包括30亿、100亿和280亿参数变体,以及224像素、448像素和896像素分辨率版本。

  在其他规格方面,PaliGemma 2支持长文本字幕生成。谷歌表示,它将不仅仅局限于识别物体,还能识别人物并解读其情绪。因此,如果某人感到高兴、悲伤等情绪,PaliGemma 2都能捕捉到。

  此外,该模型似乎还能识别场景中发生的更多内容,以讲述完整的故事。谷歌称,PaliGemma在识别乐谱、化学公式、识别深度以及制作胸部X光片报告方面表现更佳。谷歌为PaliGemma带来了相当显著的更新。如果你想使用它,可以在Hugging Face、Kaggle和Ollama平台上获取其代码。

  谷歌还发布了其视频生成模型Veo的私有预览版。该公司在今年的谷歌I/O大会上宣布了这一消息。如果你正在使用谷歌的Vertex云平台,那么你将有机会进行尝鲜。你可以生成最高达1080p分辨率的视频。

原创作品更多>>

长城魏牌80进军马来西亚市场更名魏牌G9,本土化组装插混 MPV 即将上市 捷豹路虎拟利用英国闲置产能代工奇瑞车型,中英车企合作或成英国汽车业复苏关键 博通推出业界首款6G兼容DFE数字前端SoC芯片BroadPeak 详读2万3千字的新“AI 宪法”之后,我理解了Anthropic的痛苦 爬虫公司SerpApi反诉谷歌,称“谷歌才是全球最大爬虫” 阿里云Coding Plan上新:支持千问3.5、GLM-4.7、Kimi-K2.5等模型 三星Galaxy S26 Ultra宣传材料曝光:相机规格与电池容量尘埃落定 三星Galaxy S26系列手机将深度整合Perplexity AI,打造多智能体协同生态系统 宝马将在中国投产长轴距版iX3,4月北京车展首发,年内上市 中国汽车2025年出口:总量跃升与结构变迁 特斯拉取消标配自动辅助驾驶功能,新车默认不提供车道居中功能 中国电动跑车SC01正式登陆欧洲,限量1000台 大众ID.4改款后更名,ID.5将停产 晓莺说热点:2026CES观察:AI狂奔,从灵魂到躯体 宝马iX3与奔驰EQ GLC预售超预期,双方加速产能爬坡 丰田在加拿大工厂投产2026款混动版RAV4 TikTok将在欧盟加强年龄验证技术,数千个未成年人账号被移除 西贝宣布关店102家后,罗永浩最新发声 抖音加强治理摆拍演绎:煽动对立情绪最高永久封禁 华为、小米等品牌被纳入iPhone以旧换新范围 极氪007/GT车型更新计划公布:今年Q2焕新上市,将提供900V版 中国电子董事长:2026年将着力打造国产全谱系全流程EDA工具系统 推出新一代高性能芯片 突破2700万辆!2025年中国车企全球销量首超日本 工信部:动力电池、新能源汽车生产者承担动力电池回收“兜底”责任 迎接新作,《火焰之纹章》全系列17部游戏大盘点,重回旧日时光 甄嬛传、蜡笔小新、爱情公寓,百部经典影片被搬上“游戏大银幕” 官方重磅确认!工作室正全力开发《匹诺曹的谎言》续集 美国新一轮入境限制生效,全球机场乱成一团! 北京高考状元回中学母校当老师?原来10年前他就告诉了答案 2025行业之光大会——第34届全国建材与家居行业年会圆满落幕