标题 摘要 内容
    详情

    学研动态

    清华、哈工大提出OneBit方法:可把大模型压缩到1bit并保持83%性能

    3月4日,清华大学和哈尔滨工业大学联合发布了一篇论文,论文提出乐OneBit方法,首次尝试将预训练大模型压缩到真正的1bit。通过全新的1bit层结构、基SVID的参数初始化和量化感知训练,成功将大模型参数压缩到1bit 表示。该方法不仅保留了模型的高精度和高秩,还能够在极大幅度压缩模型参数的同时,保证模型至少83%的性能。

    港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

    3月4日,香港科技大学和南方科技大学的研究团队构建了首个包含视觉图的推理问答数据集GITQA,并在GPT-4 turbo,GPT-4V等开源模型和Vicuna,LLaVA等闭源模型上进行了广泛的实验,证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。

    研究人员推新AI框架CyberDemo:通过视觉观察让机器人模仿学习

    3月7日,加利福尼亚大学圣地亚哥分校(UCSD)和南加利福尼亚大学(USC)的研究人员最近推出了一种名为CyberDemo的新型人工智能框架,旨在通过视觉观察进行机器人模仿学习。相比传统方法,CyberDemo在任务成功率上取得了显著提高。在涉及未见过的物体时,CyberDemo的泛化能力特别突出,旋转新物体的成功率达到42.5%。

    产业要闻

    Stack Overflow与谷歌合作,将向Gemini开放API

    3月3日,程序员问答平台Stack Overflow发布公告称,已与谷歌Google Cloud建立战略合作伙伴关系,后者将利用OverflowAPI获得接入Stack Overflow知识库的权限,以丰富Google Cloud中的Gemini,并在Google Cloud控制台中提供经过验证的Stack Overflow答案。

    Anthropic 发布 Claude 3 系列大语言模型

    3月4日,人工智能创业公司Anthropic宣布推出其突破性的Claude 3系列模型,该系列大型语言模型 (LLM) 在各种认知任务上树立了新的性能标杆。Claude3系列包含三个子模型,分别为Claude 3 Haiku、Claude 3 Sonnet和 Claude 3 Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。

    谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表

    3月5日,谷歌发布了ScreenAI,这一AI模型不仅能理解用户界面和信息图表,而且在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。ScreenAI的核心创新在于对截图的文本表示方法。该模型能够识别UI元素的类型和位置,这一方法使用了Google LLM PaLM2-S生成的合成训练数据,使其能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。

    北京首个车联网新型基站完成验证

    3月5日,北京移动联合中国移动研究院、中兴通讯共同部署完成了北京首个车联网业务新型基站的端到端验证。传统的无人驾驶车辆主要依靠车辆上的多重传感器实现智能驾驶。未来智能网联汽车将无需挂载昂贵的传感器设备,由路侧设备就能提供驾驶信息、交通信息和路况信息,让更多汽车具备自动驾驶功能。此次试验的车联网新型基站就相当于路的“眼睛”,能让道路更加智慧化。