# AI及信息技术应用2024年6月9日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够感知环境、学习、推理、规划和解决问题。

## 2. 核心洞察 (TL;DR)
- 智谱AI发布GLM-4模型，性能超越Llama 3和GPT-4V。
- 昆仑万维开源Skywork-MoE模型，降低稀疏大模型推理成本。
- 阿里巴巴发布Qwen2系列开源模型，支持多语言和长上下文处理。

## 3. 关键事实与数据
- 关键事实1: 智谱AI的GLM-4-9B模型在性能上全面超越了Llama 3 8B，并具备多模态能力。
- 关键事实2: Skywork-MoE模型总参数量为146B，激活参数量22B，推理成本更低。
- 关键事实3: Qwen2系列模型支持长达128K tokens的上下文长度，表现优于Llama-3-70B和Qwen1.5-110B。

## 4. 深度分析正文


AI及信息技术应用2024年6月9日简报
====================

上周人工智能领域的涌现出一系列令人瞩目的创新成果。智谱AI的最新力作GLM-4模型，以其卓越的性能和成本效益，为AI产业的应用研究树立了新的标杆。昆仑万维开源的Skywork-MoE模型，以其出色的性能和低成本推理，为稀疏大模型的应用开辟了新天地。阿里巴巴的Qwen2系列开源模型，以其长上下文支持和卓越的智能水平，为AI的多语言处理和上下文理解带来了新的突破。快手kling自然语言合成视频的产品测试等，新体验层出不穷。

Nvidia的推理微服务(NIMs)和Agentic AI的推出，标志着AI正朝着更加智能和协作的方向发展，预示着未来AI将更加灵活高效地解决复杂问题。而谷歌和字节跳动在音乐和语音生成领域的新模型，不仅展示了AI在艺术创作上的潜力，也为相关产业的发展注入了新的活力。

在产品市场创新方面，Meta通过在WhatsApp Business中引入AI功能，极大地提高了商业账户响应客户查询的效率，为商业沟通带来了革命性的改变。DuckDuckGo的私密AI聊天机器人，以其对用户隐私的严格保护，为用户提供了一个安全、可靠的交流平台。Google的NotebookLM新功能，通过增强多模式支持和分析能力，为用户的研究和信息管理提供了更加强大的工具。Asana的“AI 队友”功能，通过自动执行工作任务，极大地提升了团队的工作效率和协作效果。

然而，在AI技术的快速发展背后，合规和监管问题也日益凸显。谷歌针对Google Play AI应用程序的新规定，强调了应用内报告机制和严格测试的重要性，以确保AI内容的适当性和安全性。Adobe的新使用条款引发的担忧，提醒我们在使用AI技术时，需要更加关注版权和隐私保护问题。此外，AI技术在语言多样性保护方面的挑战，也呼吁我们投入更多的资源和努力，以确保全球语言的多样性得到保护和传承。

总的来说，人工智能领域的最新动态不仅展示了技术的无限可能，也提醒我们在追求创新的同时，需要关注合规、隐私保护以及语言多样性等重要议题。随着技术的不断进步，我们有理由相信，人工智能将为人类的生活和工作带来更多的便利和惊喜。

**1，AI产业及应用研究**
---------------

智谱 AI 发布 GLM-4 模型：超越 Llama 3，多模态对标 GPT-4V  
\[摘要\]：智谱 AI 推出了最新版本的大模型 GLM-4，其中 GLM-4-9B 模型在性能上全面超越了 Llama 3 8B，并具备多模态能力的 GLM-4V-9B 对标 GPT-4V。新的 MaaS 平台 2.0 版大幅降低了企业使用成本，API 价格降至 6 分钱/百万 Token。智谱 AI 还发布了支持本地运行和开源的 GLM-4-9B 模型，推动大模型在各行业的应用和商业化进程。

昆仑万维开源千亿稀疏大模型 Skywork-MoE，性能强劲推理成本更低  
\[摘要\]：快手子公司昆仑万维开源了Skywork-MoE模型，这是一款具有优秀性能且推理成本较低的稀疏大模型。该模型基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型，也是首个支持使用单台4090显卡服务器推理的开源千亿MoE大模型。该版本的Skywork-MoE模型隶属于天工3.0研发模型系列中的中档大小模型，总参数量为146B，激活参数量22B，共有16个Expert，每个Expert大小为13B，每次仅激活其中的2个Expert。Skywork-MoE在相同的激活参数量20B（推理计算量）下表现出色，能力位于行业前列，接近70B的Dense模型。

阿里巴巴发布Qwen2系列开源模型  
\[摘要\]：阿里巴巴通义千问团队推出Qwen2系列开源模型，包含5个尺寸的预训练和指令微调模型：Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。Qwen2在多个评测基准上显著超越现有最优开源模型。模型进行了大规模预训练和精细微调，提升了其基础能力和智能水平，支持长达128K tokens的上下文长度，表现优于Llama-3-70B和Qwen1.5-110B。硅基流动团队已在SiliconCloud平台上线了Qwen2系列模型。

智谱 AI 推出 GLM-4-9B 模型系列，支持多语言并具备多种能力  
\[摘要\]近期，智谱 AI 开源了最新一代预训练模型 GLM-4 系列中的开源版本 GLM-4-9B。在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 超越了 Llama-3-8B。GLM-4-9B-Chat 不仅支持多轮对话，还具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（最大支持 128K 上下文）等功能。GLM-4-9B 支持日语、韩语、德语等 26 种语言，还推出了支持 1M 上下文长度的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 在高分辨率（1120 \* 1120）下具备中英双语多轮对话能力，在视觉理解、图表理解和跨语言理解等多方面的多模态评测中超过 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus。

阿里和北交大的 Mobile-Agent-v2 发布了！  
\[摘要\]：阿里巴巴和北京交通大学合作发布了 Mobile-Agent-v2，这是一种移动设备操作助手，采用多代理协作，实现了高效导航。该系统基于多代理架构的纯视觉解决方案，具备更强的任务分解、跨应用操作和多语言能力。相比单代理架构的 Mobile-Agent，Mobile-Agent-v2 在任务完成率上提高了 30% 以上。

Nvidia 推出推理微服务 (NIMs) 和Agentic AI  
\[摘要\]：Nvidia发布了推理微服务 (NIMs)，引领Agentic AI时代。此系统通过智能代理灵活组合多种AI能力，应对复杂的开放性问题。CEO黄仁勋提出，这一模式借鉴人类团队合作，推理代理将高层次目标分解为子任务，协调专门化的AI模型。该系统旨在动态整合信息检索、计算机视觉、数据分析等多领域专家，实现灵活、高效的问题解决方式，标志着AI从狭义任务优化向全面智能协作的转变。

谷歌推出 Veo，对抗 OpenAI Sora  
\[摘要\]：谷歌刚刚发布了 Veo，这款产品被视为目前 OpenAI Sora 最强劲的竞争对手。Veo 旨在与 Sora 竞争市场份额，展示了谷歌在人工智能领域的强大技术实力和创新能力。随着两家公司在AI领域的竞争加剧，用户将受益于更先进、更强大的AI解决方案。

Stability 发布开源音乐生成模型  
\[摘要\]：Stability 已经开源了其音乐生成模型 stable-audio-open。该模型能够生成最长 47 秒的音乐片段，供用户试用。然而，需注意的是，此模型仅供非商业用途。Stability通过这款模型展示了其在生成式 AI 音乐创作领域的创新和技术进步，进一步推动了 AI 在音乐创作中的应用和发展。

字节跳动推出高品质语音生成模型 Seed-TTS  
\[摘要\]：字节跳动发布了新的语音生成模型 Seed-TTS，该模型能够生成几乎与人类语音无异的语音。Seed-TTS 支持多种语言，包括英语和中文，能够进行同语言和跨语言生成。它可以处理各种类型的文本，如叙述性文本、情感表达和描述性文本，并能根据不同的情感和语境生成相应的语音。这一创新显著提升了语音生成技术的应用前景。

Stability AI 发布开源文本到音频模型：Stable Audio Open  
\[摘要\]：Stability AI 开源了新的文本到音频生成模型 Stable Audio Open，该模型能生成最长 47 秒的音频样本和制作元素。它可以创作鼓点、乐器即兴重复段、环境声音和拟声效果，并支持音频变化和音频样本的风格转换。用户还可以在自己的定制音频数据上微调模型，例如鼓手可以在自己的鼓声录音样本上进行微调，生成新鼓点。

Google Releases TimesFM: Advanced Time Series Forecasting Model  
\[摘要\]：Google 推出 Time Series Foundation Model (TimesFM)，利用大量历史数据学习事件模式和趋势，对新数据进行精准预测。TimesFM 擅长处理长上下文序列，适应不同预测期限，灵活处理非连续或不同频率数据，适用于高频短周期和低频长周期预测。预训练模型降低了应用门槛，并通过 API 支持数组和 DataFrame 输入，便于集成现有工作流程。该技术在天气预报、能源需求预测、金融市场分析、工业监控和疾病发展预测等领域具有重要应用。

Meta 启动人工智能翻译项目：不遗漏任何语言 (NLLB)  
\[摘要\]：Meta 推出 "不遗漏任何语言" (No Language Left Behind, NLLB) 项目，开发了一种支持 204 种语言的机器翻译模型，尤其关注低资源语言。当前的主流机器翻译模型通常只支持几十种语言，无法覆盖全球超过 7000 种语言。NLLB 项目致力于解决这一问题，确保所有语言都能得到支持，从而促进语言多样性和跨文化交流。

最新版 Chrome 内置大模型 Gemini Nano，推荐本地和远端大模型混合使用方  
\[摘要\]：新版 Chrome 内置了大模型 Gemini Nano，官方推荐用户采用本地与远端大模型混合使用的方案。使用本地模型的优势包括：本地处理敏感数据、流畅的用户体验、更高的 AI 访问权限、以及支持离线使用。这些优势能够提升数据安全性、操作效率和用户隐私保护。

Voyage AI 推出 "voyage-finance-2" 嵌入模型  
\[摘要\]：Voyage AI 推出了针对金融数据的专用嵌入模型 "voyage-finance-2"。该模型在多种金融数据集上的表现平均比 OpenAI 提高了 7%，比 Cohere 提高了 12%。其 32K 的上下文长度显著超越了其他模型，提升了金融相关任务中的检索精度，使其非常适合需要高质量金融信息提取和分析的应用。

Chrome 内置大模型 Gemini Nano  
\[摘要\]：最新的 Chrome 浏览器已经内置了大模型 Gemini Nano，推荐用户采用本地和远端大模型混合使用的方案。本地模型的优势包括：处理敏感数据时更安全、提供更流畅的用户体验、更高的 AI 访问权限、以及在离线状态下也能使用 AI 功能。这些特性使用户在隐私保护、数据处理效率和使用便捷性方面获得更好的体验。

谷歌发布 TimesFM：高级时间序列预测模型  
\[摘要\]：谷歌推出 Time Series Foundation Model (TimesFM)，该模型通过大量历史数据学习事件模式和趋势，对新数据做出精准预测。TimesFM 可处理长上下文序列，适应不同预测期限，灵活处理非连续或不同频率的数据。适用于高频短周期和低频长周期预测。预训练模型降低了应用门槛，并通过 API 支持数组和 DataFrame 输入，便于集成现有工作流程。该技术在天气预报、能源需求预测、金融市场分析、工业监控和疾病发展预测等领域具有广泛应用。

谷歌升级了 NotebookLM，支持 Gemini 1.5 Pro  
\[摘要\]：谷歌的 NotebookLM（AI研究助手）进行了升级，现在支持使用 Gemini 1.5 Pro 模型。新功能包括支持上传 Google 幻灯片、URL、Google 文档、PDF 和文本文件等格式的内容；侧边栏摘要可直接滚动到来源段落；能够自动创建常见问题解答、简报文件、学习指南等。这些改进大大增强了用户在研究和信息管理方面的效率和便捷性。

快手发布“可灵”视频大模型  
\[摘要\]：快手发布了“可灵”视频大模型，该模型采用类似于 Sora 的技术路线，能够生成超过120秒的1080P视频。其特色包括模拟真实世界的物理特性，如重力、光影反射、液体流动等，能准确建模复杂运动场景，如高速奔跑的动物和在月球上行走的宇航员。生成视频画面连贯、动作流畅，细节刻画到位。用户可以通过输入相机运镜、帧率等控制信息，实现丰富的内容控制。专用语言模型提升了用户提示词的生成效果。

Aider：SWE Bench 上得分最高的AI 编程助手  
\[摘要\]：Aider 是一款 AI 编程助手，在 SWE Bench 上得分最高。其特点包括与用户讨论代码并请求变更，支持多种编程语言如 Python、JavaScript、TypeScript、PHP、HTML 和 CSS 等。Aider 可自动进行 Git 提交，支持多文件协调变更，并利用整个 Git 仓库的映射进行工作。用户可以通过聊天添加图片和 URL，以及通过语音识别进行编码。与 GPT-4o 和 Claude 3 Opus 配合使用效果最佳，几乎可以连接任何 LLM。

谷歌推出两项新功能，助力营销人员优化广告效果  
\[摘要\]：谷歌近日推出了两项新功能，旨在帮助营销人员更好地了解和应用人工智能在广告中的作用。首先是“Accelerate with Google”，一个人工智能驱动的广告产品资源中心，提供了关于人工智能在广告中的应用和案例。其次是“品牌推荐”，这是谷歌广告中由人工智能提供支持的建议，旨在帮助营销人员优化品牌广告系列的效果。通过这两个功能，谷歌旨在助力营销人员更好地应用人工智能技术，提高广告效果和转化率。

Siri 和 Google Assistant 转向生成式 AI，提升虚拟助手能力  
\[摘要\]：根据最新报道，Apple 的 Siri 和 Google 的 Google Assistant 正在转向生成式 AI，以提升虚拟助手的能力。通过集成生成式 AI 模型，这两大虚拟助手旨在提高对话自然性、理解能力和任务自动完成能力。届时，用户将能够与虚拟助手进行更流畅的交流，并获得更加智能的帮助。该变化也标志着虚拟助手技术的新发展方向。

Mistral AI 推出微调 API 和 SDK  
\[摘要\]：Mistral AI 推出了微调 API 和 SDK，使用户能够轻松定制其 AI 模型。通过这些工具，开发者可以根据特定需求对模型进行微调，提升在不同应用场景中的表现。这一新功能进一步增强了 Mistral AI 模型的灵活性和实用性，为用户提供了更高的控制和定制能力。

Mistral 让定制 AI 模型变得更加容易  
\[摘要\]：法国 AI 初创公司 Mistral 推出了新的定制选项，使开发人员和企业能够根据特定用途微调其生成式 AI 模型。该公司提供自助服务和托管选项，以增强其产品供应，并计划筹集 6 亿美元资金以推动进一步发展。

Tektonic AI 筹集 1000 万美元用于业务运营自动化  
\[摘要\]：Tektonic AI 宣布筹集了 1000 万美元，用于开发生成式 AI 代理，以实现业务运营的自动化。该公司的 AI 代理将帮助企业优化工作流程、提高效率，并减少人工操作。此次融资将助力 Tektonic AI 进一步推动其技术发展和市场扩展，为更多企业提供先进的 AI 自动化解决方案。

AMD 预测 3-5 年内 AI 代理将实现全功能，改变行业与生活  
**\[摘要\]：**AMD 的首席执行官 Lisa Su 博士在一次演讲中大胆预测，在未来三到五年间，我们将迎来功能完备的 AI 代理，这一技术进步有潜力彻底重塑行业、日常生活乃至计算领域的格局。这些自主 AI 系统能够理解和响应复杂任务的能力，预计将对医疗保健、金融等多个关键领域产生深远影响。预计这一革命性发展将主要得益于硬件的改进，特别是 AMD 的新 AI 优化芯片和机器学习模型的创新。AMD 的最新成果，如 Instinct MI300 系列芯片，将在实现更先进的 AI 功能中发挥核心作用。行业的影响不容小觑——自主 AI 代理不仅能够提升效率、支持新应用，还能通过简化日常任务和专业工作流程为各领域带来变革。

Scale AI 推出私密专家评估平台  
\[摘要\]：Scale AI 推出了一种新的私密专家评估平台，用于对前沿模型进行评估。该平台强调私密性和防过拟合，使用领域专家进行评估，并不断更新数据和模型。评估维度包括编程、数学、指令跟随和多语言。最新的评估结果显示：编程-GPT-4 Turbo，数学-Claude3 Opus，指令跟随-GPT-4o，西班牙语-GPT-4o。

**2，产品市场创新**
------------

Meta 在 WhatsApp Business 中引入 AI 功能，提高商业账户响应客户查询效率  
\[摘要\]：Meta 近日宣布在其 WhatsApp Business 应用程序中增加人工智能（AI）功能，以提高商业账户响应客户查询的效率。新的 AI 功能包括自动响应工具，帮助商家快速响应频繁的客户消息。此外，Meta 还引入了 WhatsApp 广告创建工具，允许商家创建点击 WhatsApp 广告，以提高品牌知名度和销售转化率。

DuckDuckGo 推出私密AI聊天机器人  
\[摘要\]：DuckDuckGo 发布了私密AI聊天机器人，承诺不会使用用户数据训练模型，并确保聊天内容无法追溯到个人。该服务目前免费，无需注册即可使用。DuckDuckGo 通过替换用户的IP地址，并确保 AI 提供商在30天内删除聊天记录，来保障用户隐私。该机器人支持 OpenAI 的 GPT-3.5 Turbo、Anthropic 的 Claude 3 Haiku 以及两个开源模型（Meta 的 Llama 3 和 Mistral 的 Mixtral 8x7B）。

Google 为 NotebookLM 增添新功能  
\[摘要\]：谷歌的 AI 笔记和研究平台 NotebookLM 进行了多模式改造，增加了对 Google 幻灯片和网址的支持，并增强了对图像、图表和图解的分析能力。内联引用功能可提供更细致的事实核查，Notebook Guide 可生成来源摘要、常见问题解答、简报文档或学习指南，使用户对来源有更高层次的了解。这些新功能在 Gemini 1.5 Pro 的支持下，使 NotebookLM 更加强大和多用途。

Meta 将测试 WhatsApp 企业 AI 助手  
\[摘要\]：Meta 宣布将开始在 WhatsApp 上测试一款企业 AI 助手，能够通过聊天销售产品、回答购物者问题并创建定向广告。该助手将在印度和新加坡的企业中进行测试，随后在巴西推广。Meta 表示，全球 2 亿家企业可以访问 WhatsApp 中的 AI 助手与客户沟通，此举旨在提升企业与客户互动的效率。

Perplexity 推出 Pages 功能  
\[摘要\]：人工智能搜索引擎 Perplexity 推出了 Pages 功能，旨在根据用户提示创建可定制的网页。该功能特别适合教育工作者、研究人员等群体，帮助他们快速生成相关内容的综合网页，提升研究和教学效率。

Asana 推出“AI 队友”  
\[摘要\]：Asana 推出了“AI 队友”，这是一项生成式 AI 功能，旨在自动执行工作任务。AI 机器人可以管理工作流程、设置优先级、提出提高生产力的建议，并自动执行常规和复杂任务，提升团队工作效率和协作效果。

Microsoft 发布 Copilot 电脑的 Recall Preview 功能更新  
\[摘要\]：微软宣布更新 Copilot 电脑的 Recall Preview 功能，旨在增强用户体验和数据管理能力。该功能允许用户更轻松地访问和管理他们的计算机数据，提供更高效和直观的操作方式。此次更新包括改进的用户界面和新的安全措施，确保数据处理的安全性和可靠性

**3，合规和监管**
-----------

谷歌禁止不安全的人工智能内容  
\[摘要\]：谷歌向Google Play AI应用程序开发者发布了新规，以减少不适当和禁止内容。开发者必须防止生成色情和暴力内容，并提供应用内报告机制，让用户报告不适当内容。人工智能工具和模型需严格测试以确保安全和隐私。新规则适用于生成AI内容的应用，如聊天机器人、图像生成器和音频应用，但不适用于生产力工具或托管AI内容的应用。

Adobe 令人震惊的新规则  
\[摘要\]：Adobe 发布的新使用条款允许其通过“手动和自动方法”访问用户内容，令用户担心他们的作品可能被用于训练 AI 模型。尽管 Adobe 保证这项权利仅用于改进其服务和软件，但用户几乎无法控制其内容的使用和共享方式。此举可能引发版权侵权和隐私问题，损害客户对 Adobe 所谓“道德 AI 功能”的信任。

人工智能革命正在摧毁数千种语言  
\[摘要\]：《大西洋月刊》报道，英语在数字空间中的主导地位和生成式人工智能技术的兴起，对语言多样性构成了重大威胁。许多在线内容和人工智能应用都使用英语或少数几种语言，这可能会边缘化土著语言和资源匮乏的语言。为解决这一问题，Masakhane 等项目致力于为代表性不足的语言开发 AI 工具，然而，创建这些语言的训练数据需要大量资源和协作。

---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240609-ai202469](https://www.haxitag.com/briefs/ai-brief-20240609-ai202469)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。