# AI及信息技术应用2024年4月21日简报

## 1. 核心定义
> 大型语言模型（LLM）是一种能够理解和生成人类语言的人工智能模型，通过大规模数据训练，具备强大的语言理解和生成能力。

## 2. 核心洞察 (TL;DR)
- Meta的Llama 3系列模型在性能上超越Google的Gemini和Mistral。
- 开源工具和低成本高性能模型提升AI技术的可访问性和经济性。
- AI技术发展与法律、伦理挑战之间的紧张关系日益凸显。

## 3. 关键事实与数据
- 关键事实1: Meta的Llama 3系列模型在性能上超越了Google的Gemini和Mistral。
- 关键事实2: Jina AI开源了RAG数据处理的关键组件Reader，支持流式读取。
- 关键事实3: JetMoE-8B模型以不到0.1百万美元的训练成本，胜过了拥有数十亿美元训练资源的Meta AI的LLaMA2-7B模型。

## 4. 深度分析正文



AI及信息技术应用2024年4月21日简报
=====================

上周在AI产业及应用研究领域，近期的进展显示了大型语言模型（LLM）的快速发展和多模态能力的提升。Meta的Llama 3系列模型在性能上超越了Google的Gemini和Mistral，展现了其在大规模参数训练中的优势。同时，开源工具如Jina AI的Reader和Reka的Core模型，以及低成本高性能的JetMoE-8B模型，都表明了AI技术的可访问性和经济性在不断提升。此外，Mini-Gemini和MiniCPM-V 2.0的发布，以及RAGFlow引擎的开源，都为企业提供了更高效的数据处理和工作流自动化工具。百度AI开发者大会和谷歌的新AI工具及服务的发布，进一步强调了AI原生应用和智能体在未来技术发展中的核心地位。在产品市场创新方面，Brave的Answer AI、Adobe Express以及Adobe Premiere Pro的生成式AI工具，都体现了AI技术在提升用户体验和创作能力方面的潜力。合规和监管方面，中国法院对生成式AI侵权的判决、美国立法推动AI版权透明度，以及英国加强AI安全监管的举措，都反映了AI技术发展与法律、伦理挑战之间的紧张关系。整体来看，AI技术的快速发展正在推动产业创新，同时也带来了对监管和合规性的新要求。

**1，AI产业及应用研究  
  
**
---------------------

Meta发布Llama 3系列大语言模型，超越Gemini和Mistral

**摘要：** Meta发布了Llama 3系列大语言模型，包括8B和70B参数规模的模型，以及尚在训练中的400B+超大规模模型。据Meta公布的基准测试结果显示，Llama 3在性能上表现不俗，超越了Google的Gemma和Mistral模型。Llama 3 8B模型击败了Gemma 7B和Mistral 7B，而Llama 3 70B与Google的Gemini Pro 1.5和Anthropic的The Claude 3 Sonnet处于同一水平，甚至稍微更好。Llama 3模型基于来自公共来源的超过15万亿标记进行了预训练，数据集比Llama 2大七倍，包含的代码多四倍，因此应具有更高的答案质量。

Jina AI开源RAG数据处理关键组件：网页数据爬取Reader

**摘要：** Jina AI最近开源了RAG数据处理的关键组件——Reader。用户可通过填入任何URL获取LLM友好的解析内容（Markdown格式），支持流式读取，简单内容仅需2秒获取。该工具免费使用且开源，未来计划支持处理图片或视频总结，但暂不支持多语言。详细使用方法可参考在线演示。

Reka推出前沿多模态语言模型Core

**摘要：** Reka推出了Core，这是一款与OpenAI和Google等行业领军模型相媲美的前沿多模态语言模型。Core在理解图像、视频和音频方面具有强大的能力，提供了无与伦比的部署灵活性，并承诺通过持续训练实现进一步的性能提升。Reka与Snowflake、Oracle和AI Singapore等战略合作伙伴的合作，突显了其在全球推广先进人工智能技术方面的承诺。

JetMoE-8B以0.1百万美元训练成本超越LLaMA2-7B性能

**摘要：** JetMoE-8B模型以不到0.1百万美元的训练成本，胜过了拥有数十亿美元训练资源的Meta AI的LLaMA2-7B模型。这表明大型语言模型（LLM）的训练成本可以比预期更为经济实惠。JetMoE-8B是完全开源的，使用公共数据集进行训练，代码开源无需专有资源。它可以在非常有限的计算预算下进行微调，如大多数实验室可以负担得起的消费级GPU。JetMoE-8B推理过程中只有22亿个活跃参数，大大降低了计算成本。与类似推理计算的模型（如Gemma-2B）相比，JetMoE-8B始终表现更好。

Mini-Gemini：挖掘多模态视觉语言模型的潜力

**摘要：** Mini-Gemini支持从2B到34B的密集和MoE大型语言模型（LLMs），同时具备图像理解、推理和生成功能。我们基于LLaVA构建了这个仓库。最新消息：Hugging Face演示已推出，包括13B-HD版本，欢迎观看和尝试。Mini-Gemini正式发布！我们发布了Mini-Gemini的论文、演示、代码、模型和数据。

MiniCPM-V 2.0发布：拥抱多模态视觉语言模型的新进展

**摘要：** 我们推出了MiniCPM系列的最新多模态版本MiniCPM-V 2.0，基于MiniCPM 2.4B和SigLip-400M构建，拥有2.8B参数。MiniCPM-V 2.0具备领先的光学字符识别（OCR）和多模态理解能力，在OCRBench等评测基准中表现优异。该模型在综合性OCR能力评测基准OCRBench上取得开源社区最佳水平，在场景文字理解方面接近Gemini Pro的性能。MiniCPM-V 2.0还具备高效部署、双语支持等特性，是多领域多模态任务的优秀选择。

RAGFlow：开源RAG引擎为企业提供精简工作流

**摘要：** RAGFlow是基于深度文档理解构建的开源RAG（Retrieval-Augmented Generation）引擎，为企业及个人提供可靠的问答和有理有据的引用。其主要功能包括从复杂格式数据中提取见解、快速完成无限上下文测试、基于模板的文本切片、最大程度降低幻觉、兼容各类异构数据源以及全程自动化的工作流。RAGFlow支持丰富的文件类型，包括Word文档、PPT、Excel、图片、PDF等，可通过易用的API轻松集成到各类企业系统中，适用于各种规模的应用和生态系统。

百度AI开发者大会：智能体引领AI原生未来

**摘要：** 4月16日，百度AI开发者大会在深圳举行，李彦宏和何俊杰分别发表重要演讲。李彦宏介绍了文心大模型系列和三大AI开发工具，强调未来自然语言将成为通用编程语言。何俊杰则展望智能体将重塑人与技术互动，推动新的应用生态和商业模式。百度移动生态提供了“人人可用的超级智能体”，推动智能体在用户、客户和生态层面的广泛应用，帮助商家降本增效。百度还推出文心智能体平台，为开发者提供智能体开发工具，构建繁荣的智能体生态圈。

谷歌发布新的AI工具和服务，Gemini和Imagen在其中发挥关键作用

**摘要：** 谷歌在Google Cloud Next 2024活动上宣布了一系列新的AI工具和服务，其中许多由Gemini 1.5 Pro提供支持，并已经公开预览。Imagen 2.0现已在Vertex AI中普遍可用。Google Workspace的Gemini推出了旨在提高工作效率的一系列工具，包括人工智能视频创建工具Google Vids。针对工程师和开发人员，Gemini将支持新的编码辅助工具和云基础设施创建工具。谷歌还宣布了针对谷歌云人工智能进行优化的新硬件，包括配备Nvidia Blackwell GPU的机器，预计将于2025年初推出。引人关注的是Vertex AI Agent Builder，这是一个用于各种任务创建人工智能代理的工具。详细信息可在谷歌云博客上找到，并可以在YouTube上观看完整的开场主题演讲。

微软推出令人兴奋的人工智能工具 VASA-1

**摘要：** 微软最近发布了名为VASA-1的创新人工智能工具，可以将单张照片和音频剪辑转化为逼真的头像视频。这项技术使用户能够想象并创建出他们最喜欢的名人栩栩如生地说话或唱歌的视频，仅凭借照片和声音。VASA-1的推出标志着微软在人工智能领域的进一步突破，为用户带来了新的创造性和娱乐性体验。

Adobe推出Firefly驱动的高级功能应用程序Adobe Express

**摘要：** Adobe推出了名为Adobe Express的全新应用程序，由Firefly AI支持，可在iOS和Android上使用。这款应用程序提供了类似桌面版的创意、编辑和生成人工智能功能。虽然基本应用程序免费，但要访问Firefly和完整的编辑工具，用户需要每月支付10美元的高级会员费用。Adobe Express的推出标志着Adobe在移动端人工智能编辑工具领域的进一步扩展，为用户带来了更多创作和编辑的可能性。

Stability AI裁员10%员工，应对市场挑战

**摘要：**Stability AI，知名的文本到图像模型开发商，宣布裁员20名员工，相当于其员工总数的10%。此举是为了降低成本、加强投资者支持以及推进创新产品计划。公司此前的重大人事变动包括创始人兼首席执行官的离职，为公司未来方向带来了新的挑战和机遇。

Diffuse：一张自拍照，创造无限AI视频

**摘要：**Diffuse是一款革命性的视频创作应用，用户只需上传一张自拍照，即可利用漫反射技术生成个性化、栩栩如生的视频内容。这款应用可以通过真实动作生成舞蹈、表情或模因，还能从单张参考图像创作个性化角色。借助强大的Prompt Builder功能，用户可以将创意转化为现实，开启无限的AI视频创作体验。

Snowflake推出SQL Copilot公共预览版：AI驱动的生成式SQL助手

**摘要：**Snowflake推出了Snowflake SQL Copilot的公共预览版，这是一款由AI驱动的生成式SQL助手，旨在简化查询过程。该工具能够将自然语言翻译为SQL，与AWS集成，提升用户的数据分析效率和可访问性，助力战略决策的制定。尽管仍有持续的开发需求，但SQL Copilot的公共预览版已经可供使用，展望着未来数据分析的智能化发展。

埃隆·马斯克的x.AI推出Grok-1.5V：突破性多模态模型引领AI新标准

**摘要：**埃隆·马斯克领导的研究实验室x.AI发布了名为Grok-1.5 Vision (Grok-1.5V)的新人工智能模型，这一模型结合了视觉和语言理解，采用了多模态方法，似乎超越了当前技术中的GPT-4等模型。Grok-1.5V的推出可能对人工智能领域产生重大影响，提升了人工智能的整体能力和应用前景。

Cohere AI推出Rerank 3：优化企业搜索和RAG系统的尖端基础模型

**摘要：**人工智能领域新兴领导者Cohere宣布推出Rerank 3，这是专为改进企业搜索和检索增强生成（RAG）系统而设计的最新基础模型。Rerank 3的主要优势在于它能够处理复杂的、半结构化数据，包括电子邮件、发票、JSON文档、代码和表格等多种格式。这一发展有望通过提高企业数据管理系统的准确性、效率和成本效益来实现对先前模型的重大升级。Rerank 3的精细处理各种元数据字段，确保产生高度相关的搜索结果，为处理大量多样化数据的企业提供了更简化的搜索功能。

谷歌云发布Vertex AI Agent Builder：加速AI工具开发和部署

**摘要：**谷歌云宣布推出Vertex AI Agent Builder，这是一个重要的举措，旨在使生成式人工智能技术更加普及化。这个新平台将彻底改变开发人员创建和部署人工智能驱动的应用程序的方式，将强大的人工智能功能与用户友好的工具相结合，以促进跨行业更广泛的采用。Vertex AI Agent Builder集成了谷歌云的Vertex AI搜索和对话产品，提供了一个统一的工具包，可简化生成式AI代理的开发。该集成旨在帮助开发人员有效地克服常见挑战，例如成本管理、治理和扩展应用程序，同时不牺牲性能。

百度智能云推出千帆AppBuilder新版，加速AI工具开发与部署

**摘要：**百度智能云近日宣布升级千帆AppBuilder，旨在降低AI原生应用开发门槛，提升开发效率。该升级版包括55个基础和高级组件，其中新发布的百度向量数据库VDB1.0能够管理数以千万计的文档知识，并具备高效的向量检索速度。千帆AppBuilder还引入了智能Agent应用框架，支持自动编排和手动编排相结合，以满足更复杂的应用场景需求。此外，升级后的工具支持代码态和零代码态开发，使开发者能够快速构建和部署AI驱动的应用程序，实现多渠道分发和集成。

百度的Ernie Bot：中国最常用的人工智能聊天机器人用户群已达2亿多

**摘要：**自去年12月以来，百度推出的Ernie Bot成为中国最常用的人工智能聊天机器人之一，其用户群已经翻了一番，达到2亿多。Ernie Bot的快速增长显示出对智能聊天机器人在中国市场的强劲需求和广泛应用。

阿里巴巴推出Qwen 1.5 110B聊天Demo，预计下周发布，支持32K上下文

**摘要：**阿里巴巴即将推出Qwen 1.5 110B聊天Demo，预计在下周发布。这一新版本将支持高达32K的对话上下文，展示了阿里巴巴在聊天AI领域的最新技术进展。

Character.ai开源自进化算法MuKoe，将推动角色表现和通用人工智能领域

**摘要：**Character.ai发布了开源自进化算法MuKoe，该算法基于Google的MuZero实现。MuKoe是一种自适应学习算法，类似于Q-learning，能够在没有外部数据输入的情况下自我迭代提升性能。这一算法结合了人类的先验知识，在决策树上取得了良好的表现，已在国际象棋等领域得到验证。MuKoe的开源意味着对角色扮演和通用人工智能领域具有重要意义，未来虚拟角色将能够自我进化到更高级状态，对个人通用人工智能的发展具有巨大推动作用。

**Google推出协作视频制作应用Vids，夏季将推出公开测试版**

**摘要：**Google宣布推出名为Vids的新应用程序，该应用程序由Gemini支持，旨在帮助公司和消费者制作协作、可共享的视频内容。Vids将于2024年夏季推出公开测试版。Vids旨在提供一种简单而强大的方式，使用户能够轻松创建、编辑和分享视频内容。这款应用的设计目标是促进团队之间的协作，使视频制作变得更加便捷和高效。Vids将结合Gemini的技术支持，为用户带来先进的视频编辑和分享功能。

TikTok探索人工智能驱动的虚拟影响者，可能改变数字营销格局

**摘要：**TikTok正在研究使用人工智能技术创造“虚拟影响者”，以与用户群互动并推广产品。这些人工智能化身旨在在应用程序内推广广告商的产品，但初步测试显示其在推动销售方面可能比人类影响者效果较差。TikTok的虚拟影响者，人工智能化身将通过编程来推广广告商制作的脚本。这一探索可能为数字营销和影响者经济带来重大变革，引发了人们对影响者角色演变和收入分配的关注和讨论。

**2，产品市场创新  
  
**
------------------

Brave推出Answer AI改变搜索引擎游戏规则

**摘要：** Brave推出了Answer AI，这是一项革命性的功能，旨在彻底改变搜索引擎的使用方式。Answer AI利用创新的人工智能技术，从多个来源压缩搜索结果，为用户提供单一且易于理解的答案。这种方法不仅增强了用户隐私，还重新定义了搜索体验，提供即时且相关的结果。Brave希望通过这一举措颠覆搜索引擎的现状，让用户获得更高效和更隐私的搜索体验。

Meta AI助手现在登陆Facebook、Messenger、Instagram和WhatsApp的搜索栏

**摘要：** Meta公司正全球推出Meta AI助手，该纯英语机器人现已出现在Facebook、Messenger、Instagram和WhatsApp的搜索栏中。这个AI助手可以通过Google和Bing回答问题，并实时提供网络搜索结果。Meta AI助手的推出意味着数百万用户将享受到更便捷、智能的搜索和互动体验。

Adobe推出Firefly驱动的高级功能应用程序Adobe Express

**摘要：** Adobe推出了名为Adobe Express的全新应用程序，由Firefly AI支持，可在iOS和Android上使用。这款应用程序提供了类似桌面版的创意、编辑和生成人工智能功能。虽然基本应用程序免费，但要访问Firefly和完整的编辑工具，用户需要每月支付10美元的高级会员费用。Adobe Express的推出标志着Adobe在移动端人工智能编辑工具领域的进一步扩展，为用户带来了更多创作和编辑的可能性。

Adobe Premiere Pro推出生成式AI视频工具，集成第三方模型支持文本提示编辑视频

**摘要：**Adobe Premiere Pro正式推出生成式AI视频工具，通过与第三方模型（包括Runway、Pika Labs和OpenAI的Sora模型）集成，用户可以利用文本提示快速编辑视频，包括添加或删除对象等操作。这一举措旨在提高视频编辑的效率和创意性，为用户提供更多创作选择和工具。

Slack推出生成式人工智能工具“Recap”：每日交互摘要

**摘要：**Slack推出了名为“Recap”的新人工智能工具，每天早上为用户提供重要对话的摘要。这款工具利用人工智能技术编译关键交互，并提供特定人物提及和消息链接，通过侧边栏方便用户访问。现在，Slack的人工智能功能，包括搜索和摘要工具，也可在付费计划中使用，为用户提供更强大的工作体验。

谷歌广告平台 Demand Gen 推出新的生成式人工智能功能

**摘要：**谷歌宣布为其广告平台 Demand Gen 推出了新的生成式人工智能功能，旨在加速跨 YouTube 和 Gmail 等平台的广告创建过程。该功能允许广告商利用文本提示创建适合其品牌需求的图像，并通过“生成更多类似的”工具重新创建高性能资产。为确保安全性，生成的人工智能图像将包含标记，目前支持英语版本，未来将推出更多语言。

Poe 上的多机器人聊天功能发布

**摘要：**Poe 发布了一项新功能，允许用户在单个聊天线程中使用不同的 AI 机器人，以便比较不同模型的输出。这项功能对于探索和比较不同 AI 模型的性能非常有用。用户还可以将多个机器人与 Poe 上的自定义机器人结合，创建复杂的工作流程和对话场景。

Instagram 推出人工智能聊天机器人计划 "Creator AI"

**摘要：**据报道，Instagram 正在测试名为“Creator AI”的新计划，旨在允许受欢迎的影响者使用人工智能驱动的聊天机器人与粉丝进行互动。这项计划将使创作者能够借助个性化的聊天机器人自动回复粉丝消息，而人工智能则将根据影响者的风格模仿其之前的帖子、私信、评论和音频。Instagram 还在其搜索栏中测试人工智能功能，以帮助用户显示相关内容或与 Meta AI 聊天机器人互动。

**3，合规和监管  
  
**
-----------------

中国法院判定生成式AI侵权奥特曼著作权，要求赔偿损失

**摘要：**中国广州互联网法院近期裁定，一家生成式AI服务商侵犯了日本圆谷制作公司奥特曼系列的著作权。该判决要求被告赔偿1万元人民币，并禁止类似图像的再次生成和使用，反映了在技术创新与知识产权保护之间的平衡挑战。

美国立法推动人工智能版权透明度

**摘要：** 美国众议员Adam Schiff提出立法，要求人工智能公司披露训练中使用的受版权保护数据。该法案旨在平衡创新和创作者权利，要求公司在公开人工智能系统后30天内通报使用的版权作品。立法追溯力影响现有人工智能系统，同时将建立公共数据库以促进版权透明和道德开发。

微软与G42合作，加速阿联酋及其他地区的人工智能创新

**摘要：** 微软宣布与总部位于阿布扎比的人工智能公司G42达成合作，投资15亿美元以获得该公司的少数股权。这项战略投资旨在加强两家公司的合作，将微软最新的人工智能技术和技能计划引入阿联酋和其他国家。其中包括设立10亿美元基金，用于提高该地区的人工智能技能水平。

德克萨斯州采用人工智能取代数千名考试评分员

**摘要：** 德克萨斯州教育局（TEA）正在测试自动评分引擎，用于对德克萨斯州学术准备评估（STAAR）考试中的开放式问题进行评分。预计新的人工智能系统将减少对临时人类评分员的需求，每年可节省1500至2000万美元，并将临时评分员数量从6000人减少到2000人以下。所有计算机评分结果都将由人类重新评分。然而，一些教育工作者对TEA对人工智能评分系统的乐观态度持有不同看法。

英国监管机构Ofcom研究人工智能应用于保护儿童在线安全的可行性

**摘要：**英国监管机构Ofcom计划探索人工智能在打击涉及儿童恶意内容方面的应用，特别是保护儿童免受有害内容的侵害。他们将开展咨询，关注人工智能和自动化工具如何用于主动检测和删除在线非法内容，尤其是儿童性虐待材料。这项举措反映了Ofcom的研究结果，显示越来越年幼的儿童使用在线服务，表明了对在线安全措施的需求。对于这些举措，既有支持者，也有批评者担心人工智能的准确性和言论自由的风险。调查显示，年轻用户的在线接触日益增加，儿童面临的在线挑战包括看到有害内容和对深度伪造的不信任。监管机构希望通过推动行业采取措施来确保儿童在线安全，并鼓励家长与孩子共同关注在线内容。

开放医疗-LLM：评估生成式人工智能在医疗保健中的潜在用途与限制

**摘要：**生成式人工智能模型在医疗保健中的应用日益普及，但存在争议。Hugging Face发布的基准测试Open Medical-LLM旨在评估这些模型在医学任务中的性能，包括患者记录总结和健康问题回答。然而，医学专家警告称，这些模型在临床实践中的应用可能过早。他们指出，基准测试只能作为模型性能的初步近似，实际应用需要更深入的测试以揭示模型的局限性和可行性。谷歌引入糖尿病视网膜病变筛查工具的经历也表明，理论准确性与实际应用可能存在差距。监管机构和医疗机构需要谨慎评估生成式人工智能模型的实际效果，确保其为患者护理和结果做出积极贡献。

谷歌人工智能团队整合：加速强大人工智能能力

**摘要：**谷歌宣布将合并其Research、DeepMind和Responsible AI团队，以加速人工智能开发。新的结构旨在简化开发流程，促进研究与实际应用团队之间的合作，并确保一致的重点。这一举措是谷歌在面对早前人工智能技术问题后的调整，旨在提高其人工智能技术的质量和可靠性。

英国加强人工智能安全监管立法

**摘要：**英国政府正在制定新的立法，旨在监管人工智能模型的安全性。这标志着英国政策的转变，从之前的温和做法转向更严格的监管措施。新的法律可能要求公司与政府共享代码和安全测试，以确保人工智能模型符合安全标准，但具体的实施细节尚不清楚。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240421-ai2024421](https://www.haxitag.com/briefs/ai-brief-20240421-ai2024421)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。
