# AI及信息技术应用2023年5月2日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够执行通常需要人类智能才能完成的任务，如视觉识别、语言理解和决策制定。

## 2. 核心洞察 (TL;DR)
- 开源项目AutoGPT和agentGPT通过AI理解非结构化数据，自定义任务运作规划。
- 多模态整合语言模型应用增多，如波士顿动力。
- LLM开源项目MOSS支持多轮对话和多种功能，如搜索引擎、文生图等。

## 3. 关键事实与数据
- MOSS提供多个预训练模型以及相关数据，支持本地部署。
- Meta开源项目将涂鸦变成动画，用户上传涂鸦可帮助训练模型。
- DeepMind和Google Brain合并，成立Google DeepMind，以加快AI进步。

## 4. 深度分析正文


AI及信息技术应用2023年5月2日简报
====================

上周LLM上，更多的开源项目，开源应用出现，最突出的AutoGPT、agentGPT这种，通过AI理解上下游输入非结构化数据，自定义下游任务运作规划，并执行上下游操作，这个是很有趣的方向，是否可以断言，程序之间的数据接口可以用自然语言表示了，除了程序对程序、人和物品、物品和物品之间，全可以通过这种方式来进行传参和交互了，2月份的时候，我在一个内部分享时候，讲这个观点，是被质疑的。  

本周还有一个有意思的发现，多模态整合语言模型应用越来越多，比如波士顿动力。另外，Stability AI、huggingface也开始上场做模型和应用了。

01＃AI应用

复旦训练的语言模型Moss开源了  
************************\[摘要\]************************OpenLMLab/MOSS是一个来自复旦大学的开源对话语言模型，支持中英文和多种插件，具有多轮对话以及使用搜索引擎、文生图、计算器、解方程等功能的能力。MOSS提供多个预训练模型以及相关数据，并支持本地部署，适用于简单数学应用题、解方程、中文语境、代码能力等任务。

Meta 开源了一个 AI 项目，可以将你的涂鸦变成动画  
************************\[摘要\]************************MeTa开源一个人工智能项目，可以让任何人将他们的涂鸦变为现实。该公司希望通过将动画绘图作为开源项目提供，其他开发人员将能够创造新的、更丰富的体验。Fundamental AI Research (FAIR) 团队最初于 2021 年发布了该工具的网络版。它要求用户上传单个类人角色的绘图或选择一个演示图。如果您使用自己的涂鸦，您会看到一份同意书，询问 Meta 是否可以使用您的绘图来帮助训练其模型。您无需同意继续使用该工具。

AI 生成的 Drake 和 The Weeknd 歌曲走红  
************************\[摘要\]************************一首使用人工智能克隆 Drake 和 The Weeknd 声音的歌曲在社交媒体上疯传。这首名为 Heart On My Sleeve 的曲目模拟了两位明星交换关于流行歌星和女演员 Selena Gomez 的诗句，后者曾与 The Weeknd 约会。被称为@ghostwriter 的创作者声称这首歌是由经过音乐家声音训练的软件创作的。

 Alphabet 在合并专注于 AI 的团队 DeepMind 和 Google Brain 时发送的内部备忘录  
************************\[摘要\]************************DeepMind 又一次变成了 Google DeepMind。为了应对人工智能领域的竞争压力，谷歌将其人工智能研究部门谷歌大脑与 DeepMind 合并。Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 表示，“将所有这些人才整合到一个专注的团队中，以谷歌的计算资源为后盾，将显著加快我们在 AI 方面的进步。” Demis Hassabis 将作为 Google DeepMind 的首席执行官领导该部门，而 Jeff Dean 在 Google 的职位将提升为首席科学家。

微软以免费预览版的形式向公众发布了一款基于人工智能的图形设计工具: Designer  
************************\[摘要\]************************Designer Web 应用程序利用 OpenAI 的 DALL-E 2 以及用户生成的内容来生成演示文稿、工作项目等的设计。类似 Canva 的应用程序以前只能通过等候名单获得。现在，公众可以免费试用它的预览版，以及动画视觉效果、字幕生成和社交媒体主题标签等新功能。该工具依靠 AI 和用户输入来生成可通过文本编辑进行自定义的布局。微软表示将在未来的更新中添加更多的编辑功能，包括填充、擦除、扩展背景和替换背景。

Finchat：一个金融信息的ChatGPT  
************************\[摘要\]************************里面有750多家公司的金融数据和100多家大投资人的信息。输入你的问题后他能给你检索到相关信息并给出提要。

Mini GPT-4：取巧的方式实现了多模态能力  
************************\[摘要\]************************结合冻结的视觉编码器与先进的大型语言模型Vicuna，发现只需通过一个投影层就可生成类似GPT-4的多模态能力，并补充了新的生成能力，如写作故事和诗歌以及根据照片教人做饭等。当然也可以实现GPT-4发布时的那个著名演示，画个草图然后生成一个网页。

RedPajama 是一个创建领先开源模型的项目  
************************\[摘要\]************************RedPajama：一个计划创建一套领先开源模型的项目,现已完成第一个阶段——重现LLaMA训练数据集，共1.2万亿Token。该数据集可用于商业应用和提供更透明的研究管道。数据集由七个数据切片组成，每个切片都有仔细的数据预处理和过滤，并根据质量过滤器的调整匹配图表。

Apple 将发布一款名为 Quartz 的人工智能健康教练应用程序  
************************\[摘要\]************************Quartz 的人工智能驱动的健康教练应用程序。目的是帮助用户保持锻炼的动力，改善他们的饮食习惯，并利用对他们行为的了解来改善睡眠。它甚至可以使用 Apple Watch 提要来定制个人节目。如果这对你来说还不够前卫，他们有一天希望能够使用该应用程序来了解用户的心情和情绪。

Hugging Face 推出了 ChatGPT 的开源版本  
************************\[摘要\]************************人工智能初创公司Hugging Face发布了一款开源AI聊天机器人HuggingChat，这款聊天机器人旨在成为OpenAI旗下AI聊天机器人ChatGPT的替代品。据外媒报道，驱动HuggingChat的人工智能模型是由Open Assistant开发的，后者是去年12月推出的一个开源项目，其目标不仅仅是复制ChatGPT及其功能，这个主要由志愿者组成的团队有更远大的抱负。HuggingChat可以完成与ChatGPT类似的任务，比如，生成内容、回答问题、编写代码、起草电子邮件、创作歌词等。它的反应速度也很快，与GPT-3.5-turbo相当。

**波士顿动力公司将 ChatGPT 放入机器人中  
**************************\[摘要\]************************波士顿动力公司的好朋友圣地亚哥刚刚发布了一个演示视频，展示了将 ChatGPT 集成到他们的机器狗 Spot 中。配备了 ChatGPT 和谷歌的语音功能，Spot 现在可以毫不费力地与人类交流复杂的信息。例如，机器狗可以更新任务、电池电量和位置，并响应语音命令。尽管对此类技术可能被滥用于 AI 的可能性存在严重担忧，但如果考虑到道德和安全，先进通信的好处仍然看起来很有希望。

Reddit宣布了对访问其数据进行收费的计划  
************************\[摘要\]************************Reddit 宣布了一项开始对其 API 使用收费的计划。Reddit 联合创始人兼首席执行官史蒂夫霍夫曼说：“爬取 Reddit，产生价值而不将任何价值返回给我们的用户是我们遇到的问题” 。

StackOverflow 效仿了 Reddit 的做法，也宣布了对访问其数据进行收费的计划  
************************\[摘要\]************************Stack Overflow 是一个流行的 计算机编程帮助互联网论坛，其首席执行官 Prashanth Chandrasekar 表示，计划最早在今年年中开始向大型 AI 开发人员收取访问其服务中 5000 万个问题和答案的费用。该网站拥有 超过2000万注册用户。Stack Overflow 决定向利用其数据的公司寻求补偿，这是更广泛的生成人工智能战略的一部分，此前没有报道过。

NVIDIA 开源软件帮助开发人员为 AI 聊天机器人添加护栏  
************************\[摘要\]************************NVIDIA 开源了 NeMo Guardrails，这是一个用于构建符合企业安全实践的 LLM 的框架.NeMo Guardrails 使开发人员能够设置三种边界：局部护栏可防止应用程序转向不需要的区域。例如，他们不让客户服务助理回答有关天气的问题。安全护栏确保应用程序以准确、适当的信息做出响应。他们可以过滤掉不需要的语言并强制只引用可靠的来源。安全防护栏将应用程序限制为仅与已知安全的外部第三方应用程序建立连接。几乎每个软件开发人员都可以使用 NeMo Guardrails——无需成为机器学习专家或数据科学家。他们可以使用几行代码快速创建新规则。

吴恩达和Open AI合作推出的提示工程课程  
************************\[摘要\]************************使用OpenAI API，您将能够快速构建以成本高昂、技术含量高的方式学习创新和创造价值的功能，这门由Isa Fulford和吴恩达教授的短期课程将描述LLM的工作原理，为即时工程提供最佳实践，并展示LLM API如何在应用程序中用于各种任务，包括：总结推理转换文本扩展此外，你将学习写有效提示的两个关键原则，如何系统地使用引擎"。

Stability AI 发布了 StableVicuna，这是 AI 世界上第一个开源 RLHF LLM 聊天机器人  
************************\[摘要\]************************StableVicuna，这是第一个通过强化学习人类反馈 (RHLF) 进行训练的大型开源聊天机器人。StableVicuna 是 Vicuna v0 13b 的进一步指令微调和 RLHF 训练版本，后者是指令微调 LLaMA 13b 模型。这只是 StableVicuna 的开始！在接下来的几周内，我们将迭代这个聊天机器人并将 Discord 机器人部署到 Stable Foundation 服务器。我们鼓励您试用 StableVicuna 并向我们提供宝贵的反馈，以帮助我们改善用户体验。目前，您可以通过访问此链接在 HuggingFace 空间上试用该模型。

Stability AI 发布了 DeepFloyd IF   
************************\[摘要\]************************这是一个强大的文本到图像模型，可以巧妙地将文本集成到图像中。 DeepFloyd IF 是一种最先进的文本到图像模型，以非商业、研究许可的许可发布，为研究实验室提供了检查和试验高级文本到图像生成方法的机会。与其他 Stability AI 模型一致，Stability AI 打算在未来发布一个完全开源的 DeepFloyd IF 模型。

ChatGPT充当大脑，指挥AudioGPT解决语音、音乐、音效等任务  
************************\[摘要\]************************GPT 模态限制。用户在自然对话中主要使用口语，对口语理解与合成有极大需求，而单模态 GPT 不能满足对音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成需求。浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对性的解决以上难题，提出了全新的音频理解与生成系统 AudioGPT。AudioGPT 以 ChatGPT 充当负责对话与控制的大脑，语音基础模型协同以完成跨模态转换、以及音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成，能够解决 20 + 种多语种、多模态的 AI 音频任务。

普华永道向生成人工智能投资 10 亿美元  
************************\[摘要\]************************普华永道 (PwC) 计划在未来三年内在其美国业务中投资 10 亿美元用于生成人工智能技术。这家会计和咨询公司将与微软和 ChatGPT 制造商 OpenAI 合作，使其税务、审计和咨询服务的各个方面实现自动化，同时就如何最好地使用生成人工智能向其他公司提供建议。

让数百万用户可以通过 Word 访问 GPTZero  
************************\[摘要\]************************该插件快速、简单且可免费添加。只需打开 Microsoft Word，单击插入→ 然后单击获取加载项→ 然后搜索GPTZero单词插件 → 单击添加。或者，您可以访问Word GPTZero 页面以获取更详细的说明和演示。

图灵奖获得者 Yann LeCun ：学习“世界模型”的能力是构建人类级 AI 的关键所在  
************************\[摘要\]************************LeCun 提出，当今人工智能最重要的挑战之一是设计学习范式和架构，使机器能够以自监督的方式学习世界模型，然后使用这些模型进行预测、推理和规划，他提出了一个自主智能的架构，它由六个独立的模块组成。每个模块都是可微分的，因为它可以很容易地计算出一些目标函数相对于其自身输入的梯度估计，并将梯度信息传播给上游模块：配置器模块负责执行控制，感知模块接收来自传感器的信号并估计世界当前的状态，世界模型模块是这个架构中最复杂的部分，它有两个作用：（1）评估感知未能提供的关于世界状态的缺失信息；（2）合理预测世界的未来状态。成本模块会计算输出一个标量，预测代理的不适程度。行为者模块计算行动序列的建议。短期记忆模块记录了当前和预测的世界状态，以及相关成本。

第四范式发布「式说」大模型，以生成式AI重构企业软件（AIGS）  
************************************************\[摘要\]************************************************4月26日，第四范式首次向公众展示其大模型产品「式说3.0」，并首次提出AIGS战略（AI-Generated Software）：以生成式AI重构企业软件。式说将定位为基于多模态大模型的新型开发平台，提升企业软件的体验和开发效率，实现「AIGS」。戴文渊认为，目前B端软件极为复杂的交互体验，以及复杂性带来的极低开发效率，恰恰为生成式AI留下足够大的重构和改造空间。

IDEA研究院张家兴入局大模型创业，沈向洋任顾问  
************************\[摘要\]************************张家兴，粤港澳大湾区数字经济研究院（IDEA研究院）讲席科学家、认知计算与自然语言中心负责人，被曝已经启动了创业项目，而他站在他身后，以顾问身份出现的是知名AI大牛、IDEA研究院创始理事长沈向洋。  
  
讯飞星火：请开始提问  
************************\[摘要\]************************通过海量文本、代码和知识的学习，我拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。想要跨界协作。想要阅书万卷

BARD直连Colab，支持20种编程语言：谷歌版ChatGPT代码水平反杀了？************************\[摘要\]************************谷歌表示，Bard 现在能使用 20 种编程语言，包括 C++、Go、Java、Javascript、Python 和 Typescript 等等，还能帮助用户 debug 和解释代码、优化代码。只需要简单的 prompt，例如「能让该代码更快吗？」，Bard 就能理解人类意图，自动让代码变得更高效。它还自带免费的云 GPU 算力。现在人们也可以轻松地将 Bard 生成的 Python 代码导出到 Google Colab 上 —— 甚至无需复制粘贴。Bard 还能够协助 Google Sheets 编写函数。

02＃产品市场创新

推特从媒体账户中撤下“政府资助”标签，改变了蓝V运作机制  
************************\[摘要\]************************Twitter 认为它有一个简单的解决方案来解决“政府资助的媒体”标签的争议：完全摆脱它。这家社交媒体巨头已经从媒体账户中删除了这个标签和“国家附属”的描述，包括NPR、 PBS 和其他停止使用 Twitter 的媒体，以反对贴上他们认为不准确地描述为政府控制的标签。然而，此举也适用于内容确实受到政府严重影响的媒体来源，包括中国的新华社以及俄罗斯的RT 和 Sputnik。Twitter 周四开始从尚未注册付费订阅的帐户中删除蓝色复选标记。蓝色勾号现已从奥普拉温弗瑞、教皇弗朗西斯、前总统唐纳德特朗普和其他未注册付费验证服务的知名公众人物的个人资料中消失。

ChatGPT 每天的运营成本可能超过 700,000 美元。据报道，微软正试图使其更便宜  
************************\[摘要\]************************使用 ChatGPT 写求职信、制定课程计划和重做你的约会资料可能会使 OpenAI 每天花费高达 700,000 美元，因为人工智能运行的技术基础设施价格昂贵，”半导体研究公司 SemiAnalysis 的首席分析师 Dylan Patel 告诉 The信息。

TikTok 推出了一个基本的应用程序内文本到图像 AI 生成器

************************\[摘要\]************************TikTok 引入了应用内文本到图像 AI 生成器，允许用户通过键入提示为视频背景创建抽象图像。与 OpenAI 的 DALL-E 2 或谷歌的 Imagen 等模型相比，“AI 绿屏”效果更为基本，有可能确保遵守应用程序的社区准则并防止创建不当内容。

03＃合规

欧盟立法者通过人工智能法案草案，包括生成人工智能的版权规则  
************************\[摘要\]************************经过几个月的谈判和规则草案提出两年后，欧盟立法者达成协议并通过了人工智能 (AI) 法案草案,制造生成式人工智能工具（如 ChatGPT）的公司必须披露他们是否在其系统中使用了受版权保护的材料。

欧盟披露人工智能训练数据的立法可能引发版权诉讼  
************************\[摘要\]************************当前的人工智能热潮来自 Bing 和 Midjourney，依赖于对训练数据的免费访问，其中大部分数据是从网络上抓取的，并且通常受版权保护。这些数据的使用导致了批评和诉讼，特别是在艺术界，权利所有者辩称他们的作品未经他们的许可就被利用了。一些 AI 世界最大的玩家，如 OpenAI，通过简单地拒绝详细说明用于创建他们的软件的数据来避免审查。但据路透社和Euractiv 报道，欧盟提出的监管人工智能的立法（长期建设和影响深远的人工智能法案）可能会迫使公司披露这些信息。

美国监管机构警告说，他们已经有能力消除人工智能偏见一一而且他们已经准备好使用它  
************************\[摘要\]************************美国四家政府机构警告说，他们已经有权解决和处理涉及人工智能的非法或有害商业行为。联邦贸易委员会 (FTC) 主席 Lina Khan 说：“法律没有 AI 豁免权。”除 FTC 外，涉及的机构还有消费者金融保护局 (CFPB)、司法部 (DOJ) 和平等就业机会委员会。每个人都宣布了他们可以对以有害方式利用人工智能的企业采取行动的方式。例如，CFPB 正在研究因与住房估价算法相关的偏见而导致的住房歧视。如果公司的 AI 使用被证明根据联邦民权法具有歧视性，司法部的民权司准备追究公司的责任。EEOC 的重点是招聘中的人工智能，例如，如果人工智能系统接受过有偏见的数据训练，雇主可能会筛选出候选人。最后，联邦贸易委员会可以打击非法工作以阻止竞争对手进入人工智能市场的公司。

对 70 多个消息来源的采访描述了 Facebook 和 Instagram 如何成为主要的儿童贩卖平台以及它们如何减缓检察官的调查   
************************\[摘要\]************************我们为期两年的调查表明，科技巨头 Meta 正在努力防止犯罪分子利用其平台买卖儿童进行性交易,本系列的更多内容：权利与自由,内容警告——以下文章包含对儿童性虐待、剥削和贩卖的描述。

美国国会获得 40 个 ChatGPT Plus 许可证，开始试验生成人工智能  
************************\[摘要\]************************众议院最近成立了一个新的 AI 工作组，供工作人员在国会办公环境中测试和共享新的 AI 工具，现在众议院的数字服务已经获得了 40 个 ChatGPT Plus 许可证，这些许可证已于本月早些时候分发。购买许可证之际，正值人们就人工智能技术应如何在私营部门和政府内部使用和监管展开广泛辩论。这是将ChatGPT用作决策过程一部分的最早示例之一。据这位官员称，这 40 个许可证是按照先到先得的原则分配的，House Digital Services将无限期支付每个办公室订阅计划每月 20 美元的费用。

日本讨论在政府业务中使用生成式AI  
************************\[摘要\]************************日本要掌握和确认有关AI风险等的国际性讨论，以此为前提，在行政业务中推进AI的使用。各省厅已开始讨论为了提高业务效率而使用对话型AI“ChatGPT”。他强调：“讨论的问题很广泛，包括AI在行政领域的应用、AI会对社会和产业带来什么样的影响等”。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20230502-ai202352](https://www.haxitag.com/briefs/ai-brief-20230502-ai202352)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。