NVIDIA发布工具包使基于文本生成的AI更安全

2023-04-26 10:34:45 来源：cnBeta

对于所有的大肆宣传，像OpenAI的GPT-4这样的文本生成人工智能模型会犯很多错误--其中一些是有害的。这些模型背后的公司说，他们正在采取措施解决这些问题，比如实施过滤器和人类版主团队来纠正被标记的问题。但没有一个正确的解决方案。即使是今天最好的模型，也容易受到偏见、毒性和恶意攻击的影响。

为了追求"更安全"的文本生成模型，NVIDIA今天发布了NeMo Guardrails，这是一个开源工具包，旨在使人工智能驱动的应用程序更加"准确、适当、符合主题和安全"。

NVIDIA的应用研究副总裁Jonathan Cohen说，该公司已经在Guardrails的底层系统上工作了"多年"，但就在大约一年前意识到它很适合GPT-4和ChatGPT这样的模型。

"从那时起，我们一直在朝着NeMo Guardrails的这个版本发展，"Cohen通过电子邮件表示。"人工智能模型安全工具对于为企业用例部署模型至关重要。"

Guardrails包括代码、示例和文档，用于为生成文本和语音的AI应用"增加安全性"。NVIDIA声称，该工具包旨在与大多数生成性语言模型配合使用，允许开发人员使用几行代码创建规则。

具体而言，Guardrails可用于防止--或至少试图防止模型偏离主题，用不准确的信息或有毒的语言进行回应，以及与"不安全"的外部来源建立联系。例如，可以考虑不让客户服务助理回答关于天气的问题，或者不让搜索引擎聊天机器人链接到不值得信赖的学术期刊。

Cohen说："最终，开发者通过Guardrails控制他们的应用程序的界限，"他说。"他们可能会开发出过于宽泛的护栏，或者反过来说，对于他们的用例来说过于狭窄。"

对语言模型的缺点进行普遍修复，听起来好得不像真的--事实上也是如此。虽然像Zapier这样的公司正在使用Guardrails为他们的生成模型增加一层安全保障，但NVIDIA承认，这个工具包并非不完美；换句话说，它不会抓住一切不对劲的地方。

Cohen还指出，Guardrails与那些"足够擅长遵循指令"的模型配合得最好，比如ChatGPT，以及使用流行的LangChain框架来构建AI驱动的应用程序。这使一些开源的选择失去了资格。

而且，撇开技术的有效性不谈，必须强调的是，NVIDIA不一定是出于善意而发布Guardrails的。它是该公司NeMo框架的一部分，可通过NVIDIA的企业AI软件套件及其NeMo完全管理的云服务获得。任何公司都可以实施Guardrails的开源版本，但NVIDIA肯定更希望他们为托管版本付费。

NVIDIA发布工具包 使基于文本生成的AI更安全