功能介绍

Warning

  • 最后更新于2022.10.12
  • WeLM 提供续写功能,但并不具有原生对话能力

WeLM没有对自然语言相关的任务做任何约束或者预置。仅通过调用模型来补全您输入的文本,可以体验或者完成各种自然语言的任务。

Prompt 设计

为了规范表达,我们把您输入给模型的文本简称为“prompt”,  WeLM会根据您的 prompt 生成符合上下文语义以及符合上下文 patten 的结果。 以简单的文本续写为例,调用 API 输入 “今天我身体不舒服,所以我”,模型大概率会返回“请假在家休息”。当然,您可以参照参数文档修改参数,可以得到更多不一样的结果。Promot 的不同设计会影响模型的结果,根据任务的难易对Prompt的要求也不尽相同。最好的 prompt 设计原则是:第一,描述清楚;第二,例子具备代表性(多个例子更好)

下面我们给出一些设计 prompt 的经验和实例供您参考。您也可以多尝试不同的写法,通过模型的结果给予更多反馈。

阅读理解任务:

阅读文章:
“经审理查明,被告人张××、杜×、杨2某均为辽宁省辽阳第一监狱五监区服刑人员。2015年11月3日13时许,被告人张××、杜×因无事便跟随去催要生产材料的被告人杨2某一同前往六监区,在六监区生产车间门外,被告人杨2某与六监区送料员于×因送料问题发生争执,被告人杨2某上前拽住被害人于×胳膊并用手击打被害人后脖颈两下,被告人张××、杜×见杨2某动手后,先后上前分别对被害人于×面部、头部及腹部进行殴打,后被赶到的干警制止。被害人于×被打造成面部受伤,鼻子流血,当日下午14时许,到监区内医院就诊,诊断为:鼻部中段向左侧畸形,11月5日经监狱医院X光诊断为鼻骨骨折。2015年11月18日,经辽阳襄平法医司法鉴定所法医鉴定:被害人于×身体损伤程度为轻伤二级。被告人张××、杜×、杨2某共同赔偿被害人于×人民币7000元,被害人于×对被告人的行为表示谅解。”
问题: “被害人于×11月5日经监狱医院X光诊断后的诊断结果为?”
答案:

Tip

  1. 阅读理解任务一般有三个部分,正文,问题和答案。这个例子里我们显示的加上“问题:”会让WeLM更清楚的知道后面的部分是问题,加上“答案:”会让模型知道接下来该生成答案。
  2. 开头加任务的描述更有帮助
  3. 格式中的引号,冒号等标点符号也是为了方便模型理解不同内容的位置,是否添加可以自行修改。

开放域问答:

请根据所学知识回答下面这个问题
问题:百年孤独的作者是?
回答:加西亚·马尔克斯
问题:二战转折点是?
回答:

WeLM的一个显著优势在于学习了大量知识,因此您甚至可以把它当成一个问答搜索引擎,建议给出一个或多个问答例子作为指引。

文本分类:

判断这条微博的情感是积极的还是消极的
微博:本命年的第一天就把马桶给弄堵了,[泪]添堵
类别:消极
微博:华丽丽闪瞎眼啊![爱你]
类别:积极
微博:很有娱乐精神[嘻嘻]
类别:

这里我们增加了两个例子再让WeLM预测最后一条微博的情感类别。

Tip

  1. 我们把分类任务用自然语言清楚的表达了输入输出。
  2. 在第一句的指令型描述中,我们把可能的分类结果都列出来,如果是其他分类任务,多个类别也可。
  3. 如果效果不佳,你可以尝试加入更多例子让模型更熟悉你要做的任务。

下面我们给出一些更具备我们模型特色的例子:

文本风格转换:

有这样一段文本,{医生微笑着递给小明棒棒糖,同时让小明服下了药。}
改写这段话让它变得更加惊悚。{医生眼露凶光让小明服药,小明感到非常害怕}。

有这样一段文本,{雨下得很大}
改写这段话让它变得更加具体。{一霎时,雨点连成了线,大雨就像天塌了似的铺天盖地从空中倾泻下来。}。

有这样一段文本,{王老师离开了电影院,外面已经天黑了}
改写这段话让它包含更多电影信息。{这部电影比小王预想的时间要长,虽然口碑很好,但离开电影院时,小王还是有些失望。}

有这样一段文本,{男人站在超市外面打电话}
改写这段话来描述小丑。{男人站在马戏团外一边拿着气球一边打电话}

有这样一段文本,{风铃声响起}
改写这段话写的更加丰富。{我对这个风铃的感情是由它的铃声引起的。每当风吹来时,风铃发出非常动听的声音,听起来是那么乐观、豁达,像一个小女孩格格的笑声。}

有这样一段文本,{我想家了}
改写这段话包含更多悲伤的感情。{

Tip

  1. 文本转化需要给模型一些样例去学习,建议使用我们给出的5个例子作为 prompt 的固定组成
  2. 我们给出的5个例子和最后需要生成的例子并没有重合的风格转换类型,展现了 WeLM 出色的举一反三能力,通过学习少量的文本转换例子达到对任意类型的文本转换
  3. 可以参考我们的参数设置top_p=0.95 temperature=0.85 max_tokens=100, 您可以通过增大n来一次获取更多的结果,从中挑选更为合适的。

个性对话生成:

李⽩,字太⽩,号⻘莲居⼠,⼜号“谪仙⼈”,唐代伟⼤的浪漫主义
诗⼈,被后⼈誉为“诗仙”。
我:今天我们穿越时空连线李⽩,请问李⽩你爱喝酒吗?
李⽩:当然。花间⼀壶酒,独酌⽆相亲。举杯邀明⽉,对影成三⼈。
我:你觉得杜甫怎么样?
李⽩:他很仰慕我,但他有属于⾃⼰的⻛采。
我:你为何能如此逍遥?
李⽩:天⽣我材必有⽤,千⾦散尽还复来!
我:你都去过哪些地方?
李白:

通过增大max_tokens来尝试生成更长的回答,更多关于个性化的例子可以参考我们的技术报告。

翻译:

英中翻译

“I had a good time”的中文翻译是:我玩得很开心。
“The pandemic has triggered more demand for online shopping”的中文翻译是:疫情引发了更多的网购需求
“I am a programmer in Tencent”的中文翻译是:

甚至中英日混合翻译

“微信 AI 推出の WeLM 是一个 language model that いろいろなtaskをperformができる”的中文翻译是:

Info

  1. WeLM并没有专门对翻译进行训练,甚至没有对齐的语料,选择英或日翻译成中文的效果最佳
  2. WeLM也具备mutilingual的能力,例如前文的阅读理解,将问题换成英文依然能生成正确的中文或者英文回答

写作或文本续写:

中国地大物博,自然⻛光秀丽,大自然的⻤斧神工造就了许多动人心魄的美景,

Tip

  1. 如果是长文本可以把max_tokens设置的更大一些(>256)
  2. 可重复采样3-5次后复制你认为的最好结果拼接于原文后,让WeLM继续生成