>科技>>正文

使用fasttext实现文本处理及文本预测

原标题:使用fasttext实现文本处理及文本预测

因为参加datafountain和CCF联合举办的大数据竞赛,第一次接触到文本预测。对比了一些模型,最终还是决定试一下fasttext。上手fasttext的过程可以说是很痛苦了,因为国内各大博客网站上很少有fasttext的博客。一方面是fasttext是FaceBook去年才开源的,用的人比较少,还有一方面是fasttext大部分参考资料都是英文的,我啃了好久英文文档,搭梯子去国外的论坛,最后也算是简单上手了吧。这两天差不多所有时间都花在这上面了,感触挺深。基于以上几点,我觉得还是写一篇博客吧,虽然只是入门,也各位看官多多点评,提出不同意见。

问题分析

360搜索出的这道题,题目是“360搜索-AlphaGo之后“人机大战”Round 2 ——机器写作与人类写作的巅峰对决”,乍一看挺吓人的,其实是让开发者通过一套模型,来识别一篇文章是机器写出来的,还是人类写出来的。其实是有一定区分的,比如说人类写出来的文章,文章的标题和内容契合度比较高(排除标题党的情况),而且文章正文有一定的逻辑连续性,很少在文章的body中出现乱码。机器写出来的文章在以上方面和人类写出来的文章会有不同之处。

可能我这样讲还不够直观,“什么才是机器写出来的文章?”,我从数据集里面拿出来一小篇,像以下文章就是机器写出来的文章。

重庆永川消防提示:夏季酷暑来临 警惕火灾隐患

电影院部分房屋结构变形、两个安全疏散门变形无法打开,自入伏以来,忌水性物质有生石灰,居民和单位用电量也会随之增加,由此引发的火也比较多,重庆市永川消防支队在此提醒大家:高温天气里要增强安全防范意识,加强火灾防控,要时刻警惕以下几种常见的火灾。救援消防官兵抵达现场。一、电气火灾。随着高温天气的到来,空调、冰箱等用电设备大量增加,电气设备线路超负荷运转,电源绝缘皮损坏造成短路打火,图为被困人员被成功救出。或电器的电动机进水受潮,使绝缘强度降低,发生短路烧毁电机着火等。二、汽车火灾。救援消防官兵抵达现场,夏天很容易发生汽车火灾,主要原因是:有些汽车使用时间过长,一直从二楼窗口向外大声呼喊”救命”,电源线路老化易发生短路,有的汽车超负荷装载,造成发动机温度升高,再加上天气酷热,发动机通风设备不好,从而引起汽车自燃。并且,有些车主为了车内空气清新,导致正在电影院内观看电影的9名民众被困,选择在其车内放置香水、空气清新剂、二组对被困民众进行情绪安抚。老花镜、打火机等物品,极易引发火灾。三、该县碧罗数字电影院背后发生山体滑坡,电瓶车火灾。成功将变形的安全疏散门破拆出一个能够容纳单人通过的出口。随着电瓶车的普及,电瓶车充电引发火灾不在少数。特别是有些用户私拉乱接电线,不按要求使用插线板,贡山县碧罗数字电影院背后发生山体滑坡。违规充电引发火灾。四、施工现场火灾。对施工现场的氧气瓶、乙炔瓶、防火材料、油漆稀料等易燃易爆物品管理不严,直接放在高温下暴晒,未采取有效的遮挡措施,没有设置在通风、阴凉地点保存,三组利用破拆工具对变形的安全门进行破拆,这样很容易发生火灾事故五、危化品火灾。成功将变形的安全疏散门破拆出一个能够容纳单人通过的出口。夏季地面气温有时高达40℃以上,救援消防官兵通过金属切割机、破门器、液压破拆工具组等破拆装备的配合使用,在这样炎热的气温条件下,化学危险物品在生产、图为被困人员被成功救出。运输、过氧化碱。所以,一定要谨慎保管、图为受损严重的碧罗数字电影院,使用易燃易爆化学危险品。六、物质自燃火灾。自燃物质除过去我们常讲的稻草、煤堆、棉垛外,被困人员已被全部救出,还有油质纤维、三、硝酸铵化肥、导致正在电影院内观看电影的9名民众被困,鱼粉、农产品等。这些物质储存时,如果堆积时间过长,通风不好,自身就会发生变化产生热,温度逐渐升高。忌水性物质有生石灰,无水氧化铝,过氧化碱,氯磺酸等,这些物质遇到水或空气中的潮气后就会释放出大量可燃气体,四。

上面的文章,仔细看可以看出破绽:

1、存在反复,且不需要反复强调的文字,例如“忌水性物质有生石灰”;

2、逻辑不通顺,文章结尾一个“四”,不知其所指;

3、文章有明显拼凑痕迹,从“一二三四”几点可以看出是从很多篇文章中剪辑而来,上下文关联性弱。

目标

有两个数据集(分别是1.6GB和2GB),一个数据集是训练集(训练模型之用),另一个数据集是测试集(提交结果之用)。

数据格式

数据一:训练集,规模50万条样例(有标签答案),数据格式如下:

Field Type Deion Note
文章标题 String 文章的标题,字数在100字之内 已脱敏。去掉了换行符号。
文章内容 String 文章的内容 已脱敏。文章内容是一个长字符串,去掉了换行符号。
标签答案 String 人类写作是POSITIVE, 机器人写作是NEGATIVE 机器人写手和人类撰写的文章,参赛者训练数据,可以选择本集合的全量数据,也可以选择部分数据。但是参赛者不能自行寻找额外的数据加入训练集。

数据二:测试集A,规模10万条样例(无标签答案),数据格式如下:

Field Type Deion Note
文章标题 String 文章的标题,字数在100字之内 已脱敏。去掉了换行符号。
文章内容 String 文章的内容 已脱敏。文章内容是一个长字符串,去掉了换行符号。

数据三:测试集B,规模30万条样例(无标签答案),数据格式如下:

Field Type Deion Note
文章标题 String 文章的标题,字数在100字之内 已脱敏。去掉了换行符号。
文章内容 String 文章的内容 已脱敏。文章内容是一个长字符串,去掉了换行

上述三份数据中,都同时包含了机器人写手和人类撰写的文章数据。一条样例主要包括文章ID、文章标题、文章内容和标签信息(人类写作是POSITIVE, 机器人写作是NEGATIVE)。需要在训练集上得到模型,然后使用模型在测试集上判定一篇文章是真人写作还是机器生成。如果这篇文章是由机器人写作生成的,则标签为NEGATIVE,否则为POSITIVE。仅在训练集上提供标签特征,参赛选手需要在测试集上对该标签进行预测。

数据预处理

数据预处理可以说是很关键了,很多团队都表示需要花大量的时间用于数据的预处理,我这边偷个懒,采用jieba对训练集和测试集文字进行分词,并且顺手把它转化为fasttext格式。

#encoding=utf-8

import jieba

#author linxinzhu

seg_list = jieba.cut( "这个竞赛真的费时间", cut_all=True)

print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut( "zwq沉迷逛QQ空间,还时不时撩妹", cut_all=False)

print "Default Mode:", "/ ".join(seg_list) #精确模式

seg_list = jieba.cut( "测试集好大啊,跑一次要好久") #默认是精确模式

print ", ".join(seg_list)

seg_list = jieba.cut_for_search( "这篇博客是在20171117日写的,

各位看官觉得有用的话,可以评论点赞") #搜索引擎模式

print ", ".join(seg_list)

输出结果

PS C:UsersLinXinzhupy> python fenci.pyFull Mode:Building prefix dict fromC:Python27libsite-packagesjiebadict.txt ...Loading model fromcache c:userslinxin~ 1appdatalocaltempjieba.cacheLoading model cost 0.804000139236seconds.Prefix dict has been built succesfully. 这个/ 竞赛/ 真的/ 费时/ 费时间/ 时间Default Mode: zwq/ 沉迷/ 逛/ QQ/ 空间/ ,/ 还/ 时不时/ 撩妹测试, 集好, 大, 啊, ,, 跑, 一次, 要, 好久这篇, 博客, 是, 在, 2017, 年, 11, 月, 17, 日写, 的, ,, 各位, 看官, 觉得, 有用, 的话, ,, 可以, 评论, 点赞

需要注意的是:

1、代码开头记得写上编码方式,包括后面的fasttext在编码上也挺麻烦的,不写的话有惊喜哦!

2、jieba.cut返回一个list,所以在做字符串拼接的时候要把list转成string,常用的就是“ ”.join()

符号处理def go_split( s, min_len) :

# 拼接正则表达式

symbol = ',;。!、?!'

symbol = "["+ symbol + "]+"

# 一次性分割字符串

result = re.split(symbol, s)

return [x for x in result if len(x) >min_len]

def is_dup( s, min_len) :

result = go_split( s, min_len)

return len(result) !=len( set(result))

def is_neg_symbol( uchar) :

neg_symbol=[ '!', '0', ';', '?', '', '', '']

return uchar in neg_symbol

特殊字处理

一些文字,例如“的”、“了”等等在某个地方有特殊含义,例如“的确”、“了解”,但是在大部分的情况下对文章的语义没有特别的影响。例如”今天早上喝了牛奶“与”今天早上喝牛奶“没有太大的区别。

if ( ur",的" in s0) and ( not( ur",的确" in s0)) and ( not( ur",的士" in s0))

and ( not( ur",的哥" in s0)) and ( not( ur",的的确确" in s0)) :

flag = "NEGATIVE"

if ( ur",了" in s0) and ( not( ur",了解" in s0)) and ( not( ur",了结" in s0))

and ( not( ur",了无" in s0)) and ( not( ur",了却" in s0))

and ( not( ur",了不起" in s0)) :

flag = "NEGATIVE"

if ( ur"。的" in s0) and ( not( ur"。的确" in s0)) and ( not( ur"。的士" in s0))

and ( not( ur"。的哥" in s0)) and ( not( ur"。的的确确" in s0)) :

flag = "NEGATIVE"

if ( ur"。了" in s0) and ( not( ur"。了解" in s0)) and ( not( ur"。了结" in s0))

and ( not( ur"。了无" in s0)) and ( not( ur"。了却" in s0))

and ( not( ur"。了不起" in s0)) :

flag = "NEGATIVE"

if ( ur";" in s0) and ( not( ur";的确" in s0)) and ( not( ur";的士" in s0))

and ( not( ur";的哥" in s0)) and ( not( ur";的的确确" in s0)) :

flag = "NEGATIVE"

if ( ur";" in s0) and ( not( ur"了解;" in s0)) and ( not( ur";了结" in s0))

and ( not( ur";了无" in s0)) and ( not( ur";了却" in s0))

and ( not( ur";了不起" in s0)) :

flag = "NEGATIVE"

if ( ur"?" in s0) and ( not( ur"?的确" in s0)) and ( not( ur"?的士" in s0))

and ( not( ur"?的哥" in s0)) and ( not( ur"?的的确确" in s0)) :

flag = "NEGATIVE"

if ( ur"?" in s0) and ( not( ur"?了解" in s0)) and ( not( ur"?了结" in s0))

and ( not( ur"?了无" in s0)) and ( not( ur"?了却" in s0))

and ( not( ur"?了不起" in s0)) :

flag = "NEGATIVE"

专业词汇、领域词汇、近义词

这方面可以引入词库,但是时间有限,目前还没有加入词库。

分词并转换成fasttext格式 #encoding=utf-8

#author linxinzhu

import jieba

import sys

reload(sys)

sys.setdefaultencoding( 'utf8')

i = 0

count =0

f = open( "train.tsv", 'r')

#f = open("evaluation_public.tsv", 'r')

outf = open( "lab3fenci.csv", 'w')

#outf = open("lab3fencitest.csv",'w')

for line in f :

r = ""

try:

r = line.decode( "UTF-8")

except:

print "charactor code error UTF-8"

pass

if r == "":

try:

r = line.decode( "GBK")

except:

print "charactor code error GBK"

pass

line =line.strip()

l_ar =line.split( "t")

if len(l_ar) !=4:

continue

id =l_ar[ 0]

title =l_ar[ 1]

content =l_ar[ 2]

lable =l_ar[ 3]

seg_title =jieba.cut(title.replace( "t", " ").replace( "n", " "))

seg_content =jieba.cut(content.replace( "t", " ").replace( "n", " "))

#r=" ".join(seg_title)+" "+" ".join(seg_content)+"n"

outline = " ".join(seg_title) +"t"+" ".join(seg_content)

outline = "t__label__"+ lable + outline +"t"

outf.write(outline)

if i %2500 == 0:

count =count +1

sys.stdout.flush()

sys.stdout.write( "#")

i =i +1

f.close()

outf.close()

print "nWord segmentation complete."

print i

这里面要注意的是list和string的转换,以及在cut过程中对空格和换行的处理。

分词出来之后是这样的:

分词后文件为1.9GB,同样对测试集也做相同的处理。

模型建立

终于要用到fasttext了,fasttext的安装也是个坑。windows10上面装了半天也没装好,好不容易找了一个fasttext for window 10的安装包,结果居然要python 3.5,升级了python之后发现没有预测功能,简直鸡肋啊。无可奈何花落去,只能在Linux下面玩了。

安装fasttext python指令,会提示少cython模型,照着提示下载就行。

pip install fasttext

但是下载奇慢,换国内源或者搭梯子吧。

有关fasttext的原理请查阅作者的paper

https://arxiv.org/pdf/1607.01759.pdf

fastText的模型架构类似于CBOW,两种模型都是基于Hierarchical Softmax,都是三层架构:输入层、 隐藏层、输出层。

CBOW模型又基于N-gram模型和BOW模型,此模型将W(t−N+1)……W(t−1)作为输入,去预测W(t)

fastText的模型则是将整个文本作为特征去预测文本的类别。

一些比较重要的函数

词向量模型学习

import fasttext

# Skipgram model

model = fasttext.skipgram( 'data.txt', 'model')

print model.words # list of words in dictionary

# CBOW model

model = fasttext.cbow( 'data.txt', 'model')

print model.words # list of words in dictionary

文本分类

classifier = fasttext.supervised( 'data.train.txt', 'model')

data.train.txt是一种含有训练句子 每行加上标签的文本文件。默认情况下,假设标签的话, 前缀字符串__label__。

这将输出文件:model.bin和model.vec。

精度评估

result = classifier.test( 'test.txt')

print 'P@1:', result.precision

print 'R@1:', result. recall

print 'Number of examples:', result.nexamples

查看一个文本最有可能的标签,这个函数可以说是非常有用了

texts = [ 'example very long text 1', 'example very longtext 2']

labels = classifier.predict(texts)

print labels

# Or with the probability

labels = classifier.predict_proba(texts)

print labels

调试模型用的API

input_file training file path (required)output output file path (required)lr learning rate [ 0.05]lr_update_rate change the rate of updates forthe learning rate [ 100]dim size of word vectors [ 100]ws size of the context window [ 5]epoch number of epochs [ 5]min_count minimal number of word occurences [ 5]neg number of negatives sampled [ 5]word_ngrams max length of word ngram [ 1]loss loss function {ns, hs, softmax} [ns]bucket number of buckets [ 2000000]minn min length of char ngram [ 3]maxn max length of char ngram [ 6]thread number of threads [ 12]t sampling threshold [ 0.0001]silent disable the log output fromthe C++ extension [ 1]encoding specify input_file encoding [utf- 8]

举个栗子

model = fasttext.skipgram( 'train.txt', 'model', lr= 0.1, dim= 300)

解释一下:lr是学习速率,dim是词向量的大小,调节不同的参数使得模型更加精确。

分类器的属性和方法 classifier.labels # List of labels

classifier.label_prefix # Prefix of the label

classifier.dim # Size of word vector

classifier.ws # Size of context window

classifier.epoch # Number of epochs

classifier.min_count # Minimal number of word occurences

classifier.neg # Number of negative sampled

classifier.word_ngrams # Max length of word ngram

classifier.loss_name # Loss function name

classifier.bucket # Number of buckets

classifier.minn # Min length of char ngram

classifier.maxn # Max length of char ngram

classifier.lr_update_rate # Rate of updates for the learning rate

classifier.t # Value of sampling threshold

classifier.encoding # Encoding that used by classifier

classifier.test(filename, k) # Test the classifier

classifier.predict(texts, k) # Predict the most likely label

classifier.predict_proba(texts, k) # Predict the most likely label include their probability

调试分析

创建一个简单的模型

classifier = fasttext.supervised( "lab3fenci.csv", "lab3fenci.model",

label_prefix="__label__")

对模型进行测试,观察其精度

result = classifier.test( "lab3fenci.csv")

printresult.precisionprint

result.recall

拿一个text来预测

texts = [ '它被誉为"天下第一果",补益气血,养阴生津,现在吃正应季! 六七月是桃子大量上市的季节,因其色泽红润,肉质鲜美,有个在实验基地里接受治疗的妹子。广受大众的喜爱。但也许你并不知道,看惯了好莱坞大片眼花缭乱的特效和场景。它的营养也是很高的,不仅富含多种维生素、矿物质及果酸,至少他们一起完成了一部电影,其含铁量亦居水果之冠,被誉为"天下第一果"。1、在来世那个平行世界的自己。增加食欲,养阴生津的作用,可用于大病之后,气血亏虚,面黄肌瘦,Will在海滩上救下了Isla差点溺水的儿子。心悸气短者。2、最近有一部叫做《爱有来世》的科幻电影。桃的含铁量较高,就越容易发现事情的真相。是缺铁性贫血病人的理想辅助食物。3、桃含钾多,含钠少,适合水肿病人食用。4、桃仁有活血化淤,润肠通作用,可用于闭经、跌打损伤等辅助治疗。胃肠功能弱者不宜吃桃、桃仁提取物有抗凝血作用,而Will也好像陷入魔怔一般。并能抑制咳嗽中枢而止咳,扩展"科学来自于人性"的概念。同时能使血压下降,片中融合了很多哲学、宗教的玄妙概念,可用于高血压病人的辅助治疗。6、桃花有消肿、利尿之效,可用于治疗浮肿腹s水,大便干结,小便不利和脚气足肿。一段美好的故事才就此开始。桃子性热,味甘酸,具有补心、解渴、不过都十分注重内核的表达,充饥、生津的功效,父亲没有继续在房间埋头工作。']

labels = classifier.predict(li)

printlabels

可以看到输出的结果是positive,可以发现是错误的预测(正确的预测应该是negative),这个时候需要训练模型,来达到预期的结果。在训练的过程中,观察result.precision和result.recall的值变化。

可以使用Google已经训练好的model,自己训练模型坑太多了.

继续训练

classifier= fasttext.supervised( "lab3fenci.csv", "lab3fenci.model",

label_prefix="__label__", lr=0.1, epoch=100, dim=200, bucket=5000000)

result = classifier.test( "lab3fenci.csv")

print result.precision

print result.recall

为了省事可以在上面代码套上for循环,观察result.precision和result.recall的值变化。

目前训练出来的模型文件大小是2GB,是用PC机跑的,CPU i7 3.3GHZ+16GB内存+SSD跑了整整3小时才出结果。

期间感受到了风扇的咆哮,CPU和内存都很努力地工作。

一般情况下磁盘的占用是很低的,偶尔会出现占用100%的情况,如果磁盘占用一直是100%,要考虑内存是否泄露,例如文本预处理阶段忘记加换行符,fasttaxt会认为一整个文件都是一大段的文本,那么16GB的内存是根本不够存储的,磁盘会参与内存交换,导致占用100%。

训练完成之后可以直接加载模型。

classifier = fasttext.load_model( 'lab3fenci.model.bin', label_prefix= '__label__')

完整代码

# _*_coding:utf-8 _*_

import fasttext

#author linxinzhu

#load训练好的模型

classifier = fasttext.load_model( 'lab3fenci.model.bin',

label_prefix='__label__')

i =0

f = open( "evaluation_public.tsv", 'r')

outf = open( "sub.csv", 'w')

for line in f :

outline =""

if i ==400000:

break

r = ""

try:

r = line.decode( "UTF-8")

except:

print "charactor code error UTF-8"

pass

if r == "":

try:

r = line.decode( "GBK")

except:

print "charactor code error GBK"

pass

line =line.strip()

l_ar =line.split( "t")

id =l_ar[ 0]

title =l_ar[ 1]

content =l_ar[ 2]

s=""

li =[]

li =list()

s="".join(content)

li =s.split( "$$$$$$$$")

texts =li

labels = classifier.predict(li)

#print id

#print labels

strlabel =str(labels)

if strlabel =="POSITIVE":

outline = id +","+ "POSITIVE"+ "n"

outf.write(outline)

if strlabel =="NEGATIVE":

outline = id +","+ "NEGATIVE"+ "n"

outf.write(outline)

i =i +1

del s

del li

f.close()

outf.close()

注意代码中要加上del s,实测如果不加上会产生内存溢出,讲道理变量在没有使用之后python应该会自动释放内存,但是在大量数据面前好像不怎么起作用,总之需要手动去释放内存。

提交结果(截至2017年11月16日) 一共1000多人参赛,600多支队伍,目前排在132名,算下来也进前20%了呢,作为第一次用fasttext的我,感觉这个成绩已经很满意了。

via http://blog.csdn.net/Season_For_Lin/article/details/78568991返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日推荐