训练我自己的手套模型时出现编码问题

人气：873 发布：2022-10-16 标签： python encoding nlp word-embedding glove

问题描述

我正在使用自己的语料库训练手套模型，但在以utf-8格式保存/加载它时遇到问题。

以下是我尝试的内容：

from glove import Corpus, Glove

#data
lines = [['woman', 'umbrella', 'silhouetted'], ['person', 'black', 'umbrella']]

#GloVe training
corpus = Corpus() 
corpus.fit(lines, window=4)
glove = Glove(no_components=4, learning_rate=0.1)
glove.fit(corpus.matrix, epochs=10, no_threads=8, verbose=True)
glove.add_dictionary(corpus.dictionary)
glove.save('glove.model.txt')

保存的文件glove.model.txt不可读，我无法使用utf-8编码保存它。

当我尝试阅读时，例如将其转换为word2vec格式：

from gensim.models.keyedvectors import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_input_file="glove.model.txt", 
word2vec_output_file="gensim_glove_vectors.txt")    

model = KeyedVectors.load_word2vec_format("gensim_glove_vectors.txt", binary=False)

我有以下错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

关于如何使用我自己的手套模型有什么想法吗？

推荐答案

我刚刚找到了一种以utf-8格式保存数据的方法，我在这里分享它，以防有人遇到同样的问题

不要使用手套保存方法glove.save('glove.model.txt')尝试自己模拟手套记录：

with open("results_glove.txt", "w") as f:
    for word in glove.dictionary:
        f.write(word)
        f.write(" ")
        for i in range(0, vector_size):
            f.write(str(glove.word_vectors[glove.dictionary[word]][i]))
            f.write(" ")
        f.write("
")

然后您就可以阅读它了。

191

上一篇：如何将Stanford CoreNLP库导入Android S...

下一篇：Gensim列车不更新权重

最近更新

为什么没有为UNCalendarNotificationTrigger触发本地通知 2023-01-03
SwiftUI-为什么我的TabBar忽略了init()中的设置颜色方法？ 2023-01-03
IOS画外音功能随捆绑包标识符而变化 2023-01-03
选项卡栏中间的选项卡角外 2023-01-03
将UIView控制器推送到UITabBar上方 2023-01-03
Apple App Loader/iTunes Connect问题(Apple ID无权访问iTunes Connect&) 2023-01-03
将Formik与打字稿(离子)配合使用 2023-01-03
在Formik中设置单选按钮组的初始值 2023-01-03
如何在Formick中使用REACTION数字格式 2023-01-03
使用&lt；Field数组/&gt；中的自定义组件，通过表单&lt；字段/&gt；设置&lt；Textfield/&gt；的值。 2023-01-03
Redux在Reaction中添加了另一个Aray内的对象数组 2023-01-03
两种情况在什么时候在YUP中反应 2023-01-03
当Formik表单更改时更新另一个组件 2023-01-03
Formik验证正在提交/isValiating未设置为True 2023-01-03
基于另一个字段值的必填字段-Formik，Yup 2023-01-03
如何使用Formik调用onChange中的两个函数 2023-01-03
YUP：验证可以为空的字符串数组 2023-01-03
如何防止Enter键触发提交 2023-01-03
使用Formik的Reaction验证最大范围 2023-01-03
材质用户界面切换按钮-选中时不能更改背景颜色 2023-01-03
使用Formik和YUP的Reaction-Date Picker：未在第一个模糊时验证日期值，而不是.Required() 2023-01-03
YUP/Formik带去反跳的异步验证 2023-01-03
对多个值进行YUP验证 2023-01-03
使用Formik、Yup和Reaction进行异步验证 2023-01-03
使用YUP检查字符串或数字长度的验证 2023-01-03
如何在Formik中禁用提交时的自动重置表单？ 2023-01-03
更新Formik表单上的初始值属性不会更新输入值 2023-01-03
如何在YUP异步验证中设置动态错误消息？ 2023-01-03
Formik+Yup：如何在提交前立即验证表单？ 2023-01-03
有两个相关字段的YUP验证 2023-01-03