从Keras的imdb数据集中恢复原始文本

您的示例是胡言乱语的，它比仅缺少一些停用词要糟糕得多。

如果重新阅读了的文档start_char，oov_char以及index_from在[参数keras.datasets.imdb.load_data]（https://keras.io/datasets/#imdb- movie-reviews-sentiment-classification 他们解释发生了什么事）方法：

start_char：int 序列的开始将用此字符标记。设置为1是因为0通常是填充字符。

oov_char：int 由于num_words或skip_top限制而被切掉的单词将被替换为该字符。

index_from：int 使用此索引和更高的索引来索引实际单词。

您倒置的那本词典假定单词索引从开始1。

但是索引返回了我的喀拉拉邦（Keras）<START>和<UNKNowN>作为索引1和2。（它假定你将使用0的<PADDING>）。

这对我有用：

import keras
NUM_WORDS=1000 # only use top 1000 words
INDEX_FROM=3   # word index offset

train,test = keras.datasets.imdb.load_data(num_words=NUM_WORDS, index_from=INDEX_FROM)
train_x,train_y = train
test_x,test_y = test

word_to_id = keras.datasets.imdb.get_word_index()
word_to_id = {k:(v+INDEX_FROM) for k,v in word_to_id.items()}
word_to_id["<PAD>"] = 0
word_to_id["<START>"] = 1
word_to_id["<UNK>"] = 2
word_to_id["<UNUSED>"] = 3

id_to_word = {value:key for key,value in word_to_id.items()}
print(' '.join(id_to_word[id] for id in train_x[0] ))

标点符号丢失了，仅此而已：

"<START> this film was just brilliant casting <UNK> <UNK> story
 direction <UNK> really <UNK> the part they played and you Could just
 imagine being there robert <UNK> is an amazing actor ..."

其他 2022/1/1 18:51:48 有446人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Pyspark 2.4.0，使用读取流从kafka读取avro-Python

Pyspark 2.4.0，使用读取流从kafka读取avro-Python

python 2022-01-01 482
从Keras多类模型获取混淆矩阵

从Keras多类模型获取混淆矩阵

其他 2022-01-01 476
从KeyStore检索SecretKey后，Bouncy Castle PQC XMSS签名：NullPointerException

从KeyStore检索SecretKey后，Bouncy Castle PQC XMSS签名：NullPointerException

其他 2022-01-01 414
如何从Keras嵌入层获取单词向量

如何从Keras嵌入层获取单词向量

其他 2022-01-01 467
如何从Kivy文件（.kv）访问不同类别的ID /小部件？

如何从Kivy文件（.kv）访问不同类别的ID /小部件？

其他 2022-01-01 458
如何从Kafka用Python解码/反序列化Avro

如何从Kafka用Python解码/反序列化Avro

python 2022-01-01 446
从Keras的imdb数据集中恢复原始文本

从Keras的imdb数据集中恢复原始文本

其他 2022-01-01 446
在Swift 2.0中将Character转换为Int

在Swift 2.0中将Character转换为Int

Swift 2022-01-01 999
我可以在php中的SESSION数组上使用array_push吗？

我可以在php中的SESSION数组上使用array_push吗？

php 2022-01-01 1172
使用Spring Functional Web Framework的REST端点的背压

使用Spring Functional Web Framework的REST端点的背压

Java 2022-01-01 1238
Laravel 5：通过数据透视同步额外的字段

Laravel 5：通过数据透视同步额外的字段

其他 2022-01-01 1030
解析在React Native中找不到localStorage变量

解析在React Native中找不到localStorage变量

其他 2022-01-01 1018
{{}}和{!!有什么区别？!!}在laravel刀片文件中？

{{}}和{!!有什么区别？!!}在laravel刀片文件中？

其他 2022-01-01 1405
Bootstrap CSS活动导航

Bootstrap CSS活动导航

CSS 2022-01-01 1026
获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

java 2022-01-01 982
检查网站是否在iframe中

检查网站是否在iframe中

其他 2022-01-01 946
Hibernate-AnnotationConfiguration已弃用

Hibernate-AnnotationConfiguration已弃用

其他 2022-01-01 992
将子iframe中的事件附加到父窗口中的处理程序

将子iframe中的事件附加到父窗口中的处理程序

其他 2022-01-01 901
如何在Laravel中使用多个数据库

如何在Laravel中使用多个数据库

其他 2022-01-01 914
将单个项目作为IEnumerable传递

将单个项目作为IEnumerable传递

其他 2022-01-01 824
如何从javascript中的Razor Model对象获取JSON对象

如何从javascript中的Razor Model对象获取JSON对象

javascript 2022-01-01 939
Flutter：如何使用Firebase PhoneNumberAuth修复设备丢失的连接错误

Flutter：如何使用Firebase PhoneNumberAuth修复设备丢失的连接错误

其他 2022-01-01 942
Java Oracle例外-“列表中的最大表达式数为1000”

Java Oracle例外-“列表中的最大表达式数为1000”

java 2022-01-01 936
Rails Redis设置maxmemory和maxmemory-policy

Rails Redis设置maxmemory和maxmemory-policy

其他 2022-01-01 1029
如何以编程方式触发Bootstrap模式？

如何以编程方式触发Bootstrap模式？

其他 2022-01-01 834
全屏Java中的JFrame

全屏Java中的JFrame

java 2022-01-01 836
在LIFERAY中如何从second.jsp上的first.jsp重定向？

在LIFERAY中如何从second.jsp上的first.jsp重定向？

其他 2022-01-01 882

从Keras的imdb数据集中恢复原始文本

撰写回答

推荐问题

Pyspark 2.4.0，使用读取流从kafka读取avro-Python

从Keras多类模型获取混淆矩阵

从KeyStore检索SecretKey后，Bouncy Castle PQC XMSS签名：NullPointerException

如何从Keras嵌入层获取单词向量

如何从Kivy文件（.kv）访问不同类别的ID /小部件？

如何从Kafka用Python解码/反序列化Avro

从Keras的imdb数据集中恢复原始文本

在Swift 2.0中将Character转换为Int

我可以在php中的SESSION数组上使用array_push吗？

使用Spring Functional Web Framework的REST端点的背压

Laravel 5：通过数据透视同步额外的字段

解析在React Native中找不到localStorage变量

{{}}和{!!有什么区别？!!}在laravel刀片文件中？

Bootstrap CSS活动导航

获取“ java.lang.NoClassDefFoundError：com / beust / jcommander / ParameterException”异常

检查网站是否在iframe中

Hibernate-AnnotationConfiguration已弃用

将子iframe中的事件附加到父窗口中的处理程序

如何在Laravel中使用多个数据库

将单个项目作为IEnumerable传递

如何从javascript中的Razor Model对象获取JSON对象

Flutter：如何使用Firebase PhoneNumberAuth修复设备丢失的连接错误

Java Oracle例外-“列表中的最大表达式数为1000”

Rails Redis设置maxmemory和maxmemory-policy

如何以编程方式触发Bootstrap模式？

全屏Java中的JFrame

在LIFERAY中如何从second.jsp上的first.jsp重定向？

分类汇总

您的鼓励是对我最大的支持