unknown column in field list_tf.feature_column的特征处理探究

7bddd3608cfac16383bec343f3bff2db.png

1. 背景

tf.estimator是tensorflow的一个高级API接口,它最大的特点在于兼容分布式和单机两种场景,工程师可以在同一套代码结构下即实现单机训练也可以实现分布式训练,正是因为这样的特点,目前包括阿里在内的很多公司都在使用这一接口来构建自己的深度学习模型。

特征预处理是几乎所有机器学习模型所必须的一个过程,常见的特征预处理方法包括:连续变量分箱化、离散变量one-hot、离散指标embedding等,tensorflow给我们提供了一个功能强大的特征处理函数tf.feature_column,它通过对特征处理将数据输入网络并交由estimator来进行训练,本文通过实际的数据输出来直观地介绍与展现tf.feature_column的基本用法。

2. 数据处理

特征数据主要包括categorical和dense两类,处理方法是使用tensorflow中的feature_column接口来进行定义,如下图,总共有九种不同的函数,分别有五种Categorical function、三种numerical function 加上一种bucketized_column可属于任何一种,categorical column中的 with_identity其实和 dense column中的indicator_column没有区别,都是类别特征的one-hot表示,但是其属于不同的特征类别,前者属于categorical后者属于dense,对于estimator编写的不同网络而言,其可接受的one-hot类型不同,这里在实际操作中需要注意转换。

fb988c89ea898d7f2f9faf011ef68dc4.png

2.1 categorical column

2.1.1 categorical_column_with_identity

  • categorical_column_with_identity把numerical data转乘one hot encoding

5d2afd3fe86bfa0cbe4fab2f62efb838.png
  • 只适用于值为整数的类别型变量,实际输出如下:
import 
  • 如图输出为birthplace的one-hot结果,num_buckets用于确定每一个one-hot向量的最大特征类别数

2.1.2 categorical_column_with_vocabulary_list or categorical_column_with_vocabulary_file

  • categorical_column_with_vocabulary_list or categorical_column_with_vocabulary_file根据单词的序列顺序,把单词根据index转换成one hot encoding

a2f1635aceab68ec40489ef38f11fb45.png
  • 主要用于处理非整数型的类别特征,两个函数的区别在于处理变量类别的多少,数量前者对应类别少的情况,所有可能的类别可以直接输入,后者对应类别多的情况,所有可能的类别可以存在一个文件中输入,实际输出如下:
import 
  • 如图输出为sex的one-hot结果,其后跟着的list用于定义该变量的所有类别。

2.1.3 categorical_column_with_hash_bucket

  • categorical_column_with_hash_bucket:对于处理包含大量文字或数字类别的特征时可使用hash的方式,这能快速地建立对应的对照表,缺点则是会有哈希冲突的问题。

f5551a42c6a0544c5de3be704ea0d160.png
  • hash_bucket_size的大小一般设置为总类别数的2-5倍,该函数适用于不能确定所有类别样式的类别变量,实际输出如下:
import 
  • 如上,输出为department的one-hot结果,对于不同类的department出现了哈希冲突的情况。

2.1.4 crossed_column

  • crossed_column特征交叉,在有些情况下,特征独自编码与多维特征交叉后的特征特性会有不一样的结果。
  • 该函数不能对hash映射之后的特征进行交叉,实际输出如下:
import 
  • 如上,输出为cross的one-hot结果,hash_bucket_size代表输出的交叉向量的one-hot维度。

2.1.5 embedding_column

  • embedding_column:把categorical的data,借由lookup table的方式找寻对应的feature vector来表示。假设有81个单词,若使用categorical_column_vocbulary_list,然后转乘numerical的indicator_column,则需要81维度来描述此些单词,这样极易造成数据的稀疏化,对于推荐系统而言,大维度的稀疏数据对于结果的影响较大,因此我们考虑使用embedding_column,来对数据进行压缩,实际输出如下:
import 
  • 如上,输出为交叉特征的embading向量,embedding_column的输入为处理之后的特征变量,可以是categorical也可以是dense的。

2.2 Dense column

2.2.1 numeric_column

  • numeric_column:该函数主要用于处理连续型变量,即可以是float类型也可以是int类似,从table中读取对应的(key)column,并把它转成dtype的格式,实际情况如下:
import 

2.2.2 bucketized_column

  • bucketized_column: 该函数将连续变量进行分桶离散化,输出one-hot的结果,方便连续值指标与分类变量进行交叉特征构建,

031d0b49219da67c3d268da220f5071c.png
  • 实际情况如下:
import 

3. 总结

本文通过直观的数据输出来展现tf.feature_column的特征处理过程,方便大家理解这个函数,tensorflow作为目前最常用的深度学习框架,有着很多高级的API,这些接口都可以极大方便我们算法工程师的工作,tf.estimator不仅可以很好地处理特征,同时它将train、evaluatete、predict都集成到了一起,大家平时可以多使用该接口。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/365973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jQuery clearQueue

clearQueue()方法与clearQueue()方法结合&#xff1b; .clearQueue()可用于删除通过.queue()方法添加到通用jQuery序列的任何函数。 示例&#xff1a; <!DOCTYPE html><html><head><style>div { margin:3px; width:40px; height:40px;position:absol…

Docker设置HTTP代理

参考资料&#xff1a;为docker配置HTTP代理服务器 一、注释掉namesserver的配置 [rootnvwa ~]# cat /etc/resolv.conf # Generated by NetworkManager search apa.gad.schneider-electric.com nameserver xx.xx.xx.xx nameserver xx.xx.xx.xx 改为&#xff1a; [rootnvwa ~]# c…

C语言oj中a b怎么做,【HDUOJ】第1002题 A + B Problem II 纯C语言解法

【HUDOJ-1002】1.原题&#xff1a;Problem DescriptionI have a very simple problem for you. Given two integers A and B, your job is to calculate the Sum of A B.InputThe first line of the input contains an integer T(1<T<20) which means the number of tes…

截止到2013年,核心Java帖子

随着2013年即将结束&#xff0c;我最近发现了几篇与我认为“核心Java”知识有关的帖子。 该帖子列出了三个帖子&#xff0c;并提供了一个简短说明的论坛。 我这样做有两个目的&#xff1a;&#xff08;1&#xff09;帮助他人意识到这些优秀职位的存在&#xff1b;&#xff08;2…

jQuery 超屏加载

jQuery 超屏加载&#xff0c;当文档超出屏幕的高度时&#xff0c;加载最新下个列数据 $(window).scroll(function () {var height $(document).height(); //页面的高度var keheight $(window).height(); //浏览器可视的高度var sheight $(document).scrollTop(); //滚动的高…

爱是怎么产生的

怎么说你还是对你自己挺了解的 1. 你知道单身为什么最终都轮成单身狗吗&#xff1f;因为单身就是一种退化&#xff0c;连人类最基本的技能都忘干净了&#xff0c;活该你四角着地 2.你知道爱是怎么发生的吗&#xff1f;爱情这个词&#xff0c;绝对不是虚幻的&#xff0c;精神的&…

计算机二级c语言选择题范围,计算机二级C语言考点选择结构

C语言的运算符包含的范围很广泛&#xff0c;共有34种运算符。C语言把括号、赋值、强制类型转换等都作为运算符处理。以下是关于计算机二级C语言考点选择结构&#xff0c;希望大家认真阅读!【考点1】关系运算关系运算符有6个&#xff0c;分别是>&#xff0c;>&#xff0c;…

Mac OS下面安装mysql以及mysql常用命令

使用brew安装mysql brew install mysql 安装成功后使用下面命令启动/关闭服务 brew services start mysql brew services stop mysql 为mysql.bin设置软连接 ln -s /usr/local/Cellar/mysql/5.7.21/bin/mysql /usr/bin // /usr/local/Cellar/mysql为mysql的安装目录 进入mysql …

pytorch如何定义损失函数_对比PyTorch和TensorFlow的自动差异和动态模型

使用自定义模型类从头开始训练线性回归&#xff0c;比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法&#xff0c;这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型&#xff0c;以及这些框架在训练循环…

Gradle命令行便利

在我的《用Gradle构建Java的gradle tasks 》一文中&#xff0c;我简要地提到了使用Gradle的“ gradle tasks ”命令来查看特定Gradle构建的可用任务。 在这篇文章中&#xff0c;我将对这一简短提及进行更多的扩展&#xff0c;并查看一些相关的Gradle命令行便利。 Gradle可以轻松…

精读《setState 做了什么》

1 引言 setState 是 React 框架最常用的命令&#xff0c;它是用来更新状态的&#xff0c;这也是 React 框架划时代的功能。 但是 setState 函数是 react 包导出的&#xff0c;他们又是如何与 react-dom react-native react-art 这些包结合的呢&#xff1f; 通过 how-does-setst…

java封装实现Excel建表读写操作

对 Excel 进行读写操作是生产环境下常见的业务&#xff0c;网上搜索的实现方式都是基于POI和JXL第三方框架&#xff0c;但都不是很全面。小编由于这两天刚好需要用到&#xff0c;于是就参考手写了一个封装操作工具&#xff0c;基本涵盖了Excel表&#xff08;分有表头和无表头&a…

c语言程序中注释的格式化,格式化C语言命令indent

indent是linux下一个能力极强的代码整理软件&#xff0c;使用他&#xff0c;可以轻松的写出代码风格十分精良的代码。但是indent的参数太多&#xff0c;使用起来不是很容易&#xff0c;怎么办呢&#xff1f;查看/usr/src/linux-headers-/scripts/Lindent文件 &#xff0c;可以看…

argmax函数_1.4 TensorFlow2.1常用函数

1.4 TF常用函数tf.cast(tensor,dtypedatatype)可以进行强制类型转换。tf.reduce_min(tensor)和tf.reduce_max(tensor)将计算出张量中所有元素的最大值和最小值。import tensorflow as tfx1 tf.constant([1., 2., 3.], dtypetf.float64)print("x1:", x1)x2 tf.cast(…

休眠:DDL模式生成

不久前&#xff0c;我必须使用内存数据库。 该活动与集成测试有关。 如您所知&#xff0c;通常将内存数据库用于集成测试。 造成这种情况的原因有很多&#xff1a;可移植性&#xff0c;完善的环境基础结构&#xff0c;高性能&#xff0c;原始数据库的一致性。 问题在于如何将生…

分析jQuery源码时记录的一点感悟

分析jQuery源码时记录的一点感悟 1. 链式写法 这是jQuery语法上的最大特色&#xff0c;也许该改改POJO里的set方法&#xff0c;和其他的非get方法什么的&#xff0c;可以把多行代码合并&#xff0c;减去每次敲打对象变量的麻烦 2. 动态参数 偶尔使用Java…

设计模式---数据结构模式之迭代器模式(Iterate)

一&#xff1a;概念 迭代模式是行为模式之一&#xff0c;它把对容器中包含的内部对象的访问委让给外部类&#xff0c;使用Iterator&#xff08;遍历&#xff09;按顺序进行遍历访问的设计模式。 在应用Iterator模式之前&#xff0c;首先应该明白Iterator模式用来解决什么问题。…

识别Gradle约定

通过约定进行配置具有许多优点&#xff0c;尤其是在简洁方面&#xff0c;因为开发人员不需要显式配置通过约定隐式配置的内容。 但是&#xff0c;在利用约定进行配置时&#xff0c;需要了解约定。 这些约定可能已经记录在案&#xff0c;但是当我可以编程方式确定约定时&#xf…

jQuery函数的等价原生函数代码示例

选择器 jQuery的核心之一就是能非常方便的取到DOM元素。我们只需输入CSS选择字符串&#xff0c;便可以得到匹配的元素。但在大多数情况下&#xff0c;我们可以用简单的原生代码达到同样的效果。 .代码如下://----得到页面的所有div--------- /* jQuery */ $("div") …

高校c语言题库,C语言-中国大学mooc-题库零氪

第1 周 程序设计与C语言简介1.1 程序设计基础随堂测验1、计算机只能处理由人们编写的、解决某些问题的、事先存储在计算机存储器中的二进制指令序列。第1周单元测验1、通常把高级语言源程序翻译成目标程序的程序称为( )。A、编辑程序B、解释程序C、汇编程序D、编译程序2、一个算…