unknown column in field list_tf.feature_column的特征处理探究

7bddd3608cfac16383bec343f3bff2db.png

1. 背景

tf.estimator是tensorflow的一个高级API接口,它最大的特点在于兼容分布式和单机两种场景,工程师可以在同一套代码结构下即实现单机训练也可以实现分布式训练,正是因为这样的特点,目前包括阿里在内的很多公司都在使用这一接口来构建自己的深度学习模型。

特征预处理是几乎所有机器学习模型所必须的一个过程,常见的特征预处理方法包括:连续变量分箱化、离散变量one-hot、离散指标embedding等,tensorflow给我们提供了一个功能强大的特征处理函数tf.feature_column,它通过对特征处理将数据输入网络并交由estimator来进行训练,本文通过实际的数据输出来直观地介绍与展现tf.feature_column的基本用法。

2. 数据处理

特征数据主要包括categorical和dense两类,处理方法是使用tensorflow中的feature_column接口来进行定义,如下图,总共有九种不同的函数,分别有五种Categorical function、三种numerical function 加上一种bucketized_column可属于任何一种,categorical column中的 with_identity其实和 dense column中的indicator_column没有区别,都是类别特征的one-hot表示,但是其属于不同的特征类别,前者属于categorical后者属于dense,对于estimator编写的不同网络而言,其可接受的one-hot类型不同,这里在实际操作中需要注意转换。

fb988c89ea898d7f2f9faf011ef68dc4.png

2.1 categorical column

2.1.1 categorical_column_with_identity

  • categorical_column_with_identity把numerical data转乘one hot encoding

5d2afd3fe86bfa0cbe4fab2f62efb838.png
  • 只适用于值为整数的类别型变量,实际输出如下:
import 
  • 如图输出为birthplace的one-hot结果,num_buckets用于确定每一个one-hot向量的最大特征类别数

2.1.2 categorical_column_with_vocabulary_list or categorical_column_with_vocabulary_file

  • categorical_column_with_vocabulary_list or categorical_column_with_vocabulary_file根据单词的序列顺序,把单词根据index转换成one hot encoding

a2f1635aceab68ec40489ef38f11fb45.png
  • 主要用于处理非整数型的类别特征,两个函数的区别在于处理变量类别的多少,数量前者对应类别少的情况,所有可能的类别可以直接输入,后者对应类别多的情况,所有可能的类别可以存在一个文件中输入,实际输出如下:
import 
  • 如图输出为sex的one-hot结果,其后跟着的list用于定义该变量的所有类别。

2.1.3 categorical_column_with_hash_bucket

  • categorical_column_with_hash_bucket:对于处理包含大量文字或数字类别的特征时可使用hash的方式,这能快速地建立对应的对照表,缺点则是会有哈希冲突的问题。

f5551a42c6a0544c5de3be704ea0d160.png
  • hash_bucket_size的大小一般设置为总类别数的2-5倍,该函数适用于不能确定所有类别样式的类别变量,实际输出如下:
import 
  • 如上,输出为department的one-hot结果,对于不同类的department出现了哈希冲突的情况。

2.1.4 crossed_column

  • crossed_column特征交叉,在有些情况下,特征独自编码与多维特征交叉后的特征特性会有不一样的结果。
  • 该函数不能对hash映射之后的特征进行交叉,实际输出如下:
import 
  • 如上,输出为cross的one-hot结果,hash_bucket_size代表输出的交叉向量的one-hot维度。

2.1.5 embedding_column

  • embedding_column:把categorical的data,借由lookup table的方式找寻对应的feature vector来表示。假设有81个单词,若使用categorical_column_vocbulary_list,然后转乘numerical的indicator_column,则需要81维度来描述此些单词,这样极易造成数据的稀疏化,对于推荐系统而言,大维度的稀疏数据对于结果的影响较大,因此我们考虑使用embedding_column,来对数据进行压缩,实际输出如下:
import 
  • 如上,输出为交叉特征的embading向量,embedding_column的输入为处理之后的特征变量,可以是categorical也可以是dense的。

2.2 Dense column

2.2.1 numeric_column

  • numeric_column:该函数主要用于处理连续型变量,即可以是float类型也可以是int类似,从table中读取对应的(key)column,并把它转成dtype的格式,实际情况如下:
import 

2.2.2 bucketized_column

  • bucketized_column: 该函数将连续变量进行分桶离散化,输出one-hot的结果,方便连续值指标与分类变量进行交叉特征构建,

031d0b49219da67c3d268da220f5071c.png
  • 实际情况如下:
import 

3. 总结

本文通过直观的数据输出来展现tf.feature_column的特征处理过程,方便大家理解这个函数,tensorflow作为目前最常用的深度学习框架,有着很多高级的API,这些接口都可以极大方便我们算法工程师的工作,tf.estimator不仅可以很好地处理特征,同时它将train、evaluatete、predict都集成到了一起,大家平时可以多使用该接口。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/365973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytorch如何定义损失函数_对比PyTorch和TensorFlow的自动差异和动态模型

使用自定义模型类从头开始训练线性回归,比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法,这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型,以及这些框架在训练循环…

Gradle命令行便利

在我的《用Gradle构建Java的gradle tasks 》一文中,我简要地提到了使用Gradle的“ gradle tasks ”命令来查看特定Gradle构建的可用任务。 在这篇文章中,我将对这一简短提及进行更多的扩展,并查看一些相关的Gradle命令行便利。 Gradle可以轻松…

java封装实现Excel建表读写操作

对 Excel 进行读写操作是生产环境下常见的业务,网上搜索的实现方式都是基于POI和JXL第三方框架,但都不是很全面。小编由于这两天刚好需要用到,于是就参考手写了一个封装操作工具,基本涵盖了Excel表(分有表头和无表头&a…

argmax函数_1.4 TensorFlow2.1常用函数

1.4 TF常用函数tf.cast(tensor,dtypedatatype)可以进行强制类型转换。tf.reduce_min(tensor)和tf.reduce_max(tensor)将计算出张量中所有元素的最大值和最小值。import tensorflow as tfx1 tf.constant([1., 2., 3.], dtypetf.float64)print("x1:", x1)x2 tf.cast(…

设计模式---数据结构模式之迭代器模式(Iterate)

一:概念 迭代模式是行为模式之一,它把对容器中包含的内部对象的访问委让给外部类,使用Iterator(遍历)按顺序进行遍历访问的设计模式。 在应用Iterator模式之前,首先应该明白Iterator模式用来解决什么问题。…

识别Gradle约定

通过约定进行配置具有许多优点,尤其是在简洁方面,因为开发人员不需要显式配置通过约定隐式配置的内容。 但是,在利用约定进行配置时,需要了解约定。 这些约定可能已经记录在案,但是当我可以编程方式确定约定时&#xf…

高校c语言题库,C语言-中国大学mooc-题库零氪

第1 周 程序设计与C语言简介1.1 程序设计基础随堂测验1、计算机只能处理由人们编写的、解决某些问题的、事先存储在计算机存储器中的二进制指令序列。第1周单元测验1、通常把高级语言源程序翻译成目标程序的程序称为( )。A、编辑程序B、解释程序C、汇编程序D、编译程序2、一个算…

场景法设计测试用例

在面向对象的软件开发中,事件触发机制是编程中经常遇到的。 (一)场景法原理 现在的软件几乎都是用事件触发来控制流程的。像GUI软件、游戏等。事件触发时的情景形成了场景,而同一事件不同的触发顺序和处理结果就形成了事件流。这种…

python中range函数是什么意思_python里range是什么

python range() 函数可创建一个整数列表,一般用在 for 循环中。函数语法(推荐学习:Python视频教程)range(start, stop[, step]) 参数说明: start: 计数从 start 开始。默认是从 0 开始。例如range(5&#x…

android高德地图搜索地址,地点/周边搜索-Android平台-开发指南-高德地图车机版 | 高德地图API...

关键字搜索第三方通过该接口可传入关键字信息给auto,调起auto执行关键字搜索并跳转到搜索结果展现界面,官网版本都可支持参数说明参数说明是否必填类型ActionAUTONAVI_STANDARD_BROADCAST_RECV是stringKEY_TYPE协议ID:10036是intSOURCE_APP第三方应用名称…

Luogu 3626 [APIO2009]会议中心

很优美的解法。 推荐大佬博客 如果没有保证字典序最小这一个要求,这题就是一个水题了,但是要保证字典序最小,然后我就不会了…… 如果一条线段能放入一个区间$[l, r]$并且不影响最优答案,那么对于这条线段$[l, r]$,设$…

python编程求导数_面向对象编程 —— java实现函数求导

首先声明一点,本文主要介绍的是面向对象(OO)的思想,顺便谈下函数式编程,而不是教你如何准确地、科学地用java求出函数在一点的导数。 一、引子 defd(f) :defcalc(x) : dx 0.000001 #表示无穷小的Δx return (f(xdx) - …

BZOJ5093图的价值(斯特林数)

题目描述 “简单无向图”是指无重边、无自环的无向图(不一定连通)。一个带标号的图的价值定义为每个点度数的k次方的和。给定n和k,请计算所有n个点的带标号的简单无向图的价值之和。因为答案很大,请对998244353取模输出。题解因为…

python程序写诗_用Python作诗,生活仍有诗和远方

原标题:用Python作诗,生活仍有诗和远方 报 名 来源:TheodoreXu链接: https://segmentfault.com/a/1190000013154329 常听说,现在的代码,就和唐朝的诗一样重要。 可对我们来说,写几行代码没什么&…

华为鸿蒙手机beta版,鸿蒙2.0 Beta手机版来了!明年将全面支持华为手机

读创/深圳商报记者陈 姝备受关注的华为鸿蒙操作系统(HarmonyOS,以下简称鸿蒙)有了新进展。华为消费者业务软件部总裁王成录日前透露,将于12月16日在北京发布鸿蒙2.0手机开发者Beta版本。王成录在12月14日发微博称:“HarmonyOS正沿着我们在HDC…

Django 路由层

Django的下载与基本命令 下载Django:pip3 install django2.0.1创建一个django project: django-admin startproject luffy在mysite目录下创建应用:python manage.py startapp app01启动django项目:python manage.py runserver 8080 我们访问:…

caffe安装_目标检测之caffe-ssd模型训练与测试

最近把一个ssd网络的net..prototxt网络结构和自己生成的hdf5格式数据一起做训练时发现经常报错,因为ssd中一些层在caffe中并没有实现,需要自己写相应的.cpp,.cu文件重新编译,比较麻烦,而大家通常训练caffe-ssd都是基于原作者公开的…

Python之classmethod和staticmethod的区别

python中3种方式定义类方法,常规方式、classmethod修饰方式、staticmethod修饰方式。 class A(object):def foo(self, x):print(调用foo函数 (%s, %s)%(self, x))print(self:, self)classmethoddef class_foo(cls, x):print(调用class_foo函数 (%s, %s) % (cls, x))…

php开发微信图灵机器人

本着开源为原则,为这个世界更美好作出一份共享,我就给大家做个指路人,如果实用,记得给提供开源的朋友一些鼓励。 简单介绍一下实现思路,使用swoole扩展接管php运行,由于swoole只能在类UNIX上运行&#xff0…

jQuery源码的基础知识

序言:DOM addEventListener attachEvent与addEventListener区别适应的浏览器版本不同,同时在使用的过程中要注意attachEvent方法 按钮onclickaddEventListener方法 按钮click一、arguments对象: 1、arguments 属性 为当前执行…