3 电影点评数据分析实践
利用本身自带的电影点评数据,来具体看一下TableAgent的分析能力,选择电影点评数据,智能体会自动导入该数据DMSC20000.csv,大小为3.3 MB。在数据信息展示区,就会显示出该数据,并提供了一些常见的问题,或者说是典型的数据问题,提供给用户,后面是具体的数据。
我们选择第二个问题,“我想了解评价在不同电影的占比,算下每个电影有多少评论条数,从高到底排序,并画出饼图,说说你的看法”,TableAgent就会给出回答。
可以查看TableAgent的给出的回答,可以说完全回答了全部问题,包括评论从高到低的排序,画出来饼图,也说出了自己的观点,最后还进行了扩展,考虑到下一步可能会问到的问题,列出来了几个,引导用户的进一步思考。
TableAgent展示了完整的数据分析过程,并考虑到了下一步可能的问题,为用户提供了进一步的思考方向。这种完整性和扩展性使得用户不仅仅获得了数据分析结果,还能够在深入思考之后得到更多洞察和启发。
通过这个示例,TableAgent展现了其强大的数据分析能力和智能化的特点,帮助用户从大量数据中快速获取有意义的信息,并为用户提供了深入思考和探索的引导。
4 科学数据(松鼠行为特征数据)分析实践
4.1松鼠行为特征数据集概述
这份数据集包含了关于城市中松鼠行为的多项记录。其中,字段包括经度(long)、纬度(lat)、独特松鼠ID(unique_squirrel_id)、公顷编号(hectare)、巡逻时段(shift)、日期(date)、公顷内松鼠数量(hectare_squirrel_number)、年龄(age)、主要毛色(primary_fur_color)、突出毛色(highlight_fur_color)、主要和突出毛色的组合(combination_of_primary_and_highlight_color)、毛色备注(color_notes)、位置描述(location)、地面以上目测高度(above_ground_sighter_measurement)、具体位置(specific_location)、奔跑(running)、追逐(chasing)、攀爬(climbing)、进食(eating)、觅食(foraging)、其他活动(other_activities)、"kuks"声音(kuks)、"quaas"声音(quaas)、"moans"声音(moans)、尾巴挥动(tail_flags)、尾巴抽动(tail_twitches)、接近(approaches)、无动作(indifferent)、逃离(runs_from)、其他互动(other_interactions)、经纬度合并值(lat_long)、邮政编码(zip_codes)、社区地区(community_districts)、行政区边界(borough_boundaries)、市议会辖区(city_council_districts)以及警区(police_precincts)。
这些字段记录了松鼠在城市中的位置、数量、毛色特征、活动行为以及与人类或其他松鼠的互动等情况。通过这些记录,我们可以了解松鼠在不同地理区域和时间段内的行为模式和习性,为城市生态学研究提供了重要的数据基础。此外,邮政编码、社区地区、行政区边界、市议会辖区和警区等信息也为研究者提供了对城市环境和松鼠行为关系的更深入理解。这些数据通过对城市中不同地点和时间段内松鼠的观察和记录获取,为研究者提供了深入了解松鼠行为模式和习性的重要依据。
4.2 松鼠活动特征数据分析
4.2.1 奔跑和追逐数据分析
是否有观察到松鼠在地面或树枝间奔跑或进行追逐的情况?如果有,这种行为的频率如何?这些奔跑或追逐行为是否与特定活动时段相关?
在奔跑和追逐数据分析中,TableAgent能够准确快速地识别记录中松鼠的奔跑和追逐行为。通过分析数据,它能确定是否有观察到这种行为以及其频率,同时分析行为与特定活动时段的关联。这样的功能使得研究者可以迅速了解松鼠的运动模式,及其在不同时间段下的行为习惯。
4.2.2 进食和觅食数据分析
记录中有多少次松鼠被观察到在觅食过程中?觅食的主要食物来源是什么?松鼠的觅食行为是否与特定地点或毛色相关联?
进食和觅食数据分析中,TableAgent能迅速分析记录中松鼠的觅食行为,确定觅食次数以及主要食物来源。它能够探究觅食行为与特定地点或毛色的关联,帮助研究者了解松鼠的饮食习性以及可能的地理和生态环境影响。
4.2.3 社交互动数据分析
观察记录中有多少次松鼠展现了社交行为,比如发出特定声音、尾巴挥动或接近其他松鼠?这些社交行为是否与特定年龄段或地理位置有关?
在社交互动数据分析中,TableAgent能快速识别记录中松鼠的社交行为,如特定声音、尾巴挥动或接近其他松鼠等。它可以分析这些社交行为与特定年龄段或地理位置之间的关联,为研究者提供对松鼠社交行为模式的洞察。
4.2.4 其他活动数据分析
记录中是否有松鼠的其他活动描述,如休息、整理毛发或寻找巢穴等?这些其他活动的发生频率或位置分布有何特点?
进行其他活动数据的分析,包括休息、整理毛发或寻找巢穴等行为的发生频率和位置分布。这种综合的活动分析为研究者提供了更全面的松鼠行为习性认识,从而更好地理解其生态习性。
5 生产环境的用户登录数据分析实践
5.1 用户登录数据和场景说明
某艺术品馆建设了艺术品的管理系统,艺术品馆的工作人员需要经常登录管理系统开展日常工作,比如进行艺术品的展览、保护、艺术品的文创开发等,管理系统的用户登录表记录了每个用户登录的具体时间,基本数据集就是包含"id","user","logintime","departmentid","department"等字段,主要数据字段为用户姓名,登录时间、用户所属部门等3个数据字段。其中用户姓名进行了脱敏处理,不影响数据分析。登录时间采用用的是年月日时分秒的具体时间,如“2021-11-16 11:20:00”。登录数据共包括6463条,跨度从2021年7月到2023年11月,工作人员涉及到140人左右,部门涉及到25个。
快到年底了,艺术品馆的领导想要了解一下本馆工作人员使用管理系统的情况,信息人员需要对数据进行统计分析,比如哪些用户登录次数比较多,哪些部门使用次数比较多,每年使用多少次,每个月使用多少次,做出一个统计表,这样可以直观看到用户使用系统的情况。
5.2 用户登录数据分析的不同场景
5.2.1 场景一
问题是,统计一下,哪些用户登录次数最多,取出前5名,并且统计他们每个人每年的登录次数。然后让TableAgent进行分析。
TableAgent通过两次尝试,以表格形式给出了分析结果,查看分析结果,满足我们的要求。
5.2.2 场景二
查看一下,用户在一周当中,周几的登录次数最多,周几的登录次数少,说明了什么问题?
TableAgent给出的答案
“根据我们的数据分析,周一的登录用户数量最多,为1401,其次是周二,周三,周四,周五的登录用户数量分别为1297,1281,1271和1095。这可能表明周一是公司的主要工作日,公司的业务量较大,需要大量的登录用户支持。同时,周二至周五的登录用户数量相对较多,这可能是因为这些天是公司的业务淡季,或者公司的某些业务在周一已经进行了较多的宣传和推广,因此在周二至周五的登录用户数量较多。”
这个结果也符合实际情况,工作人员都是在周一到周五上班时间登录管理系统,开展业务工作,在周末,只有加班的人才会使用系统,所以会少很多。
5.2.3 场景三
根据用户的登录时间,分析出用户的活跃时间段,按照工作时间划分,上午9点到下午5点,每个小时统计一次。
TableAgent给出的结果
从这个数据中,我们可以看出,上午9点到10点是用户的活跃高峰期,这可能是因为这个时间段是他们日常的工作时间。而下午5点之后,用户的活跃度开始下降,这可能是因为他们已经下班,没有时间进行在线活动。
这个结果也是符合实际情况的,工作人员都是上午8点半上班,下午4点半下班,所以主要登录都集中这这个时间段,而且中午12点到下午2点,工作人员休息,登陆系统的用户也明显变少。
5.2.4 场景四
统计一下哪些部门的用户登录次数最多,列出登录次数最多的5个部门,并统计这5各部门每年的登录次数?
TableAgent给出的结果如下
从结果可以看出,统计登录最多的5个部门,TableAgent给出了很好的回答,在统计每年登录的次数时,也给出回答,不过,有一些是没有排名前5的部门,有一些瑕疵。