LeetCode 609. 在系统中查找重复文件(哈希)

1. 题目

给定一个目录信息列表,包括目录路径,以及该目录中的所有包含内容的文件,您需要找到文件系统中的所有重复文件组的路径。
一组重复的文件至少包括二个具有完全相同内容的文件。

输入列表中的单个目录信息字符串的格式如下:

"root/d1/d2/.../dm f1.txt(f1_content) f2.txt(f2_content) ... fn.txt(fn_content)"

这意味着有 n 个文件(f1.txt, f2.txt ... fn.txt 的内容分别是 f1_content, f2_content ... fn_content)在目录 root/d1/d2/.../dm 下。注意:n>=1 且 m>=0。如果 m=0,则表示该目录是根目录。

该输出是重复文件路径组的列表。
对于每个组,它包含具有相同内容的文件的所有文件路径。
文件路径是具有下列格式的字符串:

"directory_path/file_name.txt"
示例 1:
输入:
["root/a 1.txt(abcd) 2.txt(efgh)", "root/c 3.txt(abcd)", "root/c/d 4.txt(efgh)", "root 4.txt(efgh)"]
输出:  
[["root/a/2.txt","root/c/d/4.txt","root/4.txt"],["root/a/1.txt","root/c/3.txt"]]注:
最终输出不需要顺序。
您可以假设目录名、文件名和文件内容只有字母和数字,并且文件内容的长度在 [150] 的范围内。
给定的文件数量在 [120000] 个范围内。
您可以假设在同一目录中没有任何文件或目录共享相同的名称。
您可以假设每个给定的目录信息代表一个唯一的目录。目录路径和文件信息用一个空格分隔。超越竞赛的后续行动:假设您有一个真正的文件系统,您将如何搜索文件?广度搜索还是宽度搜索?
如果文件内容非常大(GB级别),您将如何修改您的解决方案?
如果每次只能读取 1 kb 的文件,您将如何修改解决方案?
修改后的解决方案的时间复杂度是多少?
其中最耗时的部分和消耗内存的部分是什么?如何优化?
如何确保您发现的重复文件不是误报?

来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/find-duplicate-file-in-system
著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。

2. 解题

class Solution {	// C++
public:vector<vector<string>> findDuplicate(vector<string>& paths) {unordered_map<string, unordered_set<string>> m;//文件内容, 文件路径集合string content, path, file;for(auto& p : paths) {content = path = file = "";int i = p.find(' ');path = p.substr(0,i)+"/";//路径bool foundcontent = false;for(i++; i < p.size(); ++i){if(p[i] == '('){foundcontent = true;continue;}if(p[i] == ')'){m[content].insert(path+file);//记录内容包含的路径文件foundcontent = false;content = file = "";i++;//跳过空格continue;}if(!foundcontent)file += p[i];elsecontent += p[i];}}vector<vector<string>> ans;for(auto& mi : m){if(mi.second.size() >= 2)ans.push_back(vector<string>(mi.second.begin(), mi.second.end()));}return ans;}
};

212 ms 36.1 MB

class Solution:# py3def findDuplicate(self, paths: List[str]) -> List[List[str]]:m = {};for p in paths:i = p.find(' ')content, path, file = "","",""path = p[0:i]+'/'foundcontent = Falsei += 1while i < len(p):if p[i]=='(':foundcontent = Truei += 1continueif p[i]==')':if content not in m:m[content] = set()m[content].add(path+file)foundcontent = Falsecontent, file = "", ""i += 2continueif not foundcontent:file += p[i]else:content += p[i]i += 1ans = []for content in m:if len(m[content]) >= 2:ans.append(list(m[content]))return ans

332 ms 25.7 MB

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

邮件服务器之POP3协议分析

第1章. POP3概述 POP3全称为Post Office Protocol version3&#xff0c;即邮局协议第3版。它被用户代理用来邮件服务器取得邮件。POP3采用的也是C/S通信 模型&#xff0c;对应的RFC文 档为RFC1939。 该协议非常简单&#xff0c;所以我们只重点介绍其通信过程&#xff0c;而相关…

Python 画图常用颜色 - 单色、渐变色、混色 - 够用

单色 装了seaborn扩展的话&#xff0c;在字典seaborn.xkcd_rgb中包含所有的xkcd crowdsourced color names。如下&#xff1a; plt.plot([1,2], lw4, cseaborn.xkcd_rgb[baby poop green]) 虽然觉得上面的已经够用了&#xff0c;但是还是备份一下这个最全的吧。 渐变色&…

[scikit-learn 机器学习] 2. 简单线性回归

文章目录1. 简单线性回归2. 评价模型本文为 scikit-learn机器学习&#xff08;第2版&#xff09;学习笔记1. 简单线性回归 import numpy as np import matplotlib.pyplot as pltX np.array([[6],[8],[10],[14],[18]]) y np.array([7,9,13,17.5,18]) plt.title("pizza …

Python 画图常用点的形状,Matplotlib 设置参数marker的值 - o + - ★☆►◁ - 够用

markertype含义“.”point点“,”pixel像素“o”circle圆“v”triangle_down下三角“^”triangle_up上三角“<”triangle_left左三角“>”triangle_right右三角“1”tri_down类似奔驰的标志“2”tri_up类似奔驰的标志“3”tri_left类似奔驰的标志“4”tri_right类似奔驰的…

iphone静态库的加载和调试

一. iphone静态库的加载&#xff1a;使用静态库需要提供*.a库文件和*.h头文件。 1. 在xcode中Frameworks项上点击右键add->existing files选择*.a库文件 2. 在classse项上点击右键add->existing files选择*.h头文件 3. 在需要使用库文件的*.m文件中添加import “*.h” 二…

Matplotlib - 散点图 scatter() 所有用法详解

目录 基本用法 散点的大小不同&#xff08;根据点对应的数值&#xff09; 散点的颜色不同&#xff08;指定颜色或者渐变色&#xff09; 散点图和折线图是数据分析中最常用的两种图形&#xff0c;他们能够分析不同数值型特征间的关系。其中&#xff0c;散点图主要用于分析特征…

VC 6中使用不同调用规范的函数在符号文件里的表示方式

在以前老版本的C编译器里&#xff0c;编译器会为使用不同调用约定&#xff08;Calling Convention&#xff09;的函数生成不同的名称&#xff0c;不仅是连接程序会遵从这个命名规则&#xff0c;调试器也会遵守这个命名规则。因此在Visual Studio里调试使用老版本编译器编译出来…

Matplotlib - 折线图 plot() 所有用法详解

散点图和折线图是数据分析中最常用的两种图形。其中&#xff0c;折线图用于分析自变量和因变量之间的趋势关系&#xff0c;最适合用于显示随着时间而变化的连续数据&#xff0c;同时还可以看出数量的差异&#xff0c;增长情况。 Matplotlib 中绘制散点图的函数为 plot() &…

html 拍照旋转了90度_华为Mate X2概念图:可旋转正反三屏幕,单颗镜头在转轴上...

如果你是新朋友&#xff0c;请点击上方的蓝色字 关注 “高科技爱好者”&#xff0c;保证不会让你失望的.华为折叠手机的上市发售&#xff0c;引起了消费者的广泛关注&#xff0c;尤其是华为MateX系列手机的售价非常昂贵&#xff0c;同时出货量也比较少&#xff0c;所以外界都十…

[scikit-learn 机器学习] 3. K-近邻算法分类和回归

文章目录1. KNN模型2. KNN分类3. 使用sklearn KNN分类4. KNN回归本文为 scikit-learn机器学习&#xff08;第2版&#xff09;学习笔记K 近邻法&#xff08;K-Nearest Neighbor, K-NN&#xff09; 常用于 搜索和推荐系统。 1. KNN模型 确定距离度量方法&#xff08;如欧氏距离…

[转帖]关于Linux下的icotl函数

关于Linux下的icotl函数 最近接触android开发&#xff0c;因为有时间所以就关注了下android的源码&#xff0c;在跟踪源码过程中到最后都会遇到icotl函数&#xff0c;虽然在Symbian中曾经遇到过RSocket的icotl函数&#xff0c;但是当时没有细究&#xff0c;今天有时间就搜索了下…

Matplotlib - 柱状图、直方图、条形图 bar() barh() 所有用法详解

目录 基本用法 多个直方图并列显示 显示直方图上的数值 多个直方图堆叠显示 水平直方图 相较散点图和折线图&#xff0c;柱状图&#xff08;直方图、条形图&#xff09;、饼图、箱线图是另外 3 种数据分析常用的图形&#xff0c;主要用于分析数据内部的分布状态或分散状…

word里双横线怎么打_美人计 | 精致打工人秀智,教你内双怎么化

通勤妆千千万&#xff0c;大家画好才能算。国民初恋裴秀智搭档“南朋友”南柱赫&#xff0c;《启动了》这部剧让很多颜值控都纷纷沦陷了。起初奔着这两大主角看的&#xff0c;结果看着看着又被男二金宣虎圈了粉&#xff0c;在剧中裴秀智和金宣虎两小无猜的感情没能发展成爱情&a…

LeetCode 480. 滑动窗口中位数(大小堆升级版+set实现)

1. 题目 中位数是有序序列最中间的那个数。 如果序列的大小是偶数&#xff0c;则没有最中间的数&#xff1b;此时中位数是最中间的两个数的平均数。 例如&#xff1a; [2,3,4]&#xff0c;中位数是 3 [2,3]&#xff0c;中位数是 (2 3) / 2 2.5 给你一个数组 nums&#xff0…

Matplotlib - 饼图、环形图 pie() 多重饼图 subplots() 所有用法详解

目录 基本用法 饼图中突出显示某部分 环形图&#xff08;空心饼图&#xff09; 多重饼图&#xff0c;并添加分割线 相较散点图和折线图&#xff0c;柱状图、饼图、箱线图是另外 3 种数据分析常用的图形&#xff0c;主要用于分析数据内部的分布状态或分散状态。饼图主要用于…

USACO2.11 The Castle hdu1198

题意&#xff1a; 我们憨厚的USACO主人公农夫约翰(Farmer John)以无法想象的运气,在他生日那天收到了一份特别的礼物&#xff1a;一张“幸运爱尔兰”&#xff08;一种彩票&#xff09;。结果这张彩票让他获得了这次比赛唯一的奖品——坐落于爱尔兰郊外的一座梦幻般的城堡&#…

LeetCode 1072. 按列翻转得到最大值等行数(查找相同的模式,哈希计数)

1. 题目 给定由若干 0 和 1 组成的矩阵 matrix&#xff0c;从中选出任意数量的列并翻转其上的 每个 单元格。 翻转后&#xff0c;单元格的值从 0 变成 1&#xff0c;或者从 1 变为 0 。 返回经过一些翻转后&#xff0c;行上所有值都相等的最大行数。 示例 1&#xff1a; 输入…

Matplotlib - 箱线图、箱型图 boxplot () 所有用法详解

目录 基本用法 水平箱线图&#xff0c;显示均值 改变箱线图的形状&#xff08;箱体的形状notch、异常值的形状sym&#xff09; 改变箱线图的颜色&#xff08;箱体边框的颜色、箱体填充色&#xff09; 相较散点图和折线图&#xff0c;柱状图、饼图、箱线图&#xff08;箱…

【转载】三极管,场效应管 工作原理小结

三极管属于流控器件&#xff0c;即Ib控制放大Ic&#xff0c; 场效应管属于压控器件&#xff0c;即Ugs控制Id。 二者都有三个工作区域&#xff0c;即截止区&#xff0c;恒流区和可变电阻区。 Ib小于开启电流时&#xff0c;Ic不受控&#xff0c;Rce很大&#xff0c;Ic很小&#x…

educoderpython答案顺序结构程序设计_答案汇总:土木机械类+计算机类

土木机械类(点击图片查看答案)理论力学1哈工大第7版机械设计濮良贵第9版机械原理西工大第8版材料力学1刘鸿文第5版结构力学1龙驭球第4版结构力学朱慈勉第2版工程力学范钦珊第2版材料力学2孙训方第5版理论力学教程水小平机械工程控制基础杨叔子第6版自动控制原理胡寿松第6版土力…