个人和结对项目 - 英语单词词频统计

个人或结对编程项目 英语单词词频统计程序

 (最新版本在这里)

实现一个命令行程序,支持几种模式下的单词词频统计

Implement a console application to tally the frequency of words under a directory.

For all text files (file extension: "txt") under a directory (recursively), calculate the frequency of each word, and output the result into a text file.  

2 options to write the program:

    a) Write the code in C++ or C#, using .Net Framework, the running environment is 32-bit Win7 or Win10. with VS studio 2012-2015 profiling tool

    b) Write the code in Java, using latest JDK, run it on Win10, or Linux platform with appropriate Java profiling tool

Run performance analysis tool on your code, find performance bottlenecks and improve.

Enable Code Quality Analysis for your code and get rid of all warnings.

Code Quality Analysis:  http://msdn.microsoft.com/en-us/library/dd264897.aspx 

Write 10 simple test cases to make sure your program can handle these cases correctly (e.g.  a good test case could be: one of the sub-directories is empty).

Submission:

Submit your source code and exe to TA, TA will run it on his testing environment and check for

       - correctness   (incorrect program will get 0 points)

       - performance

       - write a blog (see blog requirement below)

Definition:

A word: a string starting with one English alphabet letters, then followed by optional alphanumerical characters.  Words are separated by delimiters. If a string contains non-alphanumerical characters, it’s not a word. Word is case insensitive, i.e. “file”, “FILE” and “File” are considered the same word.

“file123” is a word, and “123file” is NOT a word.

  - Alphabetic letters:  A-Z, a-z.

  - Alphanumerical characters: A-Z, a-z, 0-9.

  - Delimiter: space, non-alphanumerical letters.

  - Output text file: filename is <your email name>.txt

  - Each line has this format

      <word>: number

Where <word> is the string, showing in all upper-case format.  E.g. if only “File” and “file” appear in the test file,  the program should show “FILE”.

Where “number” is the number of times this word appears in the file(s)  The output should be sorted with most frequent word first.  If 2 words have the same frequency, list the words by dictionary order.

Requirements:

1)      Simple mode.   Output simple word frequency.

Myapp.exe <directory-name>

Will output <your-name>.txt file in current directory, the text file contains word ranking list.

2)      Extended mode. 

在执行 Myapp.exe -e2 <directory-name>时,找出最频繁出现的连续两个词(列出前10名)。例如,在一本英文小说中,“good morning” 出现次数最多。

在执行 Myapp.exe -e3 <directory-name>时,找出最频繁出现的连续三个词(列出前10名)。例如“how are you"。

这里连续的词是指由单个空格分隔的词。

The app will output <your-name>.txt file in current directory, the text file contains word ranking list.

3)      support -v, verb tally mode. 

Myapp.exe -v <directory-name>时,找出最频繁出现的动词,包括这个动词出现的各种变态。

在学习英语的过程中我们学习过很多动词,知道动词有原型,和各种时态/语态下的变形。 例如:

原型: do

变形:does, did, done, doing.

那么,一篇英语文章里, 有多少个动词”do” 和它的各种变形呢? 最频繁的动词前10名是什么呢?这就是我们这个练习的目的。

任务分解:

1)自己构造(或者助教提供)一个动词及其变形的文本文件。 每一行开头是原型,后面跟着各种变形,例如:

     do does did done doing

     get gets got gotten getting

     ...

2) 处理

  Myapp.exe -v <directory-name>

    对于每一个符合条件的文件处理, 然后统计出所有文件中最频繁动词的前10名。

Blog Requirement:

You can publish this to BOTH your own blog, and your team blog (to help your team blog get some traffic)

1)      Before you implement this project, Record your estimate about the time you WILL spend in each component of your program.

2)      After you had implemented this project, record the ACTUAL time you spent in each component of your program.

3)      Describe how much time you spent on improving the performance of your program, and show a performance analysis graph (generated by VS2012 perf analysis tool), if possible, please show the most costly function in your program.

4)      Share your 10 test cases, and how did you make sure your program can produce the correct result. (programs with incorrect result will get 0 points,  regardless of speed)

5)      Describe what you had learned in this exercise.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/500356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人或结对项目 - 动态显示程序运算的过程

现在网上有很多关于动态显示排序过程的小工具&#xff0c;小程序。 1) https://visualgo.net/sorting 2) http://jsdo.it/norahiko/oxIy/fullscreen 3) http://coolshell.cn/articles/4671.html 我们能否也做一些类似的工作呢&#xff1f; 在在这个作业中 (http:…

构建之法 第三版 17 章 部分草稿

构建之法 17 章  人&#xff0c;绩效和职业道德 (<构建之法> 第三版草稿) 2016/12/23 17.1 领导力 在软件开发过程中&#xff0c;有很多平等合作&#xff0c;但是也有上下之分的领导/被领导关系&#xff0c;即使都是平级的员工之间&#xff0c;也有老师傅/新人&#xf…

构建之法 第三版 第3章 部分草稿 (剪牦牛毛、老程序员去金融公司的故事)...

/* * 这是 《构建之法》 第三版的草稿 */ 3.2 软件工程中的几种思维误区 正如我们在第一章讲的那样&#xff0c;软件有很多特性&#xff0c;软件开发有它自己独特的规律&#xff0c;如果不了解这些特性&#xff0c;软件工程师就会产生不符合实际的想法&#xff0c;在开发过程中…

软件工程课的分数系统,和打分方法

考考考&#xff0c;老师的法宝&#xff1b;分分分&#xff0c;学生的命根。 以《构建之法》为核心的软件工程课已经在全国几十个学校开展了好几年&#xff0c;由于采用 Learning by doing (做中学) 的方法&#xff0c; 同学们通过实际的作业获得分数&#xff0c;逐渐累积并转换…

现代软件工程作业 – 计算最长英语单词链

结对编程 – 计算最长英语单词链 《构建之法》练习题 大家经常玩成语接龙游戏&#xff0c;我们试一试英语的接龙吧&#xff1a;一个文本文件中有N 个不同的英语单词&#xff0c; 我们能否写一个程序&#xff0c;快速找出最长的能首尾相连的英语单词链&#xff0c;每个单词最多只…

现代软件工程讲义 个人项目和结对项目练习 四则运算

这是构建之法 《现代软件工程》课的作业题之一。 下面的题目&#xff0c; 从简单的命令行处理和数据处理开始开始&#xff0c;让同学们逐步练习&#xff0c;巩固算法&#xff0c;学会松耦合的设计&#xff0c;学会PSP&#xff0c;源代码控制&#xff0c;单元测试&#xff0c;回…

软件工程作业 - word count

(编程和软件工程作业系列) 实践最简单的项目&#xff1a;WC 实践是理论的基础和验证标准&#xff0c;希望读者贯彻“做中学”的思想&#xff0c;动手实现下面的项目&#xff0c;并和别人的成绩相比较&#xff0c;分析产生差距的原因。 1. 实现一个简单而完整的软件工具(源程序特…

软件工程课, 编程课 助教的工作介绍

在用 "做中学 (Learning By Doing) " 方式讲授编程和软件工程课的时候&#xff0c;我们认为助教在其中起了很大的作用。 费曼学习方法的精髓是 “以教代学” 。如果不能向其他人简单地解释一件事&#xff0c;那么你就还没有真正弄懂它。 我们课程的各位助教&#xff…

软件工程资料 - 优秀的大学怎么教程序开发和软件工程课

他山之石&#xff0c;可以攻玉 世界上很多大学都有不错的教学方法&#xff0c; 例如我们曾经的助教总结他在国外的学习经历&#xff0c;可以看出老师和学校对于如何教好课是花了心思&#xff0c; 有很多投入的。 一门课怎么上&#xff1a; https://zhuanlan.zhihu.com/p/206103…

第二届构建之法论坛预告(草案)

(草案) 时间&#xff1a;2018年7月初 (暂定 7/9 - 7/11) 地点: 北京航空航天大学 活动&#xff1a;为期三天的软件工程教案设计培训和软件专业教育方法的讨论 时间内容工具备注第一天上午 1. 论坛主题演讲 “构建之法教学改进” 构建之法的教学是如何演进到目前的形态的&#x…

AI应用开发实战系列之一: 从零开始配置环境

AI应用开发实战 - 从零开始配置环境 与本篇配套的视频教程请访问&#xff1a;https://www.bilibili.com/video/av24421492/ 零、前提条件 一台能联网的电脑&#xff0c;使用win10 64位操作系统请确保鼠标、键盘、显示器都是好的 建议和反馈&#xff0c;请发送到 https://g…

usb连接不上 艾德克斯电源_第十二届(深圳)新能源汽车核心电源技术研讨会成功举办...

2019年4月26日&#xff0c;由大比特主办的第十二届(深圳)新能源汽车核心电源技术研讨会在深圳登喜路国际大酒店成功举办。本次会议受到了法雷奥、长安铁雪龙、比亚迪、蔚来汽车、麦格米特、科陆电子、欣锐、英威腾、晶福源、英可瑞、瀚美特、航嘉驰源、核达中远通、永联、优优绿…

AI应用开发实战系列之二:从零开始搭建macOS开发环境

AI应用开发实战 - 从零开始搭建macOS开发环境 本视频配套的视频教程请访问&#xff1a;https://www.bilibili.com/video/av24368929/ 零、前提条件 一台能联网的电脑&#xff0c;使用macOS操作系统请确保鼠标、键盘、显示器都是好的 建议和反馈&#xff0c;请发送到 https…

安卓能硬改的手机机型_手机后盖材质,金属比塑料的好,玻璃比金属的好,是这样么?...

从2000年至今&#xff0c;18年手机发生了巨大变化到现在&#xff0c;人们不再唯性能至上屏幕、拍照、材质、工艺等等也成了人们选购手机的标准手机后盖材质的发展史很好的见证了人们喜好的变化接下来我们来看手机后盖材质的演变史从手机的创造到手机的普及作为一个材料人我们经…

AI应用开发实战系列之三:手写识别应用入门

AI应用开发实战 - 手写识别应用入门 手写体识别的应用已经非常流行了&#xff0c;如输入法&#xff0c;图片中的文字识别等。但对于大多数开发人员来说&#xff0c;如何实现这样的一个应用&#xff0c;还是会感觉无从下手。本文从简单的MNIST训练出来的模型开始&#xff0c;和…

重力加速度换算_中考物理重难点汇总——公式换算大全

初中物理中最重要的部分就是公式了&#xff0c;在这之中公式的换算可以说是一个难点&#xff0c;也是一个重点。力学部分一、速度公式火车过桥(洞)时通过的路程s&#xff1d;L桥&#xff0b;L车声音在空气中的传播速度为340m/s 光在空气中的传播速度为3108m/s二、密度公式(ρ水…

[人工智能教程] 人工智能暑期课实践项目建议

哈工大人工智能暑期课实践项目建议 这个博客介绍了暑期课实践作业的建议。 时间&#xff1a;7/10 - 7/22. 一周上课&#xff0c; 一周项目实践。 要求&#xff1a;项目实践的过程请用公开的博客记录。 项目的源代码请放到 github 中。 每4 ~ 5 人一个小组&#xff0c;从下…

新手一小时就写出人工智能应用 - 看图识熊

来不及了&#xff0c;先上车&#xff1a; 人工智能开发案例 熊的分类 如何安装必要的工具并配置环境呢&#xff0c;请看这个详细的解说 今后会有更详细的文字版在这个专题出现。 如果有对这个教程有疑问&#xff0c;请在这里留言。

c++ 线性回归_模型之母:简单线性回归的代码实现

模型之母&#xff1a;简单线性回归的代码实现关于作者&#xff1a;饼干同学&#xff0c;某人工智能公司交付开发工程师/建模科学家。专注于AI工程化及场景落地&#xff0c;希望和大家分享成长中的专业知识与思考感悟。0x00 前言 在《模型之母&#xff1a;简单线性回归&最小…

AI应用开发实战系列之四 - 定制化视觉服务的使用

AI应用开发实战 - 定制化视觉服务的使用 本篇教程的目标是学会使用定制化视觉服务&#xff0c;并能在UWP应用中集成定制化视觉服务模型。 前一篇&#xff1a;AI应用开发实战 - 手写识别应用入门 建议和反馈&#xff0c;请发送到 https://github.com/Microsoft/vs-tools-for-…